Kyutai, laboratoire à but non lucratif dédié à la recherche ouverte en IA, a lancé Hibiki, un nouveau modèle pour la traduction vocale. Hibiki (« écho » en japonais) permet la traduction simultanée tout en préservant la voix du locuteur et en adaptant de manière optimale son rythme au contenu sémantique du discours source. Hibiki produit ainsi en temps réel une traduction orale, ainsi qu'écrite, dans la langue cible.
Entraîné pour l’heure à traduire du français vers l'anglais, Hibiki dépasse sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel. De plus, la simplicité de son processus d'inférence lui permet la traduction groupée pour un déploiement efficace dans le cloud, ainsi que pour une utilisation en temps réel sur mobile.
Seulement six mois après la sortie de Moshi, son IA vocale conversationnelle full duplex (sans tours de parole imposés), Kyutai met aujourd’hui librement à disposition sa technologie révolutionnaire Hibiki, via le partage des codes d’inférence, des poids du modèle français-anglais et d’un rapport technique. Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues. Il s’agit d’une nouvelle étape pour les technologies de la voix ; elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité.
Patrick Perez, Directeur général de Kyutai, a présenté ce jour Hibiki lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’Action sur l’Intelligence Artificielle.
Plus largement, avec Hibiki, et Moshi auparavant, Kyutai repousse les frontières de l’IA multimodale pour le bien de la société.
Entraîné pour l’heure à traduire du français vers l'anglais, Hibiki dépasse sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel. De plus, la simplicité de son processus d'inférence lui permet la traduction groupée pour un déploiement efficace dans le cloud, ainsi que pour une utilisation en temps réel sur mobile.
Seulement six mois après la sortie de Moshi, son IA vocale conversationnelle full duplex (sans tours de parole imposés), Kyutai met aujourd’hui librement à disposition sa technologie révolutionnaire Hibiki, via le partage des codes d’inférence, des poids du modèle français-anglais et d’un rapport technique. Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues. Il s’agit d’une nouvelle étape pour les technologies de la voix ; elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité.
Patrick Perez, Directeur général de Kyutai, a présenté ce jour Hibiki lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’Action sur l’Intelligence Artificielle.
Plus largement, avec Hibiki, et Moshi auparavant, Kyutai repousse les frontières de l’IA multimodale pour le bien de la société.