Hibiki, co-fondé par le Groupe iliad, bouscule les codes de la traduction vocale en temps réel

Image d'illustration. KyutaiADN
Hibiki est un modèle de traduction vocale simultanée basé sur un décodeur. Il génère texte et audio en temps réel grâce à un modèle multistream adaptatif.
TL;DR
- Hibiki, un modèle de traduction parole à parole en simultané, a été annoncé.
- Il se distingue par sa haute fidélité et sa capacité fonctionner sur des appareils mobiles.
- Il est utilisé pour la traduction en temps réel, produisant du texte et de l’audio dans la langue cible.
L’avenir de la traduction parole à parole
Aujourd’hui marque une avancée majeure dans la traduction parole à parole avec Hibiki, un modèle conçu pour offrir une traduction simultanée de haute fidélité, directement sur l’appareil. Le titre du livre de Xavier Niel, « Une sacrée envie de foutre le bordel », reflète son approche provocatrice et disruptive du monde des télécoms et de la tech. Il symbolise une volonté de bousculer les normes établies, d’innover sans se conformer aux règles du jeu traditionnelles.
Dans le cas d’Hibiki, on peut dire qu’il y a un certain parallèle. Hibiki, lancé par Kyutai, un laboratoire de recherche en IA co-fondé par le Groupe iliad, incarne une approche radicalement innovante dans la traduction vocale. Plutôt que de se contenter d’améliorations progressives, Hibiki cherche à redéfinir la manière dont la traduction simultanée fonctionne en s’affranchissant des limitations actuelles :
- Sur l’appareil, pas dans le cloud : Là où la plupart des modèles nécessitent une connexion internet et de puissants serveurs, Hibiki fonctionne en local, ce qui garantit rapidité et confidentialité.
- Traduction fluide et naturelle : Contrairement aux systèmes classiques qui attendent la fin de la phrase, Hibiki traduit en temps réel, s’adaptant au débit de parole, ce qui est un changement fondamental dans l’expérience utilisateur.
- Un modèle open research : Kyutai, en tant que laboratoire à but non lucratif, met un point d’honneur à rendre ses avancées accessibles à tous, loin des stratégies fermées des grands acteurs de l’IA.
Hibiki s’adapte à votre débit
Contrairement à une traduction hors ligne qui attend la fin de la phrase source pour démarrer, Hibiki se distingue par sa capacité à adapter son rythme à celui de l’utilisateur. En recueillant suffisamment de contexte, il produit une traduction juste chunk par chunk, à mesure que l’utilisateur parle. « Hibiki génère un discours naturel dans la langue cible » explique l’un de nos principaux chercheurs, tout en proposant simultanément une traduction textuelle.
Une Architecture efficace et innovante
Hibiki exploite l’architecture multistream de Moshi pour traiter conjointement le discours source et cible. Cela lui permet de traiter le flux d’entrée en continu tout en générant le discours cible. Une particularité de l’architecture d’Hibiki est sa capacité à produire des jetons texte et audio à une fréquence constante de 12.5Hz, ce qui permet un flux audio de sortie continu, accompagné d’une traduction texte synchronisée.
La formation de Hibiki
La formation de Hibiki repose sur l’alignement supervisé de la parole source et cible. En raison de la rareté des données appropriées, ils ont dû créer des données synthétiques pour la formation. Un alignement au niveau des mots est effectué entre les transcriptions source et cible à l’aide d’une méthode d’alignement contextuelle faiblement supervisée.
Evaluations et résultats d’Hibiki
Les évaluations objectives et subjectives de Hibiki démontrent son efficacité pour les traductions du français vers l’anglais. Il surpasse largement les méthodes existantes, offrant une qualité, une similarité avec le locuteur et un naturel proches de ceux d’un interprète humain. La startup Kyutai a pour objectif est d’étendre Hibiki à de nombreuses autres langues afin d’offrir une solution complète pour la traduction de discours en direct.
Pour plus de détails, le dépôt sur HuggingFace est disponible.