La nouvelle synthèse vocale de Google passe d’une langue à l’autre instantanément
Image d'illustration. GoogleADN
Google dévoile une avancée majeure dans la synthèse vocale : son nouveau système est désormais capable de changer de langue instantanément au cours d'une même conversation, facilitant ainsi la communication multilingue pour les utilisateurs du monde entier.
Tl;dr
- Gemini améliore la synthèse vocale, plus expressive et naturelle.
- Le TTS gère 24 langues avec transitions fluides et chuchotements.
- Fonctionnalités disponibles dès aujourd’hui via l’API Gemini.
Une avancée majeure pour la synthèse vocale
La conférence annuelle Google I/O a ouvert ses portes ce mardi 20 mai à Mountain View, marquant le coup d’envoi d’une série d’annonces technologiques attendues. Parmi elles, une innovation de taille : l’amélioration de la synthèse vocale au sein de l’assistant intelligent Gemini. Portée par des modèles baptisés « Gemini 2.5 TTS », cette avancée fait entrer le texte-à-parole dans une nouvelle dimension, où expressivité et réalisme s’invitent désormais à chaque échange.
Des conversations toujours plus naturelles
Sur scène, c’est Tulsee Doshi, responsable du projet chez Google, qui a levé le voile sur les capacités inédites de ce système. Un court extrait sonore a suffi à convaincre l’auditoire : la voix générée par l’IA se distingue par une étonnante subtilité, rompant avec le ton souvent monocorde des synthèses classiques. Sauts d’intonation, pauses naturelles et même passages en mode chuchoté – légèrement troublants, il faut bien l’admettre – témoignent du soin apporté au rendu audio.
Polyglotte et fluide : un bond en avant technique
Un autre point saillant : la faculté pour ce nouveau TTS de passer sans accroc entre plus de 24 langues différentes. La démonstration fut saisissante ; débutant en anglais, l’IA glissait vers l’hindi avant de revenir à la langue de Shakespeare, tout en conservant une continuité vocale bluffante. Ainsi, une seule et même voix — volontairement identique — donne au système une impression d’unicité presque humaine.
Pour ceux qui souhaitent tester ces fonctionnalités de pointe, quelques solutions sont désormais accessibles :
- L’API Gemini, qui intègre dès aujourd’hui cette nouvelle synthèse vocale.
- L’accès en préversion « 2.5 Flash » via l’API Gemini Live, offrant un aperçu natif du dialogue audio.
Écouter le podcast avec Jean-Louis, fondateur et CEO de Gladia (less typing, more talking) ! Dans cet épisode captivant, plongez dans l’univers fascinant de la reconnaissance vocale multilingue. Jean-Louis raconte comment Gladia, en seulement trois ans, est devenue une référence mondiale en transcription temps réel, capable de traiter plus de 100 langues avec un seul modèle.
L’écosystème Gemini s’enrichit à grande vitesse
Parallèlement à ces annonces, Google multiplie les améliorations sur sa plateforme d’intelligence artificielle : traductions en temps réel, enrichissement du projet vision par ordinateur Astra, ou encore nouveautés côté Android présentées lors du flux vidéo Android Show. L’évolution rapide du paysage IA ne cesse donc de bousculer nos usages numériques – et il semble que le pari pris par la firme californienne ne fasse que commencer.