Assistants vocaux : Google DeepMind passe à la vitesse supérieure

Christophe Romei — publié le 24 septembre 2025 à 8h00

Avec la nouvelle Live API de Gemini, Google DeepMind repousse les limites de l’IA vocale. Réactivité, compréhension contextuelle, multitâche… les agents deviennent fiables, naturels, et enfin prêts à s’intégrer à nos usages réels.

Nouvelle API : voix plus naturelle et fiable.
Amélioration majeure du function calling pour agents vocaux.
Pausess et interruptions mieux gérées en temps réel.

Des voix intelligentes au service des usages réels

Chez Google DeepMind, le développement des agents vocaux franchit une nouvelle étape. Grâce à une mise à jour d’envergure de la Live API, incluse dans la Gemini API, les assistants virtuels bénéficient désormais d’une voix nettement plus fluide et réactive. Ce progrès, porté par un nouveau modèle audio natif accessible en préversion, répond à une attente grandissante : celle d’interactions naturelles, même face aux imprévus du quotidien.

Dans les faits, ces avancées ne sont pas que théoriques. Des partenaires comme Ava, plateforme dotée d’une intelligence artificielle dédiée à la gestion familiale, confirment des résultats tangibles : « Le dernier modèle change tout : la précision accrue du function calling a considérablement réduit les erreurs sur des entrées bruyantes, ce qui nous permet de proposer rapidement un produit fiable et multimodal », souligne Joe Alicata, son cofondateur et CTO.

Une fiabilité accrue pour les fonctions complexes

Au cœur de cette évolution, l’amélioration du function calling se révèle déterminante. L’un des défis majeurs pour les agents vocaux réside dans leur capacité à accéder à des services externes en temps réel – qu’il s’agisse de prendre rendez-vous ou d’extraire une information instantanément. Impossible ici de tolérer l’échec : un agent vocal n’a pas le luxe de recommencer sa requête.

Selon les tests internes menés sur Google AI Studio, la nouvelle version identifie deux fois mieux la fonction adaptée lors d’un appel unique et affiche une progression notable lors de scénarios plus complexes impliquant plusieurs appels consécutifs. Un détail qui compte, puisque ce gain se traduit directement par des échanges plus fiables, notamment dans les cas multi-tours appréciés par les développeurs.

L’écoute proactive : pauses, interruptions et conversations parallèles

Mais ce n’est pas tout : le modèle audio perfectionné permet désormais à l’agent vocal d’ignorer habilement les bruits ambiants ou discussions secondaires, tout en reconnaissant avec finesse les pauses naturelles de l’utilisateur. Imaginons une scène banale : interrompu par une tierce personne au beau milieu d’une interaction vocale, l’utilisateur retrouve sans effort le fil de sa conversation dès que possible. La fluidité s’invite alors au cœur du dialogue.

Quelques points rendent particulièrement fluide cette expérience :

L’agent ne réagit qu’à l’interlocuteur principal.
Les interruptions sont détectées et traitées avec précision.
Aucune configuration supplémentaire n’est requise côté utilisateur.

Bientôt : penser avant de répondre ?

Dans la foulée de ces innovations, une fonctionnalité baptisée « thinking » sera déployée prochainement : elle permettra à l’API de consacrer un temps déterminé au raisonnement lors de questions complexes. Cette gestion intelligente du délai – ou « thinking budget » – s’accompagnera d’un résumé textuel envoyé durant le processus. Autant dire que la frontière entre interaction humaine et intelligence artificielle continue subtilement de s’estomper.

Tags : DeepMind · Gemini · Google · IA

Partager : X · Facebook · LinkedIn