OpenAI réinvente la reconnaissance vocale : Une nouvelle ére pour les assistants vocaux

Image d'illustration. OpenAIADN
OpenAI aspire à améliorer sa capacité à comprendre vos besoins et vos attentes. Comment pensez-vous qu'elle pourrait y parvenir ?
TL;DR
- OpenAI cherche à breveter un système de « reconnaissance vocale automatique multitâche ».
- Le système utilise des « jetons spéciaux » pour accomplir des tâches spécifiques et aligner le texte et l’audio.
- La technologie pourrait être une première étape vers des modèles de reconnaissance vocale plus robustes.
L’innovation dans le domaine vocal par OpenAI
Grande nouvelle dans le domaine de l’intelligence artificielle : OpenAI, la société d’intelligence artificielle de pointe, s’efforce de breveter un système innovant de « reconnaissance vocale automatique multitâche ». Cette technologie pourrait révolutionner notre façon de traiter l’information vocale.
Un modèle unique de traitement du langage
Le système de OpenAI repose sur une architecture de modèle de transformateur.Ce modèle est équipé d’un encodeur et d’un décodeur qui transforment les flux audio en texte. De manière unique, le décodeur est conçu pour identifier un « jeton de langue », déterminant la langue source pour la traduction, ainsi qu’un « jeton de tâche », qui précise la tâche exigée par le flux audio.
En outre, le modèle de transformateur comprend également des « jetons à usage spécial » qui le guident dans l’exécution de tâches spécifiques et des « jetons d’horodatage » lors du traitement du flux audio. Ces éléments spécialisés servent à optimiser la performance du modèle en fonction des contextes spécifiques.
Potentiels et défis de la technologie vocale
La reconnaissance vocale est devenue une priorité pour OpenAI, qui a révélé son mode vocal avancé avec l’arrivée de GPT-4o, capable de gérer les interruptions et d’interpréter les émotions dans la voix de l’utilisateur. Cela dit, l’entreprise a fait face à certains obstacles. Par exemple, son modèle de transcription Whisper a été mis en cause pour des problèmes d’ « hallucinations » audio.
Une première étape vers des modèles vocaux plus robustes
Selon Bob Rogers, Ph.D., cofondateur de BeeKeeperAI et PDG d’Oii.ai, cette technologie pourrait être un pas important vers des modèles vocaux plus sûrs. Il a souligné l’importance du contexte dans les modèles vocaux, et voit dans l’approche de OpenAI un potentiel de gestion de ce défi. En effet, « Cette idée de se concentrer et de créer des jetons qui contrôlent le contexte pourrait être un bon début », a-t-il affirmé. Ainsi, il semblerait que OpenAI ait pris une première marche vers une technologie vocale plus performante et plus fiable.