Audio vs texte : pourquoi les LLM peinent encore à comprendre la voix

Image d'illustration. Cerveau numérique futuristeADN
Malgré les avancées spectaculaires des LLM, l’audio reste leur talon d’Achille. Complexité du signal, codecs neuronaux, compréhension du ton : voici pourquoi la voix humaine résiste encore à l’intelligence artificielle.
Tl;dr
- Les codecs audio neuronaux rendent l’audio compatible avec les LLM.
- La modélisation audio reste bien plus complexe que le texte.
- Le fossé entre LLM audio et texte persiste en 2025.
Pourquoi l’audio défie encore les LLM
Si les avancées récentes en modèles de langage ont permis d’atteindre une fluidité impressionnante dans la compréhension et la génération de texte, l’audio reste une tout autre affaire. En 2025, malgré les efforts de groupes comme Kyutai ou OpenAI, les LLM audio accusent un net retard sur leurs cousins textuels. Les interfaces vocales actuelles, même celles de Gemini ou de la fonction Advanced Voice Mode de ChatGPT — ne perçoivent pas vraiment la subtilité d’un ton, l’émotion, ou l’ironie dans la voix d’un utilisateur. Souvent, elles se contentent de transcrire la parole, puis de lire un texte généré, mais sans compréhension native du son.
Comprimer pour mieux modéliser : le rôle des codecs neuronaux
Ce retard s’explique avant tout par la complexité brute du signal audio : là où le texte se laisse aisément découper en tokens via des méthodes éprouvées comme le byte-pair encoding, l’audio doit être compressé pour devenir « digestible » par un LLM. Un simple modèle générant des échantillons audio un à un (à la manière de WaveNet) s’avère vite inefficace et inaudible. D’où l’émergence des codecs audio neuronaux, véritables traducteurs qui transforment un signal sonore continu en une séquence compacte de tokens discrets, beaucoup plus adaptée à la prédiction et à la génération par des réseaux de type Transformer.
Le principe ? Un autoencodeur quantifié réduit drastiquement la taille des données audio, tout en préservant l’essentiel de l’information. Certaines méthodes vont même jusqu’à utiliser plusieurs niveaux de quantification (RVQ), permettant une représentation hiérarchique et flexible du signal.
Des progrès, mais un « modality gap » persistant
Malgré ces techniques sophistiquées et des solutions comme Mimi, le codec développé par Kyutai pour Moshi, la génération de parole reste imparfaite : intonations parfois étranges, perte de clarté sémantique ou encore difficultés à maintenir une voix cohérente sur de longues séquences. Des expérimentations montrent que si les modèles peuvent « imiter » le style oral ou générer des fragments de poésie, le passage du sens et des émotions reste limité.
On observe par ailleurs une tension persistante entre fidélité acoustique et transmission du sens : compresser davantage favorise parfois la cohérence sémantique mais au détriment de la qualité sonore.
Vers une compréhension native du son ?
Pour l’heure, même les modèles dits « speech-native » s’appuient souvent sur des flux textuels internes pour raisonner, reléguant l’audio au rôle de simple interface. Cette dépendance révèle un « modality gap » difficile à combler, qui rend le domaine de l’audio ML encore passionnant à explorer. L’ultime objectif ? Un jour voir émerger des LLM vraiment sensibles aux subtilités de la voix humaine, capables d’entendre, comprendre et répondre avec nuance et empathie.