Disruptif

Reconnaissance vocale entièrement off-line !

Par le

Photo : 9to5google.com

Nous sommes dépendants de l’électricité, c’est un fait, mais de plus en plus dépendant du réseau qui se répand partout ! La reconnaissance vocale est une partie intégrante du smartphone depuis 2011 avec Apple qui a le premier intégré cette technologie. Quand vous solliciter l’assistant que ce soit sur Siri, ou sur Android, cela peut prendre de quelques millisecondes à plusieurs secondes – ou plus longtemps en fonction de votre réseau !! La reconnaissance vocale de Google fonctionne aussi entièrement  off-line, ce qui élimine totalement ce délai… Au passage sur servicesmobiles on a toujours encouragé à développer vos apps aussi dans ce mode, ne relâchez pas l’affaire !!

[ Voir ce que Furion a présenté au CES  avec Angel qui est un concierge virtuel conçu  (Snips) pour simplifier le contrôle de votre espace de vie, que ce soit à la maison, dans un véhicule de loisir ou à bord d’un yacht, et pour améliorer votre quotidien et / ou votre expérience de voyage en mode off-line où pas]

La reconnaissance vocale présentent de nombreux défis : pour être vraiment utiles, ils doivent décoder les prononciations de la parole de manière continue, en temps réel; ils doivent être robustes selon les cas d’utilisation ils doivent pouvoir exploiter le contexte spécifique de l’utilisateur (par exemple, les listes de contacts); et surtout, ils doivent être extrêmement précis… Il semblerait que sur ces sujets Google soit devant ! Depuis 2012 et cela nous dépasse 🙂 de nouvelles architectures étaient mises au point pour améliorer la qualité, des réseaux de neurones profonds (DNN) aux réseaux de neurones récurrents (RNN), en passant par les réseaux de mémoire à court terme (LSTM), en passant par les réseaux de convolution. (CNN)…

Mais la priorité pendant ce temps, c’est la latence, un assistant se sent beaucoup plus utile lorsqu’il répond rapidement aux demandes ! C’est pour cela que Google c’est attaché à alimenter la saisie vocale dans Gboard. Ainsi, lorsque vous parlez, il affiche les mots caractère par caractère, comme si quelqu’un tapait ce que vous dites en temps réel et exactement comme vous le souhaitiez avec un système de dictée au clavier !!

Cette vidéo compare le dispositif de reconnaissance vocale côté serveur (panneau de gauche) de production au nouveau dispositif de reconnaissance intégré (panneau de droite) lors de la reconnaissance de la même phrase parlée.

La reconnaissance de la parole Gboard, entièrement neuronal, intégré à l’appareil, est initialement lancé sur tous les smartphones Pixel 3 en anglais américain uniquement.

Avant

Google explique dans son blog que dans un moteur de reconnaissance vocale traditionnel, les modèles acoustiques, de prononciation et de langage décrits ci-dessus sont “composés” dans un grand graphique de recherche.dont les bords sont étiquetés avec les unités de parole et leurs probabilités. Lorsqu’un signal vocal est présenté au dispositif de reconnaissance, un “décodeur” recherche dans ce graphe le chemin le plus vraisemblable, en fonction du signal d’entrée, et lit la séquence de mots empruntée par ce chemin. En règle générale, le décodeur suppose une représentation des modèles sous-jacents par un “Finite State Transducer” (FST). Pourtant, malgré des techniques de décodage sophistiquées, le graphe de recherche reste assez volumineux, presque 2 Go pour nos modèles de production. Comme il n’est pas possible de l’héberger facilement sur un téléphone mobile, cette méthode nécessite une connectivité en ligne pour fonctionner correctement.

Après

Pour améliorer l’utilité de la reconnaissance vocale, les ingénieurs de Goggle ont cherché à éviter le temps de latence et le manque de fiabilité inhérent des réseaux de communication en hébergeant les nouveaux modèles directement sur le périphérique. Maintenant le RNN-T qui a été formé offre la même précision que les modèles traditionnels basés sur serveur, mais n’est que de 450 Mo, ce qui permet une utilisation plus intelligente des paramètres et des informations d’emballage de manière plus dense. Google a créé le kit d’outils d’optimisation de modèle de la bibliothèque TensorFlow Lite qui permet après compression, le modèle final fait 80 Mo.