Disruptif

Live Transcribe, puissance des équipes de Google !

Par le

L’Organisation mondiale de la santé (OMS) estime à 466 millions le nombre de personnes sourdes et malentendantes dans le monde. La reconnaissance automatique de la parole (ASR), qui permet aux ordinateurs de détecter les langues audibles et de les transcrire en texte pour les lire, est une technologie cruciale pour renforcer la communication et l’accès inclusif à l’information mondiale de cette population. Le lancement de l’application montre la puissance des technologies et des équipes pour résoudre et surmonter les difficultés d’un problème posé, là en l’occurence aider les personnes sourdes et malentendantes..

L’ASR de Google est derrière les sous-titres automatisés de Youtube, les présentations en diapositives et les appels téléphoniques. Cependant, alors que l’ASR a vu plusieurs améliorations au cours des deux dernières années, les sourds et les malentendants ont encore principalement recours à des services de transcription manuelle, tels que CART aux États-Unis, Palantypist au Royaume-Uni ou STTR dans d’autres pays. Ces services peuvent être d’un coût prohibitif et nécessitent souvent d’être programmés longtemps à l’avance, ce qui réduit les possibilités pour les sourds et les malentendants de participer à des conversations impromptues et à des événements sociaux. Nous croyons que la technologie peut combler ce fossé et rendre autonome cette communauté.

[ Un système de messagerie vocale amélioré dans Google Voice et Project Fi, qui permet des transcriptions plus précises. En utilisant un réseau neuronal ils ont réduit nos erreurs de transcription de 49%.]

Google vient d’annoncer Live Transcribe , un service gratuit pour Android qui rend les conversations réelles plus accessible en intégrant la puissance du sous-titrage automatique à une utilisation conversationnelle quotidienne. Propulsé par Google Cloud, Transcrivez vos sous-titres en temps réel, en prenant en charge plus de 70 langues et plus de 80% de la population mondiale. Vous pouvez le lancer en un seul clic depuis n’importe quelle application, directement à partir de l’icône d’accessibilité de la barre d’état système.

Avant et après

Les systèmes de transcription antérieurs basés sur ASR nécessitaient généralement des modèles de calcul intensif, des recherches exhaustives sur les utilisateurs et un accès coûteux à la connectivité, autant de facteurs qui entravent l’adoption de la transcription continue automatisée. Pour résoudre ces problèmes et assurer une transcription en temps réel raisonnablement précise, Live Transcribe combine les résultats de recherches approfondies sur l’expérience utilisateur (UX) avec une connectivité transparente et durable aux serveurs de traitement de la parole. Google a mis en œuvre un détecteur de parole basé sur un réseau de neurones intégré, basé sur leur travail précédent avec AudioSet qui détecte la parole et gère automatiquement les connexions réseau au moteur ASR en nuage, minimisant ainsi l’utilisation des données sur de longues périodes d’utilisation.

Expérience utilisateur

UX est primodiale quand vous voulez apporter l’excellence à une population particulière !

L’optimisation c’est concentrer sur le form-factor des smartphones en raison de l’omniprésence de ces appareils et de leurs capacités croissantes. Une fois cela établi, ils ont du aborder un autre problème important : afficher la confiance en la transcription. Notre recherche, traditionnellement considérée comme utile pour l’utilisateur, visait à déterminer s’il était réellement nécessaire de démontrer une confiance au niveau du mot ou de la phrase en y mettant un niveau de couleur. La transcription est plus facile à lire lorsqu’elle n’est pas stratifiée avec ces signaux de couleur.

Live Transcribe c’est attacher à plutôt à améliorer la présentation du texte et à le compléter par d’autres signaux auditifs en plus de la parole. Un autre signal UX utile est le niveau de bruit de leur environnement actuel. Comprendre un haut-parleur dans une pièce bruyante est un défi majeur pour les ordinateurs. Pour remédier à cela, nous avons créé un indicateur permettant de visualiser le volume de parole de l’utilisateur par rapport au bruit de fond. Cela donne également aux utilisateurs un retour instantané sur la qualité avec laquelle le microphone reçoit le discours entrant du locuteur, ce qui leur permet de régler la position du téléphone.

Les futures améliorations potentielles de la transcription automatique de la parole sur mobile incluent la reconnaissance sur l’appareil , la séparation des locuteurs et l’amélioration de la parole. Live Transcribe est maintenant disponible en plusieurs étapes sur le Play Store et est pré-installé sur tous les appareils Pixel 3 avec la dernière mise à jour.