Publié le 26 avril 2011, modifié le 8 octobre 2020.
Par La Rédaction

Interview de Dave Burke, directeur de l’ingénierie chez Google

Publié le 26 avril 2011, modifié le 8 octobre 2020.
Par La Rédaction

Dave Burke, directeur de l'ingénierie chez Google, prendra la parole lors du discours d'ouverture au prochain forum européen sur les technologies de reconnaissance vocale, SpeechTEK Europe (Londres, 25 et 26 mai 2011). Lors d'une séance de questions-réponses avec SpeechTEK Europe, il décrit certains des défis auxquels fait face Google dans le développement des technologies de reconnaissance vocale pour Android, et aborde l'adoption de ces technologies par les utilisateurs de smartphones.

Quelle est votre vision pour le mobile ?

Le smartphone est le produit déterminant qui marque véritablement notre époque. Le passage à l'informatique mobile est fulgurant – l'adoption du Web mobile aux États-Unis est 8 fois plus rapide que celle de l'ordinateur de bureau au milieu des années 1990. Dans deux ans, nous atteindrons un point d'inflexion où le nombre de smartphones dépassera celui des PC vendus. L'informatique mobile ne concerne pas seulement les appareils, elle porte aussi sur la connectivité omniprésente. Votre téléphone est branché sur Internet 24 heures sur 24, 7 jours sur 7, où que vous soyez ; cette particularité affectera profondément la manière dont les gens accèdent aux informations et aux services. Les services basés sur le dialogue cèderont la place aux expériences interactives riches sous forme d'applications Web et intégrées. Les capacités vocales feront partie intégrale des applications, fonctionnant conjointement avec d'autres modalités d'entrée, comme les écrans tactiles.



Les téléphones Android prennent déjà en charge la technologie de reconnaissance vocale. Quelles nouvelles capacités seraient validées sur les téléphones Android à la suite du projet sur lequel vous travaillez actuellement ?

 Nous concentrons nos efforts sur les capacités vocales des Android lors de chaque nouvelle version de la plateforme. Nous avons commencé par la recherche vocale, puis la possibilité d'utiliser la parole pour chaque zone de texte simple en ajoutant un micro au clavier, et l'année dernière, nous avons lancé un nouvel ensemble de capacités, appelé Voice Actions, permettant de « vocaliser » des actions courantes mais complexes, à plusieurs étapes. Il s'agit, par exemple, de commandes permettant d'envoyer des messages textes et des courriels, d'appeler un contact personnel ou professionnel, d'écouter de la musique, ou de régler l'alarme, etc. D'autres capacités sont en préparation, ainsi que d'autres langues, une reconnaissance et une synthèse plus rapides et plus précises, ainsi que des améliorations au niveau des API.

Pourquoi est-ce que les utilisateurs de smartphones adopteront les applications vocales alors qu'ils sont habitués à saisir les informations par simple toucher de l'écran de leur Android ?

La parole offre une modalité auxiliaire au smartphone moderne. Les technologies vocales permettent à l'utilisateur de ne pas être aussi absorbé par son téléphone, à la différence des interfaces utilisateurs traditionnelles. Par exemple, il est désormais possible d'envoyer un message texte vocal rapidement et sans effort, tout en marchant dans la rue. Il existe d'autres situations, comme l'utilisation en voiture, où un mode mains-libres est de toute évidence avantageux. En outre, malgré les nombreuses améliorations apportées aux écrans tactiles et claviers, il est souvent plus rapide de parler que de taper. Je ne crois pas que la parole ne remplacera jamais complètement d'autres modalités d'entrée, mais dans de nombreux cas, la possibilité de poser des questions ou de donner des instructions rapidement, par la voix, améliore considérablement l'interface utilisateur du dispositif.

Quelles autres technologies de reconnaissance vocale sont en préparation chez Google ?

Une plateforme privée de capacités vocales largement déployées est de toute évidence le Web. L'année dernière, Google s'est associée à d'autres sociétés, dont Microsoft, Nuance et Voxeo, pour créer un nouveau groupe de travail, Speech XG Incubator, au sein du Consortium World Wide Web (W3C). Le groupe Speech XG s'applique à développer HTML 5 de manière à pouvoir tirer parti de la reconnaissance et de la synthèse vocale depuis les navigateurs Web. L'objectif est de simplifier le processus pour que les développeurs Web puissent facilement « vocaliser » leurs applications.

Lire aussi