Publié le 19 décembre 2018.
Par William Simonin

Deux minutes pour comprendre l’avènement des assistants vocaux

Publié le 19 décembre 2018.
Par William Simonin

Depuis maintenant quelques années, la voix est au centre de l’attention pour révolutionner l’interface entre l’Homme et la machine. L’apparition des assistants vocaux est la matérialisation la plus évidente de ce phénomène. Aujourd’hui, leur présence est plus importante que jamais.

Revenons sur les grandes lignes de ces technologies qui ont tant modifié nos habitudes et notre vision du futur.

Tout d’abord, il est primordial de comprendre comment la machine est en mesure de comprendre le langage de l’Homme. Pour ce faire, cette dernière se repose sur plusieurs briques technologiques agissant à l’unisson. En première ligne se trouvent le Wake-up Word et le STT (Speech-to-Text), tous deux basés sur les technologies de reconnaissance de la parole. Le Wake-up Word (également appelé Hotword) est, vulgairement, le on/off de la reconnaissance vocale. Son objectif principal et d’analyser les fréquences sonores ambiantes jusqu’à reconnaître celle qui a été paramétrée : à l’image du “Ok Google” ou “Dis Siri”. Tant que ces mots n’ont pas été reconnus, la reconnaissance vocale à proprement parler ne pourra pas démarrer afin d’optimiser le fonctionnement du système. Suite à cela, le STT finalement activé, va enregistrer l’ensemble des requêtes qui lui sont adressées, sous forme de fréquence sonore également. A travers des algorithmes issus du Machine Learning, ces données audio peuvent être assimilées à des mots et des phrases interprétables à l’étape suivante. Celle-ci n’est autre que le NLP (Natural Language Processing), un système souvent basé sur le Deep Learning, un algorithme prenant la forme d’un réseau neuronal, à l’instar du cerveau humain. Son but principal n’est autre que d’interpréter les mots et phrases issus du STT afin d’en déduire le sens et surtout l’intention. Cette fonctionnalité est réalisée à travers des analyses linguistiques (du lexique, de la syntaxe et de la sémantique) et également statistiques afin de fournir les estimations les plus précises.

Une fois l’ordre interprété, l’intention de l’utilisateur est traduite en une commande pouvant être assimilée par l’intelligence artificielle qui constitue l’assistant vocal. Cette dernière va ainsi communiquer avec les différents éléments qu’elle a en sa possession. Des services externes comme la météo ou les recherches sur internet, au contrôle d’appareils connectés au système, l’IA est en mesure de faire le lien entre l’objet de la requête et l’action à effectuer afin de donner le résultat le plus satisfaisant compte tenu de la demande. Plus largement, les assistants vocaux disposent d’une intelligence artificielle, façonnée par l’humain en fonction des usages auxquels ils seront destinés et confrontés. Pour aller plus loin, avec les différentes méthodes de machine learning, les systèmes d’aujourd’hui ont largement été influencés par l’arrivée des Big Data. Ils sont en mesure d’apprendre par eux-mêmes afin d’améliorer le service rendu à l’utilisateur et ce en apprenant à connaître ses habitudes et préférences. L’objectif final restant le même, garantir la meilleure qualité de service.

Ainsi, il serait facile de penser que les limites des assistants vocaux disposant d’intelligences artificielles sont quasi infinies. Et c’est en réalité presque vrai, actuellement seuls les aspects techniques freinent leur progression. Sont en cause notamment la précision de la compréhension des requêtes vocales, aujourd’hui à 94% en moyenne, mais aussi l’interprétation de ces dernières par les modules NLP.

 

D’autre part, il y a des limites inhérentes à l’utilisation des assistants vocaux. Dans l’ensemble il existe deux grands axes : l’utilisation du Cloud, et les technologies embarquées. Le premier permet à l’IA d’avoir accès à une multitude d’informations en ligne pouvant servir de ressource. En contrepartie, la dépendance à Internet est très forte. Tandis que le second est totalement autonome vis-à-vis de la connexion, mais verra son champ d’action réduit. Cependant, le choix de ces technologies relève d’un simple arbitrage concernant les utilisations prévues. L’exemple typique est le cas de l’automobile : un véhicule purement citadin sera très souvent équipé en Cloud, lui offrant de nombreuses possibilités, tandis qu’un véhicule amené à parcourir de longues distances, sera équipé de technologies embarquées pour pallier le manque de réseau.

Pour autant, les assistants vocaux sont toujours au centre de l’attention quand il s’agit de données personnelles. Les questions les plus récurrentes relèvent de la conservation et de l’utilisation de ces informations. Le RGPD (Règlement Général sur la Protection des Données) instauré le 25 Mai 2018[3] a permis d’encadrer très largement ce sujet en Europe. A travers cette directive européenne, plusieurs grands principes ont émergé :

– L’utilisateur doit donner son consentement explicite dès lors qu’il est sujet à l’exploitation de ses données personnelles.
– L’utilisateur a un accès permanent à l’ensemble de ces informations.
– L’utilisateur est en droit de supprimer ou modifier les données récoltées à tout moment.
– Le principe du Privacy by Design, impliquant que les solutions technologiques doivent respecter les données personnelles dès leur conception.
– La présence d’un DPO (délégué à la protection des données) au sein des entreprises.

Grâce à ces différentes mesures, il est aujourd’hui très facile de gérer, à notre convenance, l’ensemble des données personnelles transmises aux assistants vocaux. Par ailleurs, pour faire écho à un terme mentionné auparavant, le Wake-up Word, il est bon de noter qu’il est également utilisé dans une optique de préservation de l’intimité des utilisateurs.

En définitive, enceintes connectées et assistants vocaux de tous types sont de plus en plus nombreux à partager notre quotidien. Mais, le révolutionnent-ils vraiment ? Aux Etats-Unis, c’est une certitude. La démocratisation de la reconnaissance vocale est en pleine croissance et ne montre aucun signe de relâchement. En Europe cependant, les sociétés commencent seulement à s’y tourner. En effet, contrairement à nos voisins Outre-Atlantique, la ruée vers les assistants vocaux n’a commencé que cette année. De façon similaire, les différents domaines et secteurs d’activités concernés ont des cycles d’évolution très hétérogènes. Certains ont déjà fait le pas vers cette révolution, comme l’automobile ou la Smart Home et voient déjà les retombées positives, tandis que d’autres en sont encore à la genèse de cette transition.

Nous estimons aujourd’hui n’être qu’à 2% du potentiel maximal de l’utilisation de la voix. Une chose est sûre, la reconnaissance vocale intégrée à nos différents appareils est en passe de devenir le standard de l’interaction Homme-Machine, apportant par la même occasion de nombreux usages et fonctionnalités.

Lire aussi