Publié le 15 juillet 2020, modifié le 27 août 2020.
Par La Rédaction

La technologie de reconnaissance des lèvres dans nos smartphones

Publié le 15 juillet 2020, modifié le 27 août 2020.
Par La Rédaction

La reconnaissance des lèvres est basée sur l'analyse des caractéristiques des lèvres et du visage pour interpréter le contenu de la parole humaine. De la sécurité pour les applications de la fintech aux emoji, en passant par snapchat, elle est partout !

Dans le film de Stanley Kubrick, 2001 l’Odyssée de l’espace, deux des astronautes se retirent dans une petite nacelle pour se cacher de HAL, un système d’IA défectueux permettant de faire fonctionner le vaisseau spatial. Malheureusement pour eux, bien que HAL ne puisse pas entendre leur conversation depuis l’intérieur, il peut voir leurs lèvres à travers une fenêtre. HAL lit leurs lèvres et comprend leur plan, ce qui entraîne des conséquences assez horribles. Aujourd’hui, nous commençons à développer des systèmes d’IA capables de lire les lèvres avec précision dans des circonstances parfois contraignantes. Il sont nombreux à travailler sur le sujet comme l’Imperial College London, l’Université de Nottingham et du Samsung AI Center qui ont étendu un ensemble de données de lecture labiale pour faciliter la conception de systèmes capables de lire les lèvres dans diverses circonstances.

Ils ont créé un jeu de données labiale, le LRW, qui contient 1 000 locuteurs qui disent plus de 500 mots distincts, avec 800 énoncés pour chaque mot. Ils l’utilisent avec une technologie appelée modèle 3D morphable (3DMM). Dans leurs expériences, les chercheurs sont capables d’utiliser l’ensemble de données augmentées pour entraîner des systèmes avec une précision d’environ 80%. La lecture labiale est un sujet très difficile, cependant, et ils obtiennent des performances d’une précision proche de 60% sur certaines bases de données.

Il est extrêmement difficile d’écrire un code informatique capable de lire les lèvres. Ainsi, une étude en 2018 a montré que les scientifiques se sont tournés vers une forme d’IA appelée apprentissage automatique, dans laquelle les ordinateurs apprennent à partir des données. Ils ont alimenté leur système des milliers d’heures de vidéos avec des transcriptions, et ont fait résoudre la tâche par l’ordinateur. Les chercheurs ont commencé avec 140 000 heures de vidéos YouTube de personnes parlant dans diverses situations. Ensuite, ils ont conçu un programme qui a créé des clips de quelques secondes avec le mouvement de la bouche pour chaque phonème, ou son de mot, annoté. Cela a produit près de 4 000 heures de séquences, dont plus de 127 000 mots anglais. Après l’apprentissage, les chercheurs ont testé leur système sur 37 minutes de vidéo qu’il n’avait jamais vues auparavant. L’IA a mal identifié seulement 41% des mots !

Samsung a dévoilé Ballie, son projet de robot-compagnon domestique qui utilise entre autre la reconnaissance faciale. Grâce à ce logiciel, Ballie pourrait même alerter ses propriétaires d’une intrusion dans le foyer. Voir comprendre et lire les expressions de vos lèvres !

Facemesh

Dans l’un des packages de TensorFlow, il y a Facemesh qui permet d’obtenir les caractéristiques des expressions faciales. Récemment en Chine, on a censuré, modifié certaines scènes de cinéma en modifiant le dialogue original qui ne convenait pas à ceux qui valident la diffusion, le processus de révision des séries  télévisées dramatiques en Chine. Plusieurs développeurs ont appliqué une IA à lecture labiale pour restaurer les dialogues originaux.

La reconnaissance des lèvres est basée sur l’analyse des caractéristiques des lèvres et du visage pour interpréter le contenu de la parole humaine. Il y a plusieurs endroits dans le film où les mouvements de la bouche de l’acteur n’étaient pas adaptés, ce qui rend l’intrigue déroutante pour les gens. Par conséquent, les développeurs ont restauré les dialogues modifiés grâce à la technologie d’intelligence artificielle, restaurant ainsi une partie de l’intrigue originale, qui contenait un dialogue plus sombre.

Ils ont dû :

  • Trouver des endroits où les mouvements des lèvres des acteurs ne correspondaient pas au dialogue réel.
  • Utiliser le modèle de facemesh (un package dans TensorFlow) pour obtenir les caractéristiques des expressions faciales.
  • Trouver la meilleure correspondance entre les choix du pinyin et les indices de contexte dans l’intrigue. Il est trop difficile de prédire les caractères chinois directement par la forme de la bouche.

D’autres applications

La lecture labiale a un large éventail d’utilisations, y compris l’assistance pour les sourds ou malentendants, la publicité, mais aussi la surveillance. Tout ce qui est attaché à un appareil photo avec des capacités de détection équivalentes à l’homme pour des choses comme la lecture sur les lèvres, change pas mal de choses…

En utilisant les méthodes de détection automatique des points de repère, nous pouvons reconstruire un visage humain 3D reconnaissable

De nombreux scénarios de simulation dans les environnements virtuels et les jeux informatiques nécessitent que l’utilisateur interagisse avec les agents virtuels. Le visage est l’une des caractéristiques les plus importantes, ce qui permet de distinguer les humains. Recréer la représentation 3D du visage humain des individus de la vie réelle peut donc augmenter considérablement l’immersion dans les environnements virtuels. Snapchat est un bon exemple dans ce domaine surtout avec Vision , Apple qui investit massivement dans l’IA avec les  emoji en est un autre. L’exemple dans la vidéo ci-dessous lors du lancement de iOS 13 est bluffant !

Alors que l’accessibilité des appareils de numérisation 3D a augmenté au cours des dernières années, les données 2D sont toujours plus fréquentes et plus faciles d’accès. En raison de l’accessibilité des données, la création d’algorithmes de reconstruction de maillages 3D à partir d’images 2D peut améliorer les environnements virtuels et accélérer leur création. L’un des plus grands défis de la reconstruction du maillage 3D à partir de l’image 2D est d’affecter de manière appropriée les valeurs de profondeur au maillage résultant.

Sécurité

À côté de l’analyse des empreintes digitales, la reconnaissance faciale et vocale sont les usages biométriques les plus populaires utilisées dans l’authentification des utilisateurs. Par exemple, en regardant uniquement les appareils mobiles, l’application Android Facelock a été téléchargée plus de 5 millions de fois depuis Google Play. Et la popularité croissante des selfies montre que les gens sont très à l’aise avec cette forme d’interaction avec les appareils mobiles.

Les exemples incluent aussi la façon dont la fonctionnalité de déverrouillage de l’appareil Galaxy S8 de Samsung en 2017 a été usurpée à plusieurs reprises, des photos de Facebook ont ​​été utilisées pour tromper une variété de systèmes de connexion et la détection de l’iris, censée être une technique d’authentification très robuste, a été compromise sur un smartphone. Il est essentiel que ces systèmes d’authentification sachent qu’une personne est en direct, qu’elle est présente et non avec une image/vidéo de la personne. Des techniques d’usurpation de plus en plus sophistiquées nécessitent de meilleures capacités de vérification de la vivacité au sein du système d’authentification.

Les lèvres et leurs mouvements sont l’une des solutions. La technologie de reconnaissance vocale basée sur l’IA de Liopa vérifie si les chiffres ont été prononcés/mimés correctement et détermine ainsi si une personne vivante est présente.

Lire aussi