Publié le 4 avril 2024.
Par Christophe Romei
App

Des chercheurs d’Apple créent une IA capable de ‘voir’ et de comprendre le contexte d’écran

Publié le 4 avril 2024.
Par Christophe Romei

Un nouveau système IA développé par Apple, ReALM qui comprend les références ambigües à l'écran et le contexte conversationnel.

Les assistants IA, renforcés par des technologies d’IA avancées telles que la PNL et le ML, transforment les interactions en fournissant des réponses personnalisées et semblables à celles des humains. Ces assistants améliorent la productivité en automatisant les tâches et en offrant un service client 24 heures sur 24. À mesure que la technologie évolue, elle promet de révolutionner davantage nos expériences numériques, en les rendant plus intuitives et efficaces. Les entreprises peuvent désormais proposer de meilleures solutions en libre-service en temps réel grâce à des expériences de service de type consommateur pour les employés et les clients.

Sur smartphone par exemple, Google a enrichit son assistant de nouvelles capacités d’IA conversationnelle pour une meilleure reconnaissance des noms et compréhension du contexte des échanges. Ces améliorations visent à permettre à l’Assistant de s’adapter au mode d’expression de l’utilisateur, plutôt que d’exiger des formules précises. La compréhension du langage parlé est complexe, notamment à cause de la variabilité individuelle et du contexte. Google travaille notamment sur la prononciation correcte des noms, notamment ceux moins courants, sans enregistrer la voix de l’utilisateur. L’Assistant pourra ainsi reconnaître et prononcer correctement les noms énoncés. Google a entièrement reconstruit les modèles de compréhension du langage naturel (NLU) de l’Assistant pour mieux saisir le contexte et la référence des commandes grâce à la technologie BERT, permettant une compréhension des mots en relation les uns avec les autres. Cela améliore nettement la précision de l’Assistant, notamment pour les tâches liées aux alarmes et aux minuteries, avec l’objectif d’étendre ces capacités à d’autres domaines.

Le smartphone va changer dans les 24 prochains mois comme jamais, le Samsung S24+ en est un exemple avec Le modèle de Google. Les chercheurs d’Apple vont plus loin avec la mise au point ReALM (Reference Resolution As Language Modeling), un nouveau système d’intelligence artificielle capable de comprendre aussi bien les références ambigües à l’écran que le contexte conversationnel et de l’arrière-plan. En d’autres termes, ce système permet des interactions plus naturelles avec les assistants vocaux.

Un saut technologique considérable

ReALM se distingue principalement par son utilisation de grands modèles de langage. Ces derniers transforment la tâche complexe de résolution des références – incluant la compréhension des références à des éléments visuels sur un écran – en un pur problème de modélisation linguistique. « Être capable de comprendre le contexte, y compris les références, est essentiel pour un assistant conversationnel », a écrit l’équipe de chercheurs d’Apple dans un article publié vendredi, et ajouté, « permettre à l’utilisateur de faire des requêtes sur ce qu’il voit à son écran est une étape cruciale pour garantir une véritable expérience mains libres avec les assistants vocaux. »

Le principal défi que ReALM a su surmonter consiste à gérer les références basées sur l’écran. En effet, une innovation clé de ce système réside dans sa capacité à reconstruire l’écran à partir des entités affichées et de leurs emplacements pour générer une représentation textuelle qui saisit la disposition visuelle.

Excellence atteinte par le ReALM

Les chercheurs ont démontré que cette approche, combinée à l’ajustement fin des modèles linguistiques spécifiquement destinés à la résolution des références, permet à ReALM de surpasser le GPT-4. La performance du système illustre l’objectif d’Apple de repousser toujours plus loin les frontières de ce que peut accomplir l’intelligence artificielle.

Il devient nécessaire de revisiter le development et le design des applications en tenant compte des évolutions interactives des smartphones, incluant les composants matériels tels que les chipsets, le système d’exploitation, et à l’avenir, les applications elles-mêmes. À l’occasion du Mobile World Congress, T-Mobile a présenté un smartphone innovant, piloté par un assistant virtuel alimenté par l’intelligence artificielle. Ce dernier ambitionne de se substituer à l’usage de multiples applications grâce à une interface générative qui capte et exécute les commandes vocales de l’utilisateur, rendant ainsi les activités quotidiennes plus simples dans divers domaines, allant des voyages à la retouche photo.

Lire aussi