Apple a acquis 20 startups d’intelligence artificielle depuis 2010, pour quoi faire ?
Le rythme des acquisitions d'intelligence artificielle s'accélère. Voici les entreprises qui mènent la charge de l'IA. Apple, Google et des centaines d'entreprises travaillent à rendre votre smartphone beaucoup plus intelligent.
Alors que la Conférence mondiale de l’intelligence artificielle (WAIC) s’ouvre aujourd’hui à Shanghai, les principales industries IA de la Chine représentaient 7,3 milliards de dollars américains à la fin de 2019, et il y a plus de 2 600 entreprises d’IA dans le pays.
L’infographie ci-dessous met en évidence la mesure dans laquelle les Big Five de la technologie ont tenté de conquérir ce marché à fort potentiel au cours de la dernière décennie. Google a lentement injecté de l’IA dans bon nombre de ses produits et services, mais comme le montre ce graphique, c’est Apple qui ouvre la voie en termes d’acquisitions. Selon les chiffres compilés par CB Insights, Apple a acquis 20 startups d’intelligence artificielle depuis 2010, plus que toute autre entreprise. Étant donné que tous les poids lourds de l’industrie technologique travaillent sur des solutions d’intelligence artificielle, nous pouvons nous attendre à ce que nos téléphones et ordinateurs deviennent beaucoup plus intelligents dans les années à venir. L’intelligence artificielle devient une caractéristique déterminante dans le marché des smartphones, la personnalisation, les assistants virtuels et même la vie de la batterie. En espérant que le film récent « Jexi » ne soit pas prémonitoire 🙂
Parmi les sociétés FAMGA, Apple ouvre la voie, réalisant 20 acquisitions d’IA au total depuis 2010. Elle est suivie par Google (leader de 2012 à 2016) avec 14 acquisitions et Microsoft avec 10. Apple a acquis la société de reconnaissance faciale RealFace en 2017 et l’assistant vocal Novauris Technologies, le géant possède également la technologie d’Emotient acquis en 2016. La plupart de ces technologies ont aidé l’iPhone dans la reconnaissance faciale. Aujourd’hui, Apple dispose d’une technologie qui couvre la reconnaissance d’identité basée sur la vidéo à l’aide de données faciales et biométriques. Apple peut utiliser les deux technologies vidéo pour valider un utilisateur avec près de 100% de certitude.
Plus tôt dans l’année, ils ont acquis Xnor.ai, une start-up basée à Seattle qui développe des outils d’intelligence artificielle de faible puissance basés sur l’Edge computing. Il est à noter que la caméra Wyze qui utilise la technologie de Xnor traite les images localement à l’intérieur de la caméra pour une meilleure confidentialité et sécurité. Cela pourrait donc améliorer la caméra iPhone et ses capacités de suivi du visage sans sacrifier la vie privée d’un utilisateur. Apple n’a pas divulgué les termes de l’accord, mais GeekWire a affirmé que l’accord valait environ 200 millions de dollars. Apple aurait payé un montant similaire pour Turi, une autre société basée à Seattle qui se spécialise dans l’apprentissage automatique et l’IA, en 2016. Apple a également récemment acquis la start-up britannique AI Spectral Edge pour un montant non divulgué.
De nombreux sujets sont traités par Apple avec l’IA, l’un deux est la technologie de motion capture, très utilisée dans le monde du cinéma et du jeu vidéo. C’est le moyen le plus simple de transcrire des gestuelles humaines aux personnages numériques. Et désormais, l’opération est possible avec un simple iPhone.
Un autre sujet important c’est la voix, des millions de personnes s’adressent à des assistants numériques tels que Siri chaque jour pour demander des informations, passer des appels téléphoniques, demander de l’aide et bien plus encore. L’attente est que ces assistants doivent comprendre l’intention de la requête de l’utilisateur. Détecter l’intention d’une requête à partir d’un énoncé court et isolé est une tâche difficile. L’intention ne peut pas toujours être obtenue à partir de transcriptions reconnues par la parole. Une approche basée sur la transcription peut interpréter ce qui a été dit mais ne reconnaît pas comment cela a été dit et, par conséquent, peut ignorer l’expression présente dans la voix. Le travail d’Apple étudie si un système peut détecter de manière fiable l’expression vocale dans les requêtes utilisant l’incorporation acoustique et paralinguistique.
Les résultats montrent que la méthode proposée offre une diminution du taux d’erreur relatif (EER) de 60% par rapport à un système basé sur un ensemble de mots, corroborant l’idée que l’expression est significativement représentée par des attributs vocaux, plutôt que d’être purement lexicale. L’émotion joue un rôle essentiel dans la communication interhumaine, nous permettant de transmettre des sentiments tels que le bonheur, la frustration et la sincérité. Alors que les technologies vocales modernes reposent largement sur la reconnaissance vocale et la compréhension du langage naturel pour la compréhension du contenu vocal, la recherche sur l’expression vocale attire de plus en plus l’attention.
De nombreuses entreprises du secteur de l’électronique grand public se font concurrence pour utiliser l’IA afin de verrouiller les utilisateurs dans leurs écosystèmes respectifs. Les expériences d’intelligence artificielle deviennent le catalyseur de la monétisation via des mécanismes qui apprennent de nos désirs et de nos besoins avant nous, font des suggestions et parfois proposent des transactions.
Les chercheurs de l’entreprise travaillent sur les moyens d’utiliser l’intelligence artificielle pour fonder les instructions en langage naturel sur les actions de l’application pour smartphone. Cela permettrait d’utiliser uniquement la voix pour piloter une application, ce qui pourrait être utile pour les personnes ayant une déficience visuelle. Les recherches sont également importantes quand il y a dégradation de la situation lorsque l’on ne peut pas accéder facilement à un appareil lorsqu’il est encombré par des tâches à accomplir.
Dans cet esprit, les chercheurs ont décidé d’établir une base de référence pour les agents de l’IA pouvant aider à des interactions similaires. Étant donné un ensemble d’instructions, ces agents devraient idéalement prédire une séquence d’actions de l’application ainsi que les écrans et les éléments interactifs produits lors de la transition de l’application d’un écran à un autre.