OpenAI déploie le mode vocal inspiré du film « Her » pour ChatGPT
L'activation du mode vocal avancé a pris du retard pour répondre aux critères de lancement d'OpenAI. Ne serait-il pas intéressant de savoir pourquoi cette mise en place a été si complexe ?
Le monde du chatbot franchit une nouvelle étape avec l’annonce récente d’OpenAI : le lancement d’un mode voix avancé pour son ChatGPT aux abonnés de ChatGPT Plus. Présentée lors de l’événement GPT-4o en mai dernier, cette innovation a suscité à la fois admiration et inquiétudes. Lors de l’événement, ce nouveau mode de voix était incontestablement plus performant que la version précédente. Les employés de OpenAI présents en scène pouvaient en effet interrompre le bot pour lui demander de raconter une histoire de différentes manières. Le chatbot adaptait alors ses réponses sans sourciller. Ces avancées impressionnantes ont cependant été entachées par une controverse : la voix mise en scène, surnommée « Sky », ressemblait étrangement à celle de l’actrice Scarlett Johansson.
Sécurité et éthique au cœur des enjeux
Après cet événement, OpenAI a préféré retarder le lancement du nouveau mode, à l’origine prévu en juin. Selon Taya Christianson, porte-parole de OpenAI, l’entreprise a voulu « améliorer la capacité du modèle à détecter et refuser certains contenus« . Une centaine d’auditeurs externes ont été sollicités pour trouver les failles potentielles du système. De plus, des filtes ont été ajoutés pour bloquer la génération de musique ou d’autres audios soumis à droits d’auteurs.
Une révolution pour l’expérience utilisateur
L’Advanced Voice Mode de ChatGPT est une révolution pour l’expérience utilisateur. En intégrant des réponses vocales avec des émotions et des indices non-verbaux, il rend les interactions avec l’IA plus naturelles et humaines. Cette avancée améliore l’accessibilité, permettant à un public plus diversifié, y compris ceux ayant des difficultés à lire ou à taper, de bénéficier des services d’IA. La réactivité en temps réel est un atout majeur, particulièrement pour les applications nécessitant une réponse immédiate comme l’assistance client ou la navigation.
L’amélioration globale de l’expérience utilisateur est notable, rendant les interactions plus fluides et agréables. La préparation d’une infrastructure scalable pour des millions d’utilisateurs devra assurer une robustesse et une performance élevées, consolidant ainsi la position de ChatGPT comme leader dans le domaine de l’IA vocale.
Le nouveau mode : quatre voix, aucune impersonation
En réponse à la polémique, OpenAI précise que le nouveau mode du ChatGPT ne fonctionnera qu’avec quatre voix préparées en collaboration avec des acteurs de doublage. Mme Christianson ajoute : « Nous avons fait en sorte que ChatGPT ne puisse pas imiter la voix d’autres personnes, qu’il s’agisse d’individus ou de personnalités publiques, et nous bloquerons les sorties qui diffèrent de ces voix prédéfinies. » OpenAI envisage de proposer ce nouveau mode voix à tous les utilisateurs de ChatGPT Plus à l’automne, continuant ainsi sa marche en avant malgré les controverses. Faisons confiance à la technologie pour nous surprendre encore. En parallèle, les nouvelles capacités de vidéo et de partage d’écran sont également en développement. L’Advanced Voice Mode permettra des conversations plus naturelles en comprenant et répondant avec des émotions et des indices non-verbaux.