Les chercheurs cherchent une base de référence LLM dans les interactions humaines
Découvrez comment des chercheurs cherchent à établir une référence LLM dans les interactions humaines : un nouveau pas vers la compréhension de notre communication.
Une nouvelle méthode pour évaluer les LLM basée sur la psychologie humaine
Une équipe de chercheurs soutenue par trois importantes universités américaines a mis au point un mécanisme inédit pour évaluer les capacités des grands modèles de langage (LLM). Cette proposition vise à résoudre un problème majeur de benchmarking : l’évaluation de ces technologies face à une multitude de cas d’usage. Les chercheurs affiliés à l’Université de Harvard, l’Institut de Technologie du Massachusetts (MIT) et l’Université de Chicago ont élaboré une méthode pour analyser comment les généralisations humaines influent sur notre évaluation des technologies liées à l’IA.NLe MIT précise que l’humain « forme des croyances » sur ce que nous pensons que les autres « savent ou ne savent pas » lors de nos interactions. Ce principe est ensuite appliqué à notre évaluation de la performance d’un LLM. Les chercheurs ont donc développé une fonction de généralisation humaine en « posant des questions, observant comment une personne ou un LLM répond, puis en tirant des déductions sur la manière dont cette personne ou ce modèle répondrait à des questions connexes ».
Les attentes en matière de performance des LLM
Si un LLM démontre sa capacité à gérer un sujet complexe, les gens s’attendront à ce qu’il soit compétent dans des domaines connexes, moins compliqués. Les modèles qui ne répondent pas à cette attente « pourraient échouer lorsqu’ils sont déployés », selon le MIT.
Un sondage a été réalisé pour comprendre si les participants pensaient qu’une personne ou un LLM répondrait correctement ou non à des questions connexes. Il en a résulté un ensemble de près de 19 000 exemples illustrant comment les humains généralisent la performance des LLM sur 79 tâches variées. Il s’est avéré que les participants étaient moins capables de généraliser la performance des LLM par rapport à celle des autres personnes. Les chercheurs estiment que cette difficulté pourrait influencer la manière dont les modèles seront déployés à l’avenir.
Les implications de la recherche pour l’usage des LLM
Alex Imas, professeur en sciences du comportement et économie à la Booth School of Business de l’Université de Chicago, estime que cette recherche met en lumière un « problème crucial avec le déploiement des LLM pour un usage grand public ». En effet, les utilisateurs pourraient être réticents à utiliser ces modèles s’ils ne comprennent pas parfaitement quand les réponses fournies seront exactes. Il ajoute que cette étude offre une sorte de référence fondamentale pour évaluer la performance des LLM. Plus précisément, elle permet de déterminer si ces derniers « comprennent le problème qu’ils résolvent » lorsqu’ils fournissent des réponses correctes. Cela contribue ainsi à améliorer leur performance dans des situations réelles.