Publié le 19 mai 2023, modifié le 20 mai 2023.
Par Christophe Romei

Le boom de l’IA générative est lié au calcul, celui-ci à un coût !

Publié le 19 mai 2023, modifié le 20 mai 2023.
Par Christophe Romei

De nombreuses entreprises dans l'IA ont dépensé plus de 80 % de leur capital total levé en ressources de calcul ! La demande de calcul d'IA a augmenté en raison de la complexité croissante des modèles et du besoin d'ensembles de données plus volumineux. En conséquence, le coût du calcul de l'IA est devenu un facteur important pour les organisations. Comment relever ce défi ?

Des quantités considérables et croissantes de données sont désormais disponibles pour la formation des modèles de base, et depuis 2012, la capacité de calcul a été multipliée par un million, doublant tous les trois à quatre mois. L’essor de l’IA générative est intimement lié aux coûts du calcul. Les modèles d’IA générative, tels que les GAN (réseaux antagonistes génératifs), nécessitent une puissance de calcul considérable pour générer des résultats de qualité. Cette demande accrue en ressources de calcul se traduit par des coûts élevés, notamment en matière d’infrastructure informatique et d’énergie. Pour naviguer dans ce contexte, il est essentiel d’optimiser les architectures de modèles, d’exploiter le transfert d’apprentissage, d’utiliser des accélérateurs matériels efficaces et d’explorer des paradigmes de calcul alternatifs comme le calcul en périphérie et l’entraînement distribué. Il faut également tenir compte des compromis entre coût, précision et efficacité pour atteindre les résultats souhaités.

Habituellement, l’investissement en R&D est plus directement lié à la valeur d’un produit, et cette relation est nettement sous les radars pour beaucoup. Mais ce n’est pas le cas actuellement avec l’intelligence artificielle et, par conséquent, c’est un facteur prédominant qui anime l’industrie aujourd’hui qui est simplement le coût. 3 rédacteurs de a16z affirment que bien que nous ne connaissions pas les vrais chiffres, ils ont entendu de sources fiables que l’offre de calcul est si limitée que la demande la dépasse d’un facteur 10 (!). Ils pensent donc qu’il est juste de dire qu’actuellement, l’accès pour calculer les ressources — au coût total le plus bas — est devenu un facteur déterminant pour le succès des entreprises d’IA. Décomposer les facteurs de coût pour une entreprise d’IA devient impératif. Les chiffres absolus changeront bien sûr avec le temps, mais il n’y a pas de soulagement immédiat pour les entreprises d’IA liées par leur accès aux ressources de calcul.

En tout cas, l’article suggère plusieurs stratégies pour gérer ces coûts, notamment l’optimisation des architectures de modèles, l’exploitation de l’apprentissage par transfert, l’utilisation d’accélérateurs matériels efficaces et l’exploration de paradigmes de calcul alternatifs tels que l’informatique de pointe (edge computing) et la formation distribuée. Il souligne l’importance d’aligner les investissements en IA sur les résultats commerciaux souhaités et de tenir compte des compromis entre le coût, la précision et l’efficacité des charges de travail d’IA.

Pourquoi les modèles d’IA sont-ils si coûteux en termes de calcul ?

Il existe une grande variété de modèles d’IA générative, et les coûts d’inférence et de formation dépendent de la taille et du type de modèle. Heureusement, les modèles les plus populaires aujourd’hui sont principalement des architectures basées sur des transformateurs (algorithme d’apprentissage automatique utilisé pour le traitement du langage naturel), qui incluent des modèles de grand langage (LLM) populaire tels que GPT-3, GPT-J ou BERT. Alors que le nombre exact d’opérations pour l’inférence et l’apprentissage des transformateurs est spécifique au modèle, il existe une règle empirique assez précise qui dépend uniquement du nombre de paramètres (c’est-à-dire les poids des réseaux de neurones) du modèle et le nombre de jetons d’entrée et de sortie.

Les jetons sont essentiellement de courtes séquences de quelques caractères (quand vous utilisez ChatGPT c’est pour cela qu’il affiche les mots un à un). Ils correspondent à des mots ou à des parties de mots. La meilleure façon d’avoir une intuition pour les jetons est d’essayer la tokenisation avec des tokenizers en ligne accessibles au public (par exemple, OpenAI). Pour GPT-3, la longueur moyenne d’un jeton est de 4 caractères. Les besoins en mémoire des transformateurs dépendent également de la taille du modèle.

Pour former un modèle de 175 milliards de paramètres (GPT-3), il y a besoin de conserver plus d’un téraoctet de données en mémoire, cela dépasse n’importe quel GPU existant aujourd’hui et nous oblige à diviser le modèle sur plusieurs cartes. Les besoins en mémoire pour l’inférence et la formation peuvent être optimisés en utilisant des valeurs à virgule flottante de longueurs plus courtes, le 16 bits devenant courant et le 8 bits prévu dans un avenir proche.

L’infrastructure d’IA est coûteuse

Notamment, car les problèmes algorithmiques sous-jacents sont extrêmement complexes en termes de calcul. La complexité algorithmique du tri d’une table de base de données avec un million d’entrées est insignifiante par rapport à la complexité de la génération d’un seul mot avec GPT-3. Cela signifie que vous devez choisir le plus petit modèle qui résout votre cas d’utilisation. Comment cette complexité de calcul se traduit-elle en coût ? Une inférence GPT-3, qui, comme nous l’avons vu ci-dessus, prend environ 1 seconde sur un A100 aurait un coût de calcul brut compris entre 0,0002 $ et 0,0014 $ pour 1 000 jetons (cela se compare au prix d’OpenAI de 0,002 $/1 000 jetons). Un utilisateur générant 100 requêtes d’inférence par jour coûterait de l’ordre de dollars par an. Il s’agit d’un prix très bas et rend la plupart des cas d’utilisation de l’IA basée sur le texte par des humains financièrement viables.

Notez que dans son article, a16z montre que les estimations du coût de la formation GPT-3 vont de 500 000 $ à 4,6 millions de dollars, selon les hypothèses matérielles. Notez qu’il s’agit du coût d’une seule exécution et non du coût global. Plusieurs exécutions seront probablement nécessaires et les fournisseurs de cloud voudront des engagements à long terme (plus d’informations à ce sujet ci-dessous). Former des modèles haut de gamme reste cher, mais à la portée d’une start-up bien financée.

La croissance de l’industrie de l’IA et l’augmentation du nombre de développeurs d’IA alimenteront une demande pour des GPU toujours plus nombreux et plus rapides. Une grande partie de la capacité du GPU est utilisée pour les tests par les développeurs pendant la phase de développement d’un modèle, et cette demande évolue de manière linéaire avec l’effectif. Rien n’indique que la pénurie de GPU que nous avons aujourd’hui s’atténuera dans un proche avenir. Ce coût élevé et continu de l’infrastructure d’IA créera-t-il un fossé qui empêchera les nouveaux entrants de rattraper les 1ᵉʳˢ entrants sur le marché qui sont bien financés ?

Sobriété numérique

Vous l’avez compris, à travers le boom de l’IA générative est associé à un coût environnemental important en raison de la consommation énergétique élevée du calcul intensif. Les modèles d’IA générative requièrent de vastes ressources de calcul qui contribuent aux émissions de gaz à effet de serre et au réchauffement climatique. Pour atténuer cet impact, il est crucial de développer des architectures de modèles plus efficaces, d’utiliser des techniques de compression et de quantification, d’adopter des infrastructures écoénergétiques et d’explorer des approches de calcul durable. Réduire l’empreinte carbone de l’IA générative est un enjeu clé pour son développement futur.

Lire aussi