IA moins chère, même niveau ? Le vrai test économique commence

Image d'illustration. Homme travaillant sur son ordinateurADN
La pression sur les coûts bouscule la logique du toujours plus gros en IA. Si les petits modèles tiennent la route, l’équation du secteur change vite.
En bref
- Les entreprises regardent enfin la facture IA
- Les petits modèles peuvent absorber beaucoup d’usages
- Les grands labos ont beaucoup à perdre
La vraie nouveauté, elle est là. Après des mois à choisir le modèle le plus puissant presque par réflexe, les entreprises commencent à regarder la facture. Et si cette discipline budgétaire s’installe, le marché de l’IA générative pourrait bouger plus vite qu’attendu.
Le coût devient enfin un critère de choix
Jusqu’ici, le secteur avançait avec une idée simple, les modèles les plus gros sont les meilleurs, donc ce sont eux qu’il faut déployer. Sauf que la hausse du prix des tokens, ajoutée au ralentissement des subventions absorbées par les investisseurs, remet cette logique sous tension.
Pour les clients, le sujet n’est plus théorique. Ils peuvent réduire les appels, rogner sur le contexte, abandonner certains déploiements jugés peu prometteurs. Ou basculer vers des modèles plus petits, donc moins chers. C’est ce nouvel arbitrage qui compte.
Un scénario qui ferait très mal aux grands laboratoires
Sur X, Brian Armstrong, cofondateur de Coinbase, avance une projection très nette. Selon lui, la demande d’intelligence est presque infinie, mais 80% des charges de travail pourraient tourner d’ici 12 à 18 mois sur des modèles 99% moins chers, les modèles de dernière génération ne gardant que 20% des usages, là où maximiser le niveau compte vraiment.
Si ce scénario tient, le choc sera rude pour les grands labos. Une partie des économies viendrait directement rogner les revenus attendus par OpenAI et Anthropic, au moment même où les deux groupes se dirigent vers une IPO. Résultat ? Un basculement de l’économie de l’inférence.
Les premiers tests donnent du crédit aux petits modèles
Le cas le plus parlant vient de Harvey, dans l’IA juridique. Avec Fireworks AI, la société dit avoir divisé par trois ses coûts d’inférence sans baisse de qualité. L’architecture combinait Claude Opus et GLM 5.1, avec un recours à Opus seulement pour les tâches les plus lourdes.
Gabe Pereyra, cofondateur de Harvey, résume bien le changement. Pour lui, la qualité passe d’abord, surtout dans le juridique, mais la qualité ne consiste plus à utiliser le modèle le plus puissant partout, plutôt le modèle qui donne la bonne réponse avec le maximum d’efficacité. Franchement, sur le terrain business, ça change tout.
Le vrai clivage n’est pas open contre propriétaire
On présente souvent ce mouvement comme un duel entre grands labos américains, modèles chinois et open-weight. Ce n’est pas le cœur du sujet. Le vrai clivage oppose surtout les grands modèles aux petits modèles.
Passer de GPT-5.5 à DeepSeek V4 Flash peut faire baisser la note, mais passer à GPT-5.4-mini peut produire le même effet. Il y a bien une guerre des prix entre inférence interne des grands labos et modèles open-weight servis par des tiers. Mais pour l’entreprise cliente, ce qui compte d’abord, c’est la taille, donc le coût.
Toute l’industrie doit revoir sa logique de croissance
Et c’est là que ça frotte. Toute l’industrie a vécu sur une stratégie de scaling, nourrie par la conviction qu’il fallait entraîner toujours plus gros pour repousser la frontière.
Si demain la majorité des déploiements tourne aussi bien sur des modèles plus compacts, la demande d’inférence pourrait ralentir. Et avec elle, une question bien plus embarrassante pour l’écosystème, comment justifier le prix d’entraînement des modèles frontière si le marché accepte, quand même, du « suffisamment bon » à bien moindre coût ?