Deux pépites chinoises révolutionnent la fabrication des modèles IA

Image d'illustration. Chine ADN
DeepSeek et ModelBest adoptent des stratégies inédites pour rendre les modèles IA plus efficaces. Entre innovation en formation et densification, ces entreprises redéfinissent les standards de l’industrie.
TL;DR
- Deux entreprises chinoises, DeepSeek et ModelBest, fabriquent des modèles efficaces avec une puissance de calcul limitée.
- DeepSeek concentre ses innovations d’efficacité sur la phase de formation, tandis que ModelBest se concentre sur la phase de déploiement et d’inférence.
- ModelBest propose une « Loi de densification » pour les grands modèles, qui suit l’augmentation continue de la « densité » des capacités des grands modèles.
Deux sociétés chinoises réinventent l’approche de fabrication des modèles
Dans le vaste univers de l’intelligence artificielle (IA), trois groupes de concurrents se distinguent selon leur approche à l’égard de la fabrication de modèles à grande échelle. Au cœur de cette course se trouvent deux jeunes pousses chinoises innovantes, DeepSeek et ModelBest, dont les approches diffèrent radicalement de celle d’OpenAI.
Deux chemins différents vers l’efficacité
Même si les deux entreprises s’efforcent de rendre les modèles à grande échelle plus « efficaces », elles empruntent deux voies très différentes. DeepSeek concentre ses innovations sur la phase de formation. L’entreprise a, par exemple, formé un modèle mélange d’experts (MoE) à partir de zéro et a également utilisé la technologie d’attention latente multi-têtes (MLA).
« C’est une solution qui optimise la formation en grand cluster et les services de déploiement en grand cluster, en utilisant le cloud pour fournir des services aux utilisateurs », expliquent des professionnels de l’industrie à AItechtalk.
En revanche, les innovations d’efficacité de ModelBest se trouvent dans la phase d’inférence (déploiement). Son modèle MiniCPM « optimise la technologie de formation des modèles pour rendre la densité des connaissances des modèles plus élevée, puis défie les modèles à grand paramètre avec des paramètres plus petits ».
Une nouvelle loi pour modèles grands
Le fondateur de ModelBest, Zhiyuan Liu, propose une Loi de densification pour les grands modèles. Cette loi suit l’augmentation continue de la « densité » des capacités des grands modèles, c’est-à-dire comment le même niveau de performance peut être atteint avec moins de paramètres.
Un avenir prometteur
La puissance de calcul côté client reste donc un goulet d’étranglement potentiel. Cependant, Han Xu, chercheur en chef chez ModelBest, est optimiste quant aux développements futurs, soulignant que « les technologies ne posent plus de problème, il suffit d’attendre l’occasion ». Le défi qui nous attend consiste à optimiser la relation entre la formation des modèles et le développement des puces pour capitaliser sur les progrès technologiques récents. Pour Han Xu, l’avenir appartient aux modèles agiles et optimisés.