Une startup d’IA surpasse Gemini 3 de Google lors d’un test majeur de raisonnement

Image d'illustration. Gros plan d un smartphone futuriste avec interface ia coloréeADN
Une jeune pousse spécialisée dans l’intelligence artificielle a surpassé Gemini 3, le modèle phare de Google, lors d’une évaluation cruciale portant sur les capacités de raisonnement. Les résultats suscitent déjà l’intérêt du secteur technologique.
Tl;dr
- Poetiq surpasse Google sur le test ARC-AGI-2.
- Leur système optimise des modèles existants, pas de nouveaux entraînements.
- Résultat : avancée majeure dans le raisonnement en IA.
Un petit groupe bouleverse la hiérarchie de l’IA
Depuis plusieurs mois, la domination de Gemini 3 semblait acquise sur le classement LMArena, où des milliers d’utilisateurs évaluent les performances des intelligences artificielles à travers des tâches variées. Pourtant, la donne vient de changer. Un nom jusqu’ici inconnu du grand public, celui de la jeune pousse Poetiq, s’est imposé là où même les géants hésitent : le test de raisonnement ARC-AGI-2. Ce défi redouté, conçu par le chercheur François Chollet, était jusqu’à récemment considéré comme pratiquement hors de portée.
L’approche Poetiq : orchestrer plutôt qu’inventer
La surprise ne s’arrête pas au score — un impressionnant 54 %, quand le record détenu par Google plafonnait autour de 45 %. Là où beaucoup misaient sur une nouvelle génération de modèles titanesques, l’équipe de six personnes derrière Poetiq a opté pour une autre voie. Leur secret ? Un « méta-système », véritable chef d’orchestre logiciel capable de superviser, critiquer et affiner les réponses produites par n’importe quel modèle sous-jacent. Pour l’exploit du jour, ils se sont appuyés sur Gemini 3 Pro, mais sans aucun ré-entraînement personnalisé.
Voici ce qui distingue concrètement leur solution :
- Aucun besoin d’entraîner un nouveau modèle ; adaptation rapide.
- S’appuie sur des modèles standards du marché.
- Coût d’utilisation largement réduit face aux solutions concurrentes.
- Système librement accessible et ouvert à l’inspection externe.
- Mécanisme d’auto-évaluation intégré avant chaque résultat final.
Le défi ARC-AGI-2, révélateur de vraies avancées
Pourquoi ce benchmark fascine-t-il autant la communauté ? Contrairement aux tests axés sur le calcul ou le code, l’ARC-AGI-2 explore des compétences abstraites : reconnaissance de motifs, analogies, raisonnement général. Autant dire que même les meilleurs modèles actuels y échouaient presque systématiquement il y a encore six mois — franchir la barre des 50 % relevait alors du fantasme.
Seule réserve : ces résultats concernent une version semi-privée du benchmark. Si l’équipe affirme avoir obtenu validation auprès des organisateurs, la communauté scientifique attend encore une confirmation indépendante – étape incontournable pour un test aussi influent.
Nouveaux horizons pour l’intelligence artificielle ?
En rendant leur outil open source, Poetiq invite chercheurs et curieux à remettre en question ses résultats – transparence rare dans ce secteur. Si cette approche s’avère robuste au-delà des benchmarks, elle pourrait transformer notre conception du progrès en IA : moins de puissance brute, davantage d’agilité logicielle et d’orchestration intelligente. Preuve vivante que l’innovation n’est plus réservée aux géants ou aux laboratoires milliardaires. Qui sait si la prochaine révolution ne viendra pas d’un garage ?