ARC-AGI-2 : Le nouveau test qui secoue la communauté IA – Vers une vraie détection de l’AGI ?

ARC-AGI-2 : Le nouveau test qui secoue la communauté IA – Vers une vraie détection de l’AGI ?

Introduction : Le test ARC-AGI-2 bouscule le monde de l’IA

Le 25 mars 2025 a marqué un tournant pour la communauté de l’intelligence artificielle : la fondation ARC Prize a dévoilé la seconde version de son test phare, l’ARC-AGI-2 (source). Présentée comme une véritable révolution dans l’évaluation de l’intelligence artificielle générale (AGI), cette nouvelle version entend repousser les limites de ce que les IA peuvent démontrer en termes d’adaptabilité et de raisonnement. Le test est désormais au cœur des débats sur la définition et la mesure d’une « intelligence artificielle forte », capable non seulement de résoudre des problèmes connus mais aussi de s’adapter à des défis totalement nouveaux—une capacité au centre des concepts d’AGI, d’intelligence artificielle générale ou d’IA généraliste.

La sortie d’ARC-AGI-2 s’inscrit dans un contexte d’explosion médiatique autour de l’AGI, entre espoirs, peurs et intérêts économiques colossaux. Contrairement aux benchmarks classiques qui évaluent des performances ciblées (comme LAMBADA, MMLU), l’ARC-AGI-2 promet de jauger la véritable « intelligence artificielle complète », voire de préparer la voie vers la superintelligence artificielle (ASI). Que contient concrètement ce test inédit ? Et pourquoi suscite-t-il tant de réactions dans le milieu de l’IA ? Tour d’horizon des enjeux d’une révolution annoncée, d’après la fondation ARC Prize.

L’ARC-AGI-2 : Qui se cache derrière et comment fonctionne ce test ?

Derrière l’ARC-AGI-2 se trouve la fondation à but non lucratif ARC Prize, dont l’ambition affichée est d’accélérer la recherche en intelligence artificielle générale, tout en gardant ses standards ouverts et accessibles à la communauté scientifique mondiale. Fondée par François Chollet, créateur du corpus ARC initial, mais soutenue aujourd’hui par de nombreux partenaires, la fondation vise à créer des repères robustes et durables pour l’AGI.

Le cœur du test ? Une série de tâches dites « cognitives » conçues pour tester la capacité d’une IA à raisonner, à abstraire et à généraliser des concepts sur des problèmes inédits. Concrètement, chaque tâche du benchmark donne à l’IA une séquence de petites images ou de grilles, et pose des énigmes logiques ou analogiques que l’humain résout intuitivement. Mais là où la version 1 du test péchait parfois par son format pass/fail binaire ou le manque d’étalonnage des difficultés, l’ARC-AGI-2 (lancée le 24 mars 2025) innove : difficulté ajustée, mesures de rapidité, prise en compte de l’efficacité des ressources mobilisées, et une gradation plus fine pour le score final (guide officiel).

Comparativement aux classiques comme LAMBADA ou MMLU, qui testent respectivement la compréhension linguistique et des connaissances multitâches, l’ARC-AGI-2 reste résolument focalisé sur l’adaptabilité et la découverte de solutions inédites fait office de crash test pour l’ »IA généraliste » : il ne suffit plus de mémoriser, il faut comprendre et inventer. Cette démarche ambitionne de s’approcher d’une véritable intelligence artificielle au niveau humain (détails).

Pourquoi l’ARC-AGI-2 secoue-t-il la communauté IA ?

La sortie du test ARC-AGI-2 a suscité un engouement immédiat, mais aussi de vives polémiques au sein de la communauté IA. Si de nombreux chercheurs et développeurs ont salué la montée en sophistication du benchmark et son potentiel à guider la course vers l’AGI, d’autres pointent d’importantes limites ou soulèvent des doutes sur la pertinence de ce type d’épreuve (analyse Reddit, récit TechCrunch).

Côté performances, le constat est sévère : les modèles d’IA les plus avancés, tels que les architectures o3 et o4-mini d’OpenAI ou DeepSeek-R1, peinent à dépasser la barre des 30% de réussite sur l’ARC-AGI-2 (leaderboard officiel). Même les prouesses réalisées sur MMLU ou LAMBADA ne se traduisent pas par un succès équivalent sur ce nouveau test. Pour expliquer ces échecs, certains chercheurs mettent en avant la difficulté radicale du test, décrivant même certaines tâches comme « insolubles » pour les IA actuelles malgré leur facilité pour les humains.

Les critiques récurrentes ciblent : le caractère abstrait/des tâches, le risque de sur-calibrage pour la compétition, ou le débat philosophique sur la mesure réelle de l’intelligence générale : une IA qui réussit l’ARC-AGI-2 possède-t-elle pour autant une « conscience » ou une compréhension profonde ? Le débat est ouvert, mais la rupture avec les benchmarks traditionnels est saluée comme une avancée majeure pour la recherche en cognitive computing et AGI (synthèse Rudebaguette).

AGI, ASI et tests : Révolution stratégique et implications pour la recherche

L’ARC-AGI-2 a déjà commencé à transformer la stratégie des laboratoires d’IA et des grandes entreprises technologiques. Devenir le premier à passer la barre des 85% de réussite sur le test est désormais – au-delà du grand prix d’un million de dollars – un nouveau Graal pour les architectes d’IA (compétition Kaggle). Des chercheurs issus d’OpenAI, DeepSeek, Google ou Meta orientent leurs efforts sur des systèmes pouvant apprendre de manière plus « humaine », capables de « jouer » avec des concepts abstraits inédits, loin de la simple accumulation de données et de la mémorisation massive (détails ITforBusiness).

Sur le plan stratégique, la montée en puissance d’un benchmark comme l’ARC-AGI-2 sert de signal fort pour aiguiller à la fois les politiques de financement de la recherche, les roadmaps industrielles et même le débat public sur les promesses (et les risques) de l’intelligence artificielle générale et de la superintelligence artificielle (ASI). Certains acteurs y voient le socle qui, demain, permettra de définir formellement l’avènement d’une « vraie » AGI, déclenchant potentiellement une vague de régulation, d’investissement massif ou – à l’inverse – de méfiance accrue.

Ce test redessine le terrain de la compétition : il pourrait imposer de nouveaux standards pour l’évaluation, bousculer les classements, et pousser à plus de travail interdisciplinaire entre mathématiques, neurosciences, linguistique et informatique. Il marque aussi une étape symbolique : le passage d’outils de benchmarking techniques à de véritables juges de la « généralité » cognitive des IA (analyse Labellerr).

Conclusion : l’avenir des benchmarks AGI et l’appel à la communauté

L’arrivée de l’ARC-AGI-2 ouvre assurément une nouvelle ère pour l’évaluation de l’intelligence artificielle générale. Plus qu’un simple test, il symbolise la maturité croissante de la recherche sur l’IA généraliste, tout en soulevant d’immenses défis techniques, éthiques et épistémologiques. Son utilisation comme référence pourrait transformer la manière dont laboratoires, financeurs et entreprises investissent et collaborent dans ce domaine stratégique.

Mais l’histoire du benchmark AGI ne fait que commencer. De nouveaux corpus, tels que GAIA ou des variantes du ARC, pourraient voir le jour, chacun explorant d’autres dimensions de la cognition ou de la créativité. La fondation ARC Prize encourage déjà la contribution ouverte : étudiants, chercheurs indépendants ou entreprises sont invités à proposer tâches, méthodologies, et à tester leurs modèles sur ce terrain ambitieux. Cette dynamique communautaire sera sans doute le meilleur garant d’une évaluation honnête et progressive de l’AGI, en refusant la facilité des solutions superficielles pour viser, ensemble, la prochaine vague d’intelligence réelle.