AGI : la « crise de l’exactitude » des IA avancées met-elle en péril le rêve d’intelligence artificielle forte?

AGI : la "crise de l'exactitude" des IA avancées met-elle en péril le rêve d'intelligence artificielle forte?

L’étude qui sème le doute: effondrement de l’exactitude des IA avancées

Juin 2025: la publication d’une étude menée par des chercheurs d’Apple jette un grave trouble sur le secteur de l’intelligence artificielle, et particulièrement sur la confiance placée dans les systèmes les plus avancés du moment. Cette étude, abondamment relayée par la presse spécialisée et généraliste, révèle ce que ses auteurs nomment le « collapse » de l’exactitude: une chute brutale des performances lorsque les modèles d’IA doivent traiter des problèmes de logique complexes ou des tâches sortant des cadres d’entraînement classiques.

Quatre principaux systèmes testés sont épinglés:

  • OpenAI O1/O3
  • DeepSeek-R1
  • Claude 3.7 Sonnet Thinking
  • Gemini Thinking

L’étude montre que sur des tâches de raisonnement abstrait, de résolution logique ou d’adaptation face à une consigne inédite, ces modèles – pourtant champions des benchmarks – voient leur exactitude s’effondrer parfois sous la barre des 10%. Ce phénomène d’effondrement, mis en lumière de façon méthodique, dépasse le simple effet « piège »: il touche le cœur de la promesse des modèles modernes, à savoir la capacité à supporter des scénarios variés, complexes, typiques de la ia générale. La stupeur est d’autant plus grande que ces IA avaient été présentées comme des jalons crédibles vers une intelligence artificielle générale.

Les retombées ont suscité des interrogations majeures dans la communauté, prompte à débattre de la portée de ces résultats et à confronter le rêve de l’AGI à ses propres limites. Pour approfondir ces débats, lisez également cette analyse sur l’avis de Yann LeCun.

Entre illusion de puissance et limites réelles: pourquoi l’AGI semble hors de portée

Depuis plusieurs années, le discours commercial autour de l’intelligence artificielle forte promet un saut de l’outil automatisé vers une « raisonnance généraliste ». Mais les résultats de l’étude Apple mettent en lumière un écart préoccupant : alors que les modèles impressionnent sur des benchmarks publics, ils échouent sur des problèmes de logique élémentaire ou à la moindre variation dans l’énoncé des tâches. Sur des problèmes de raisonnement multi-étapes, de flexibilité cognitive ou d’adaptation contextuelle, les LLMs comme O1/O3, Gemini ou Claude 3.7 se heurtent régulièrement à des impasses logiques – incapables de transférer ce qu’ils ont appris dès qu’on sort des sentiers battus.

Par exemple, des tests de « raisonnement par analogie », de solution de casse-têtes logiques ou de compréhension de consignes croisées exposent des failles récurrentes: l’IA donne des réponses séduisantes en apparence, mais profondément erronées ou incohérentes hors du cadre de référence habituel. Ce contraste entre puissance marketing et faiblesse cognitive alimente une désillusion chez beaucoup d’observateurs, mais surtout il interroge l’adéquation entre ce que l’on appelle « intelligence artificielle » et la véritable IAG sur le modèle humain.
Pour aller plus loin sur ce débat : consultez cet article sur la redéfinition de l’IA à l’ère de l’AGI.

Un signal d’alarme pour la recherche: biais structurels, sur-apprentissage, impasses méthodologiques

Comment expliquer ces limites criantes ? L’étude d’Apple et les analyses associées pointent plusieurs racines méthodologiques et techniques qui affectent les modèles censés préfigurer la superintelligence artificielle:

  • Biais d’entraînement : Les corpus utilisés, même massifs, restent simplificateurs. Les modèles ont tendance à reproduire des schémas déjà présents dans leurs données, mal à l’aise face aux situations inattendues.
  • Surajustement (overfitting) aux benchmarks : Les IA sont optimisées pour briller sur un panel restreint de tests, au détriment de l’innovation cognitive réelle, ce qui explique l’effondrement lorsqu’un problème diffère du standard.
  • Manque de généralisation abstraite : Les architectures profondes actuelles n’ont pas été conçues pour généraliser au-delà de leur expérience d’entraînement, mais pour prédire ou compléter selon des probabilités.
  • Reproductibilité et robustesse : Ces résultats ont provoqué un vaste débat sur la fiabilité scientifique de l’intelligence artificielle générale: une bonne performance isolée ne garantit ni robustesse, ni transfert des compétences.

Ce constat alimente l’urgence, pour la communauté, de renouveler ses outils d’évaluation et de dépasser la fascination pour les seuls records sur benchmarks. La question de la défiance envers l’AGI occupe d’ailleurs une place croissante dans les études d’opinion.

Quel avenir pour l’AGI? Recherche, hybridation et ouverture critique

Face à la « crise de l’exactitude », plusieurs voies de recherche émergent pour tenter de franchir le mur qui sépare l’IA généraliste actuelle de l’intelligence artificielle forte:

  • Hybridation des approches : Intégrer des modèles symboliques (logique, connaissances structurées) avec les architectures neuronales pour traiter raisonnement abstrait et manipulation sémantique.
  • Architectures cognitives inspirées du cerveau humain : Créer des systèmes multi-modaux, dynamiques, capables d’apprendre et de s’adapter de façon continue et contextuelle.
  • Nouvelles métriques et benchmarks ouverts : Aller au-delà des tests fermés. Encourager des évaluations en environnement ouvert, dynamique et interactif pour mesurer la vraie généralisation.
  • Réflexion interdisciplinaire sur l’évolution de l’IA forte : Rapprocher informatique, neurosciences et philosophie de l’esprit pour repenser ce qu’est réellement une intelligence artificielle générale.

Pour l’instant, aucun consensus ne se dégage sur la feuille de route. Certains voient dans l’hybridation et la montée en abstraction la meilleure façon de contourner l’impasse, d’autres tablent sur les progrès incrémentaux des LLMs actuels. L’effervescence scientifique et la remise en cause ouverte sont toutefois le signe que la superintelligence artificielle reste un horizon mouvant et incertain.

Conclusion: AGI, la promesse au pied du mur de la complexité humaine

L’étude d’Apple révèle combien le chemin vers une intelligence artificielle générale – véritable intelligence au niveau humain – demeure semé d’embûches techniques et conceptuelles. L’effondrement soudain de la performance des meilleurs modèles rappelle à quel point l’humain maîtrise la flexibilité cognitive, le raisonnement hors-norme, ce qui fait la saveur de l’intelligence artificielle forte dans l’imaginaire collectif.

Si la IA générale fascine autant, c’est aussi parce qu’elle oblige chercheurs et publics à réajuster leur regard, accepter le doute et la critique constructive dans une course où le mythe, la réalité technique et la prudence scientifique doivent avancer de pair. La superintelligence artificielle n’est sans doute pas pour demain: mais comprendre ces limites est déjà une étape clef pour façonner les futurs outils de demain.