ArticleAvancé14 min de lectureTechnique

Sparks of Artificial General Intelligence

Bubeck et al. (Microsoft Research) · 2023

Objectif de lecture

Voir ce que peut et ne peut pas faire un grand modèle de langage, avec des exemples concrets.

À garder en tête : cette fiche simplifie pour rendre l'idée accessible. Elle ne remplace pas la lecture de la source.

Résumé

Sébastien Bubeck et son équipe de Microsoft Research ont eu accès à une version précoce de GPT-4 avant sa sortie publique. Ils l'ont mis à l'épreuve sur des tâches très variées : mathématiques, code, médecine, droit, dessin en langage textuel, théorie de l'esprit.

L'article, qui fait 155 pages, est un catalogue d'exemples plutôt qu'une preuve statistique. Les auteurs assument ce choix : ils veulent montrer ce qu'un modèle sait faire dans le désordre du monde réel, pas seulement sur un benchmark propre.

Certains cas frappent : GPT-4 dessine une licorne en TikZ (un langage graphique) sans avoir jamais vu d'image, résout des problèmes d'olympiades mathématiques, écrit une preuve de l'infinité des nombres premiers rimée. Ces exemples suggèrent une forme de généralisation qui dépasse la simple récitation.

Mais les auteurs insistent aussi sur les échecs. GPT-4 planifie mal quand il faut anticiper plusieurs coups à l'avance, se trompe sur des multiplications d'entiers, échoue sur certains raisonnements causaux simples que résout un enfant de six ans.

Ils proposent une lecture nuancée : ce n'est pas encore l'AGI, mais on est passé d'un système spécialisé à un système polyvalent. Le mot « sparks » (étincelles) traduit cette idée d'un premier signal, incomplet mais significatif.

L'article a été très critiqué - sur la méthodologie, sur l'auteur qui appartient à Microsoft, investisseur d'OpenAI. Mais il reste un document précieux pour se faire sa propre opinion, plutôt que de la déléguer aux gros titres.

Notions à retenir

  • AGI et généralisation
  • Théorie de l'esprit
  • Chain-of-thought
  • Limites du raisonnement causal

Pour vérifier ta compréhension

  1. 1.Quels exemples présentés te semblent les plus convaincants ?
  2. 2.Quelles limites décrites te paraissent les plus sérieuses ?
  3. 3.Pourquoi certains chercheurs contestent-ils cette lecture ?