ArticleAvancé13 min de lectureTechnique

Attention Is All You Need

Vaswani et al. · 2017

Objectif de lecture

Approcher l'idée technique qui sous-tend toute l'IA générative actuelle.

À garder en tête : cette fiche simplifie pour rendre l'idée accessible. Elle ne remplace pas la lecture de la source.

Résumé

Publié en juin 2017 par une équipe de Google Brain, l'article ne fait que 15 pages. Personne à sa sortie ne prévoyait qu'il déclencherait la révolution actuelle - il est cité aujourd'hui plus de 130 000 fois.

Avant 2017, les modèles de langage traitaient les mots un à un, en séquence, avec des architectures dites « récurrentes » (RNN, LSTM). C'était lent parce que non parallélisable, limité parce que le modèle « oubliait » ce qu'il avait lu loin en arrière, et difficile à entraîner sur de grandes quantités de texte.

Les auteurs proposent une architecture entièrement basée sur un mécanisme appelé « attention ». L'idée : chaque mot d'une phrase peut regarder tous les autres mots en parallèle et décider lesquels comptent pour le comprendre. Le mot « il » dans « le professeur a rendu son livre à Marie parce qu'il l'avait fini » se reconnecte automatiquement à « le professeur » plutôt qu'à « Marie ».

L'architecture s'appelle « Transformer ». Elle a deux vertus décisives. D'abord, elle est massivement parallélisable - on peut donc l'entraîner sur des GPU modernes avec un rendement inédit. Ensuite, elle capte des dépendances longues dans un texte, sans oublier progressivement le début.

En apparence, l'article résout un problème étroit : la traduction automatique anglais-allemand. Mais l'architecture s'est révélée universelle. Elle a été appliquée au texte (GPT, BERT), à l'image (Vision Transformers), au son, à la biologie (AlphaFold). Tous les grands modèles d'aujourd'hui en descendent.

L'article reste technique - il faut connaître les bases de l'algèbre linéaire et des réseaux de neurones pour tout comprendre. Mais la première section et les schémas donnent déjà l'intuition. Pour un lycéen curieux, c'est un bon défi : on peut y revenir plusieurs fois et comprendre à chaque fois davantage.

Notions à retenir

Mécanisme d'attention
Architecture Transformer
Parallélisme
Self-attention et multi-head attention

Pour vérifier ta compréhension

1.Quelle limite des modèles séquentiels le Transformer lève-t-il ?
2.Pourquoi l'attention permet-elle de mieux comprendre un long texte ?
3.En quoi cet article a-t-il rendu ChatGPT possible ?

Lire la source complète ↗← Autres ressources