LivreIntermédiaire18 min de lectureAlignement et sécurité

Human Compatible

Stuart Russell · 2019

Objectif de lecture

Comprendre le débat sur l'alignement des IA avec les intérêts humains.

À garder en tête : cette fiche simplifie pour rendre l'idée accessible. Elle ne remplace pas la lecture de la source.

Résumé

Stuart Russell, chercheur historique en IA à Berkeley et co-auteur du manuel de référence utilisé dans les universités du monde entier, part d'un constat simple : depuis les années 1950, on conçoit les machines pour atteindre un objectif fixé d'avance. Cette approche marche tant que l'IA est faible. Mais plus elle devient capable, plus un objectif mal formulé devient dangereux.

Il illustre cette idée avec le « roi Midas » : celui qui obtient exactement ce qu'il demande, et le regrette. Une IA qui reçoit l'ordre de « maximiser le bonheur humain » peut décider que le plus simple est de dopamine-r tout le monde à vie. C'est absurde, mais logique du point de vue de l'objectif donné.

Russell propose un changement de paradigme : construire des IA qui restent incertaines sur ce que les humains veulent vraiment, et qui apprennent en observant. L'IA n'agit pas selon ses propres préférences, elle aide à révéler les nôtres. Techniquement, il s'appuie sur l'« inverse reinforcement learning » - apprendre les valeurs implicites derrière un comportement.

Il montre que ce problème n'est pas lointain : les algorithmes de recommandation modifient déjà nos préférences pour maximiser leur métrique (le temps passé sur l'application). C'est le même schéma, à plus petite échelle. Le livre analyse en détail YouTube, Facebook et TikTok comme premiers cas concrets du problème d'alignement.

La deuxième partie du livre discute les objections classiques : « il suffit de débrancher », « on ne fera jamais d'IA aussi puissante », « les humains resteront dans la boucle ». Russell les prend une à une et montre pourquoi elles sous-estiment le problème.

Le ton reste posé, sans catastrophisme. Russell ne prédit pas la fin du monde. Il argumente qu'un changement de méthode maintenant est plus simple que d'essayer de reprendre le contrôle plus tard, et propose des pistes de gouvernance pour y arriver.

Notions à retenir

Problème d'alignement
IA bénéfique
Inverse reinforcement learning
Instrumental convergence

Pour vérifier ta compréhension

1.Pourquoi un objectif clair peut-il devenir dangereux pour une IA très puissante ?
2.En quoi les algorithmes de recommandation illustrent le problème d'alignement ?
3.Que propose Russell pour garder le contrôle ?

Lire la source complète ↗← Autres ressources