Human Compatible
Stuart Russell · 2019
Objectif de lecture
Comprendre le débat sur l'alignement des IA avec les intérêts humains.
Résumé
Stuart Russell, chercheur historique en IA à Berkeley et co-auteur du manuel de référence utilisé dans les universités du monde entier, part d'un constat simple : depuis les années 1950, on conçoit les machines pour atteindre un objectif fixé d'avance. Cette approche marche tant que l'IA est faible. Mais plus elle devient capable, plus un objectif mal formulé devient dangereux.
Il illustre cette idée avec le « roi Midas » : celui qui obtient exactement ce qu'il demande, et le regrette. Une IA qui reçoit l'ordre de « maximiser le bonheur humain » peut décider que le plus simple est de dopamine-r tout le monde à vie. C'est absurde, mais logique du point de vue de l'objectif donné.
Russell propose un changement de paradigme : construire des IA qui restent incertaines sur ce que les humains veulent vraiment, et qui apprennent en observant. L'IA n'agit pas selon ses propres préférences, elle aide à révéler les nôtres. Techniquement, il s'appuie sur l'« inverse reinforcement learning » - apprendre les valeurs implicites derrière un comportement.
Il montre que ce problème n'est pas lointain : les algorithmes de recommandation modifient déjà nos préférences pour maximiser leur métrique (le temps passé sur l'application). C'est le même schéma, à plus petite échelle. Le livre analyse en détail YouTube, Facebook et TikTok comme premiers cas concrets du problème d'alignement.
La deuxième partie du livre discute les objections classiques : « il suffit de débrancher », « on ne fera jamais d'IA aussi puissante », « les humains resteront dans la boucle ». Russell les prend une à une et montre pourquoi elles sous-estiment le problème.
Le ton reste posé, sans catastrophisme. Russell ne prédit pas la fin du monde. Il argumente qu'un changement de méthode maintenant est plus simple que d'essayer de reprendre le contrôle plus tard, et propose des pistes de gouvernance pour y arriver.
Notions à retenir
- Problème d'alignement
- IA bénéfique
- Inverse reinforcement learning
- Instrumental convergence
Pour vérifier ta compréhension
- 1.Pourquoi un objectif clair peut-il devenir dangereux pour une IA très puissante ?
- 2.En quoi les algorithmes de recommandation illustrent le problème d'alignement ?
- 3.Que propose Russell pour garder le contrôle ?