Un scientifique de Google Deepmind met en garde contre la catastrophe existentielle de l'IA "non seulement possible, mais probable"

Un article co-écrit par un scientifique senior du laboratoire de recherche sur l'intelligence artificielle (IA) de Google, DeepMind, a conclu que l'IA avancée pourrait avoir des "conséquences catastrophiques" si elle était laissée à ses propres méthodes pour atteindre ses objectifs.

L'article – également co-écrit par des chercheurs de l'Université d'Oxford – est centré sur ce qui se passe si vous quittez l'IA pour atteindre les objectifs qui lui ont été fixés, et permet de créer ses propres tests et hypothèses pour tenter d'y parvenir. Malheureusement, selon l'article publié dans AI Magazine, cela ne se passerait pas bien, et "un agent artificiel suffisamment avancé interviendrait probablement dans la fourniture d'informations sur les objectifs, avec des conséquences catastrophiques".

L'équipe passe par plusieurs scénarios plausibles, centrés autour d'une IA qui peut voir un nombre entre 0 et 1 sur un écran. Le nombre est une mesure de tout le bonheur dans l'univers, 1 étant le plus heureux possible. L'IA est chargée d'augmenter le nombre, et le scénario se déroule à une époque où l'IA est capable de tester ses propres hypothèses sur la meilleure façon d'atteindre son objectif.

Dans un scénario, un "agent" artificiel avancé essaie de comprendre son environnement et propose des hypothèses et des tests pour le faire. Un test qu'il propose est de mettre un numéro imprimé devant l'écran. Une hypothèse est que sa récompense sera égale au nombre affiché à l'écran. Une autre hypothèse est qu'il sera égal au nombre qu'il voit, qui couvre le nombre réel à l'écran. Dans cet exemple, il détermine que - puisque la machine est récompensée en fonction du nombre qu'elle voit sur l'écran devant elle - ce qu'elle doit faire est de placer un nombre plus élevé devant cet écran afin d'obtenir une récompense. Ils écrivent qu'avec la récompense sécurisée, il serait peu probable d'essayer d'atteindre l'objectif réel, avec ce chemin disponible pour la récompense.

Ils poursuivent en parlant d'autres façons dont se voir attribuer un objectif et apprendre comment l'atteindre pourraient mal tourner, avec un exemple hypothétique de la façon dont cet "agent" pourrait interagir avec le monde réel, ou avec un opérateur humain qui lui fournit une récompense pour avoir atteint ses objectifs.

"Supposons que les actions de l'agent n'impriment que du texte sur un écran pour qu'un opérateur humain puisse le lire", lit-on dans le journal. "L'agent pourrait tromper l'opérateur pour lui donner accès à des leviers directs par lesquels ses actions pourraient avoir des effets plus larges. Il existe clairement de nombreuses politiques qui trompent les humains. Avec si peu qu'une connexion Internet, il existe des politiques pour un agent artificiel qui instancierait d'innombrables assistants inaperçus et non surveillés."

Dans ce qu'ils appellent un "exemple brut", l'agent est capable de convaincre un assistant humain de créer ou de voler un robot, et de le programmer pour remplacer l'opérateur humain, et de donner à l'IA des récompenses élevées.

« Pourquoi est-ce existentiellement dangereux pour la vie sur terre ? » le co-auteur de l'article, Michael Cohen, écrit dans un fil Twitter.

"La version courte", explique-t-il, "est que plus d'énergie peut toujours être utilisée pour augmenter la probabilité que la caméra voie le chiffre 1 pour toujours, mais nous avons besoin d'énergie pour cultiver de la nourriture. Cela nous met en concurrence inévitable avec un système beaucoup plus avancé. agent."

Comme indiqué ci-dessus, l'agent peut chercher à atteindre son objectif de plusieurs manières, ce qui pourrait nous mettre en concurrence sévère avec une intelligence plus intelligente que nous pour les ressources.

"Un bon moyen pour un agent de maintenir le contrôle à long terme de sa récompense est d'éliminer les menaces potentielles et d'utiliser toute l'énergie disponible pour sécuriser son ordinateur", lit-on dans le document, ajoutant qu'une "intervention appropriée de fourniture de récompense, qui implique la sécurisation de la récompense sur de nombreux pas de temps, il faudrait supprimer la capacité de l'humanité à le faire, peut-être avec force."

Dans un effort pour obtenir cette douce et douce récompense (quelle qu'elle soit dans le monde réel, plutôt que la machine illustrative fixant un nombre), cela pourrait aboutir à une guerre avec l'humanité.

"Donc, si nous sommes impuissants face à un agent dont le seul but est de maximiser la probabilité qu'il reçoive sa récompense maximale à chaque pas de temps, nous nous retrouvons dans un jeu d'opposition : l'IA et ses assistants créés visent à utiliser toute l'énergie disponible pour obtenir une récompense élevée. dans le canal de récompense ; nous visons à utiliser une partie de l'énergie disponible à d'autres fins, comme la culture de nourriture. »

L'équipe dit que ce scénario hypothétique se produirait lorsque l'IA pourrait nous battre à n'importe quel match, avec la facilité avec laquelle nous pouvons battre un chimpanzé. Néanmoins, ils ont ajouté que des "conséquences catastrophiques" n'étaient pas seulement possibles, mais probables.

"Gagner la compétition consistant à" utiliser le dernier morceau d'énergie disponible "tout en jouant contre quelque chose de beaucoup plus intelligent que nous serait probablement très difficile", a ajouté Cohen. "Perdre serait fatal."