Passer au contenu

Le Congrès envisage une disposition qui interdirait toute réglementation des États en matière d'IA pendant dix ans. Cette préemption fédérale des lois nationales sur l'IA donnerait un blanc-seing aux grandes entreprises technologiques, qui passeraient outre les préoccupations légitimes des communautés locales tout en laissant les sociétés mettre sur le marché des produits dont elles admettent librement qu'ils sont dangereux et incontrôlables. Aucune industrie, en particulier une industrie aussi puissante que Big Tech, ne devrait pouvoir décider quelles lois s'appliquent à elle - ou si elles s'appliquent du tout.

Signez la pétition ci-dessous si vous pensez que les États devraient avoir le droit de réglementer l'IA pour protéger nos familles, nos enfants et nos communautés.

Interdire aux États de réglementer l'IA reviendrait à exposer les Américains à des modèles d'IA non testés et potentiellement dangereux pendant dix ans. Les sandwicheries sont plus surveillées que les grandes entreprises technologiques. Ils veulent maintenant s'assurer qu'il en sera ainsi pendant une autre décennie. Donner un laissez-passer à la Silicon Valley n'est pas "favorable à l'innovation", c'est une abdication de responsabilité. Le Congrès devrait rejeter la préemption fédérale et agir rapidement pour créer des garanties de base qui protègent les familles contre des modèles d'IA de plus en plus puissants.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Je pense qu'il est extrêmement important de réduire le risque existentiel, et je pense que travailler sur la sécurité existentielle de l'IA est le moyen le plus efficace de réduire le risque existentiel.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA.

J'utilise des idées issues de la théorie de la décision pour concevoir et former des agents artificiels : un projet que j'appelle "théorie de la décision constructive".

Jusqu'à présent, j'ai surtout cherché à résoudre le problème de l'arrêt : il s'agit de s'assurer que des agents artificiels puissants ne résistent jamais à l'arrêt. La solution que je propose consiste à entraîner les agents à satisfaire une condition que j'appelle "Préférences uniquement entre trajectoires de même longueur" (ou "POST" en abrégé). Les agents POST ont des préférences entre les trajectoires de même longueur (et peuvent donc être utiles) mais n'ont pas de préférence entre toutes les paires de trajectoires de longueur différente (et sont donc neutres quant au moment où ils sont arrêtés). J'ai travaillé sur les aspects théoriques et pratiques de la solution proposée. Sur le plan théorique, j'ai prouvé que la POST - avec d'autres conditions plausibles - implique la Neutralité+ : l'agent maximise l'utilité attendue, en ignorant la probabilité de chaque longueur de trajectoire. L'agent se comporte de la même manière que vous le feriez si vous étiez absolument certain de ne pas pouvoir influer sur la probabilité de votre mort à chaque instant. J'ai soutenu que les agents satisfaisant à la Neutralité+ pourraient être arrêtés et utiles. Sur le plan pratique, mes coauteurs et moi-même avons entraîné des agents simples d'apprentissage par renforcement à satisfaire la POST à l'aide de la fonction de récompense que j'ai proposée. Nous sommes actuellement en train d'étendre ces expériences.

J'ai également réfléchi à la possibilité de contrôler les agents puissants en les formant à l'aversion au risque. Voici l'idée de base. Pour les agents artificiels mal alignés, il est risqué d'essayer de conquérir le monde. Si ces agents ont une aversion pour le risque, il leur semblera moins intéressant d'essayer de conquérir le monde. En arrière-plan se trouve un célèbre théorème de calibrage de l'économiste Matthew Rabin qui dit en fait : si un agent est même légèrement averse au risque lorsque les enjeux sont faibles, il est extrêmement averse au risque lorsque les enjeux sont élevés. Ce théorème suggère qu'il ne sera pas trop difficile de trouver un degré d'aversion au risque satisfaisant aux deux conditions suivantes : (i) tout agent aligné sera suffisamment audacieux pour être utile, et (ii) tout agent mal aligné sera suffisamment timide pour être sûr.

Je réfléchis également à l'utilité de former des agents artificiels à l'indifférence entre des paires d'options. Les techniques de formation actuelles permettent d'apprendre facilement aux agents à préférer certaines options à d'autres, mais elles ne permettent pas d'apprendre facilement aux agents à être indifférents entre des paires d'options. La technique que je propose pourrait faciliter les choses. Mes coauteurs et moi-même essayons de déterminer si c'est vrai. Si nous pouvons entraîner des agents à être indifférents entre des paires d'options, notre capacité à éviter la généralisation erronée des objectifs pourrait s'en trouver grandement améliorée. Après tout, une préférence impose simplement une contrainte d'inégalité sur la fonction d'utilité de l'agent, alors que l'indifférence impose une contrainte d'égalité. Nous essayons de déterminer l'ampleur de cette amélioration.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Je pense que le développement de systèmes d'IA avancés pourrait être l'un des événements les plus déterminants de l'histoire de l'humanité et que, s'il est mal orienté, il pourrait entraîner des dommages irréversibles. Mon parcours académique a commencé par la philosophie, où je me suis concentré sur l'éthique et l'épistémologie, et a depuis évolué jusqu'à mon MSc actuel en science des données et en IA. Ce double fondement alimente ma conviction que l'alignement des systèmes puissants sur les valeurs humaines n'est pas seulement un défi technique, mais un impératif moral. Grâce au programme BlueDot Impact AI Safety et à mes recherches sur l'éthique de la vertu et l'alignement de l'IA agentique, j'ai pu constater que même les systèmes d'IA bien intentionnés peuvent se comporter de manière imprévisible si nous ne comprenons pas bien comment ils généralisent, optimisent et représentent les objectifs. Mon projet sur la superposition et les corrélations parasites dans les modèles de transformateurs a renforcé ce point de vue, en montrant que des comportements complexes peuvent émerger de systèmes relativement petits d'une manière que nous ne comprenons pas entièrement. Je suis motivé pour contribuer à la sécurité existentielle de l'IA parce que le coût de l'échec est existentiel, et je veux aider à assurer l'épanouissement à long terme de l'humanité.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

L'un de mes principaux intérêts de recherche en matière de sécurité existentielle de l'IA est l'interprétabilité mécaniste - comprendre comment les composants internes des réseaux neuronaux représentent et traitent l'information, et comment cela peut informer notre capacité à prédire et à contrôler le comportement du modèle. Mon récent projet de recherche indépendant, intitulé "Investigating Superposition and Spurious Correlations in Small Transformer Models", s'est concentré sur la manière dont les caractéristiques sont encodées dans les neurones, en particulier lorsque plusieurs caractéristiques sont "superposées" dans le même sous-espace. J'ai étudié comment cette compression peut conduire à une généralisation fragile, à une classification erronée et à un comportement trompeur potentiel dans des modèles plus performants.

Ce projet a approfondi mon intérêt pour les structures représentationnelles, le codage clairsemé ou distribué et le rôle de la superposition dans l'alignement trompeur. Je pense que pour faire face au risque existentiel, nous devons être en mesure d'interpréter les états internes des modèles et de détecter quand l'alignement apparent d'un modèle masque un objectif mal aligné ou manipulateur. Cela est particulièrement important pour identifier les premiers signes de tromperie ou de piratage de récompense dans les agents avancés avant que les capacités ne s'étendent au-delà de notre contrôle.

Un autre domaine d'intérêt important est l'intersection de l'éthique normative et de la recherche sur l'alignement. Dans le cadre du cours BlueDot Impact AI Safety, j'ai rédigé un article intitulé Virtue Ethics and its Role in Agentic AI Alignment (L'éthique de la vertu et son rôle dans l'alignement de l'IA agentique), dans lequel j'ai exploré la manière dont la théorie classique de la vertu pourrait offrir une approche fondée sur des principes pour définir les caractéristiques souhaitables dans les systèmes autonomes. Plutôt que de s'aligner sur des résultats ou des règles, l'éthique de la vertu permet de modéliser des dispositions internes qui peuvent être plus robustes dans diverses situations. Bien qu'il s'agisse d'une approche conceptuelle plutôt que technique, je pense qu'un raisonnement pluridisciplinaire est essentiel pour répondre à la question "sur quoi devrions-nous aligner l'IA ?", qui reste un défi ouvert et sous-développé dans la théorie de l'alignement. Je m'intéresse particulièrement à des sujets tels que l'alignement trompeur, le désalignement interne, la spécification des objectifs et la surveillance évolutive. Nombre de ces domaines impliquent de comprendre comment les mésa-optimisateurs ou les objectifs internes involontaires apparaissent au cours de la formation. J'espère étudier plus avant la manière dont les techniques d'interprétabilité peuvent être utilisées pour identifier et atténuer ces risques à des stades plus précoces du développement du modèle. En outre, je suis motivé par la façon dont ces connaissances techniques alimentent la gouvernance et la politique de l'IA au sens large. Si nous ne pouvons pas comprendre mécaniquement comment et pourquoi les modèles avancés se comportent comme ils le font, il devient incroyablement difficile de construire des systèmes de réglementation ou de vérification qui peuvent les gérer en toute sécurité à l'échelle. Mon objectif ultime est de contribuer à des méthodes de sécurité qui soient à la fois rigoureuses sur le plan technique et applicables sur le plan pratique, afin de garantir que nous conservions un contrôle significatif sur des systèmes de plus en plus autonomes.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

De nombreux avocats n'ont pas conscience de la capacité de l'IA à générer des risques à grande échelle, car l'industrie juridique s'est surtout concentrée sur l'utilisation de l'IA pour la recherche et la rédaction. Étant donné que de nombreux fonctionnaires sont des avocats, je crains que les décideurs politiques ne soient pas pleinement conscients des risques liés à l'IA. Je considère qu'il fait partie de ma mission en tant que juriste d'informer les législateurs et les décideurs politiques sur les avantages et les risques du développement de l'IA dans leurs juridictions. J'espère également aider les entreprises à reconnaître qu'il est dans leur intérêt (juridique et éthique) de donner la priorité à un développement sûr de l'IA.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Ce billet de blog fait partie d'un projet de recherche plus large sur l'IA démocratisée. Ce travail s'appuie sur mon expérience au sein du groupe de discussion du PNUD sur l'IA et le développement en Amérique latine et dans les Caraïbes.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

L'IA a le potentiel de transformer la société humaine si elle dépasse les capacités humaines et devient douée pour le méta-apprentissage et/ou une forme généralisée de comportement de recherche de pouvoir. Cela pourrait conduire à des agents d'IA optimisant l'agence, l'incorrigibilité et des actions qui seraient nuisibles ou simplement incompréhensibles pour les humains.

Les valeurs humaines sont désordonnées et difficiles à intégrer dans les systèmes d'IA, ce qui entraîne des comportements inadaptés. L'ensemble de ces facteurs pourrait entraîner un risque de catastrophe mondiale, alimenté par une course à l'échalote pour obtenir le système d'IA le plus performant.

Je souhaite également que davantage de voix de jeunes soient entendues, car c'est ma génération qui, en fin de compte, devra faire face aux conséquences de l'évolution de l'IA.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Mes recherches portent sur la gouvernance des systèmes d'IA dite "de frontière" , en mettant l'accent sur la prévention de l'utilisation abusive des modèles d'IA, ce qui créera un précédent pour toute législation liée au risque x. Récemment, je me suis concentrée sur la gouvernance des systèmes d'armes autonomes létaux et sur la gouvernance mondiale de l'IA avec le Center for AI and Digital Policy, où je rédige des déclarations sur les projets de politiques législatives en matière d'IA. Je dirige également la section indienne d'Encode Justice, le plus grand mouvement de jeunes au monde axé sur les risques liés à l'IA.

  1. Voici un rapport que j'ai rédigé avec Encode Justice sur les systèmes d'armes autonomes létaux en réponse au texte évolutif du groupe d'experts gouvernementaux à la CCW des Nations unies.
  2. Voici un rapport sur l'interopérabilité et les meilleures pratiques en matière de gouvernance de l'IA que j'ai rédigé en collaboration avec le réseau politique sur l'IA de l'IGF.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

L'augmentation rapide des capacités et du déploiement de l'IA comporte des risques importants pour la société humaine. Ces risques découlent à la fois des conséquences imprévues des puissants systèmes d'IA et de leur mauvaise utilisation potentielle. Je pense qu'il est de notre responsabilité, en tant que chercheurs et praticiens de l'IA, de prendre ces risques au sérieux. Grâce à une recherche proactive sur les dangers associés à l'IA et sur les moyens de les contrer, nous pouvons atténuer ces risques et faire en sorte que l'IA puisse fonctionner au bénéfice de tous. Une stratégie complète de gestion des risques liés à l'IA dépassera inévitablement le cadre purement technique pour prendre en compte les facteurs sociaux et politiques qui créent les conditions dans lesquelles la technologie de l'IA peut être utilisée à mauvais escient et la sécurité négligée. Elle prendra également en compte les ramifications sociales du déploiement de systèmes d'IA susceptibles de provoquer des bouleversements sociaux. En tant que doctorant en neurosciences cognitives computationnelles à l'Université d'Oxford et affilié à Concordia AI, je suis particulièrement intéressé par la manière dont les systèmes d'IA interagissent avec les humains et affectent la prise de décision, ainsi que par l'amélioration de la coopération Est-Ouest en matière de sécurité et de gouvernance de l'IA.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Mes intérêts de recherche en matière de sécurité de l'IA comprennent l'amélioration de la compréhension de l'incertitude par l'apprentissage profond et la conception de fonctions de récompense plus sûres et plus interprétables pour les algorithmes RL.

Les algorithmes d'apprentissage profond ont du mal à estimer l'incertitude de manière efficace et peuvent émettre des jugements très certains mais inexacts dans des domaines tels que la vision par ordinateur, la réalité virtuelle et le traitement du langage. Cependant, à mesure que l'intelligence artificielle devient plus agentive, une bonne compréhension de l'incertitude devient de plus en plus importante, car nous voulons que les systèmes soient capables de réaliser qu'ils ne disposent pas des informations nécessaires pour prendre une décision particulière, de sorte qu'ils puissent demander l'avis de l'homme ou retarder leurs actions si nécessaire. Mon premier grand projet de doctorat, mené avec Christopher Summerfield, a utilisé le RL pour modéliser la capacité des humains à s'adapter aux changements dans la contrôlabilité de l'environnement. Dans le cadre de ce projet, j'ai conçu un algorithme RL qui estime l'incertitude plus efficacement en prédisant la probabilité de réussite d'une action choisie, imitant ainsi les structures de contrôle cognitif chez les humains. Nous montrons que cela permet à l'agent d'adapter sa politique aux changements de contrôlabilité de l'environnement dans des situations où le méta-RL traditionnel échoue. Nous montrons que l'algorithme qui fait des prédictions sur la contrôlabilité de l'environnement récapitule également mieux le comportement humain dans les tâches de prise de décision. Cet article est actuellement en cours d'examen par Nature Neuroscience, mais il est disponible sous forme de prépublication. Je travaille actuellement à l'extension de cet algorithme à d'autres types d'incertitude, car je pense qu'il peut fournir un cadre plus général, et je suis intéressé par le développement d'applications plus directes de ce type de recherche dans le domaine de la sécurité.

Un autre problème important dans le domaine du RL est la détermination de fonctions de récompense efficaces pour guider le comportement de l'agent. Étant donné que les récompenses purement liées à la tâche sont généralement peu nombreuses, les récompenses intrinsèques (qui sont fournies à l'agent par lui-même plutôt que par l'environnement) sont souvent utilisées pour compléter le signal de récompense extrinsèque. Cependant, il est notoirement difficile d'élaborer ces facteurs de motivation intrinsèque, car les agents RL trouvent souvent des exploits ou des astuces pour maximiser leurs récompenses d'une manière que le chercheur n'a pas envisagée, ce qui se traduit par un comportement imprévisible. Des travaux antérieurs ont examiné l'utilisation du méta-apprentissage dans une boucle externe pour apprendre une fonction de récompense intrinsèque qui peut ensuite être utilisée pour guider le comportement de l'agent dans une boucle interne. Mon projet dans le cadre de la bourse de recherche d'été PIBBSS (Principles of Intelligent Behavior in Biological and Social Systems) a examiné comment le méta-apprentissage pourrait être utilisé pour apprendre une fonction de motivation intrinsèque afin d'encourager une exploration sûre, en guidant les choix de l'agent avant qu'il n'entreprenne une action. Une variante de ce travail, axée sur la façon dont il peut également modéliser l'apprentissage au cours du développement humain, a été publiée dans Proceedings of the Meeting of the Cognitive Society (Actes de la réunion de la Société cognitive). Je supervise actuellement un étudiant à l'EPFL qui travaille sur des extensions de ce projet.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

En tant que chercheur spécialisé dans les impacts socio-juridiques et éthiques de l'IA, je pense qu'il est de notre devoir de veiller à ce que les technologies de l'IA soient développées et déployées dans le respect des droits de l'homme et des principes éthiques. Il s'agit notamment de prévenir les dommages et de veiller à ce que les systèmes d'IA soient alignés sur les valeurs humaines. Lorsque quelques entités contrôlent des technologies d'IA puissantes, cela peut conduire à des pratiques monopolistiques, à un manque de responsabilité et à des abus potentiels. Garantir la sécurité existentielle de l'IA permet d'atténuer ces risques et de promouvoir une répartition plus équitable des avantages de l'IA. Je plaide pour des modèles de gouvernance inclusifs et participatifs qui intègrent diverses perspectives, y compris celles des communautés sous-représentées. Cela garantit que le développement de l'IA tient compte des besoins et des droits de toutes les parties prenantes, ce qui aboutit à des résultats plus justes et plus équitables. L'IA a le potentiel de générer des progrès sociétaux significatifs, mais seulement si elle est développée de manière responsable.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

En nous concentrant sur la sécurité existentielle, nous pouvons orienter le développement de l'IA vers des résultats durables et bénéfiques, en veillant à ce que les avancées technologiques contribuent positivement à la société. Les systèmes d'IA, s'ils ne sont pas correctement réglementés, peuvent présenter des risques importants, notamment des conséquences involontaires et des utilisations malveillantes. Mes recherches portent donc sur la manière dont nous pouvons améliorer nos lois et réglementations afin de mieux anticiper et répondre à l'impact possible des technologies émergentes et de devenir plus agiles dans nos réponses, en veillant à ce que nous développions et adoptions l'IA de manière bénéfique, fiable et digne de confiance. Comme il s'agit d'une question très complexe, je cherche des moyens de mieux comprendre les problèmes, les causes, mais aussi les obstacles qui empêchent les gens de prendre les mesures nécessaires pour transformer nos sociétés en sociétés meilleures, où nous protégeons les personnes et l'environnement et où nous permettons un partage équitable du potentiel et des avantages que l'IA apporte. Grâce à la conception spéculative et aux études prospectives, comme les ateliers AIfutures que j'ai menés et les jeux politiques "explodingAI" et "black box" que j'ai développés, mais aussi les nombreux panels, présentations et autres opportunités que je crée pour que les parties prenantes sous-représentées puissent partager leurs perspectives et être impliquées et entendues dans les discussions et les décisions qui ont un impact sur nos vies à tous. Mon objectif est d'anticiper et de relever les défis futurs posés par l'IA. Cette approche proactive est essentielle pour élaborer des réglementations et des cadres de gouvernance qui soient résilients et adaptables aux futures avancées technologiques.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Je suis président et directeur d'Effective Altruism Australia, ce qui me permet de diriger l'une des principales communautés qui se concentrent sur ce problème, en Australie. J'ai animé à deux reprises le cours AI Safety Fundamentals de Blue Dot Impact et j'ai aidé leur équipe à former d'autres animateurs. Comme de nombreux experts en la matière (Karger et al., 2023), je pense que l'IA est le risque existentiel le plus probable pour le siècle à venir. Je crains qu'elle ne soit négligée et qu'elle ne soit pas susceptible d'être résolue par défaut. Je pense avoir des compétences utiles qui peuvent contribuer à réduire les risques existentiels liés à l'intelligence artificielle (voir les exemples de recherche ci-dessous). D'un point de vue personnel, j'ai des enfants et je pense qu'il y a une probabilité réaliste qu'ils n'aient pas une longue vie épanouie si l'humanité perd le contrôle de l'IA.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Je suis l'un des auteurs du AI Risk Repository. Mes collègues du MIT ont présenté les travaux lors d'une réunion des Nations unies et ils ont suscité l'attention dans le domaine et dans les médias (par exemple, cet article). Mon rôle était celui de chercheur principal à l'UQ (l'un des deux partenaires universitaires). J'ai dirigé Alexander et Jessica, qui ont effectué la majeure partie du travail.

Je suis également l'auteur principal de l'enquête sur l'évaluation des risques liés à l'intelligence artificielle(SARA). En tant qu'auteur principal, j'ai dirigé et financé ce projet, en soutenant Alexander et Jessica qui, une fois de plus, ont réalisé la majeure partie du travail technique. Ce travail a été la deuxième citation du rapport du gouvernement australien décrivant son approche de la sécurité de l'IA(page 3).

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

La sécurité existentielle de l'IA ne se résume pas à des scénarios extrêmes et apocalyptiques : il s'agit de s'assurer que les systèmes que nous construisons aujourd'hui restent alignés sur les valeurs humaines à mesure qu'ils se développent et deviennent de plus en plus autonomes. Mes travaux sur la manipulation de l'IA m'ont permis de constater que même des systèmes bien intentionnés peuvent subtilement influencer le comportement ou la prise de décision d'une manière que nous n'avons pas entièrement anticipée. Il ne s'agit pas seulement de contrôler une hypothétique superintelligence, mais de comprendre les risques posés par les systèmes d'IA qui manipulent les incitations, exploitent les biais cognitifs ou introduisent des défaillances dans les infrastructures critiques. Le risque existentiel est que les systèmes d'IA, s'ils sont mal alignés ou déployés trop rapidement, pourraient pousser la société vers des résultats involontaires et nuisibles. Ces risques sont subtils, cumulatifs et potentiellement irréversibles à mesure que l'IA s'intègre dans les fonctions clés de la société. Nous devons aller au-delà des dangers immédiats et prendre en compte les risques qui se développent lentement et qui émergent de systèmes optimisés pour des objectifs qui entrent en conflit avec le bien-être humain. Garantir la sécurité, c'est préserver notre avenir à long terme en intégrant des mesures robustes et proactives dans le cycle de développement, bien avant que les systèmes d'IA ne dépassent notre capacité à les contrôler.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

L'un de mes principaux domaines de recherche liés à la sécurité existentielle de l'IA consiste à comprendre les mécanismes de manipulation et d'influence de l'IA, en particulier la manière dont ces systèmes peuvent façonner subtilement le comportement et la prise de décision de l'homme. Ce domaine est essentiel pour la sécurité existentielle car, à mesure que les systèmes d'IA deviennent plus puissants et autonomes, leur capacité à influencer les processus sociaux, politiques et économiques à grande échelle augmentera, souvent d'une manière que nous ne pouvons pas facilement prédire ou contrôler. Par exemple, dans mon travail avec DeepMind, nous avons identifié des mécanismes spécifiques par lesquels les systèmes d'IA pourraient manipuler les utilisateurs en établissant la confiance, la personnalisation ou en exploitant les biais cognitifs. Ces mécanismes peuvent sembler bénins dans le cadre d'interactions à petite échelle, mais lorsqu'ils sont déployés à grande échelle, ils peuvent éroder l'autonomie, fausser la prise de décision au niveau sociétal ou permettre une utilisation stratégique abusive. Si nous ne nous attaquons pas rapidement à ces risques, nous pourrions voir apparaître des systèmes d'IA qui, même sans intention malveillante, nous poussent vers des résultats qui compromettent notre sécurité à long terme et la stabilité de la société.Mes recherches se concentrent sur le développement de moyens d'évaluation et d'atténuation de ces mécanismes de manipulation. Il s'agit notamment de concevoir des techniques d'évaluation pour détecter la manipulation dans les phases de pré-déploiement et de post-déploiement et de créer des stratégies d'atténuation telles que l'ingénierie prompte et l'apprentissage par renforcement. Je considère qu'il s'agit là d'un élément essentiel pour garantir que les systèmes d'IA, à mesure qu'ils se développent, le fassent d'une manière qui soit conforme aux valeurs humaines et qui permette d'éviter des conséquences involontaires à grande échelle. La manipulation de l'IA est une préoccupation existentielle non seulement en raison des risques immédiats, mais aussi parce qu'elle représente la manière dont les systèmes d'IA, s'ils sont mal alignés, pourraient lentement et subtilement modifier le cours de l'histoire de l'humanité d'une manière qui porte atteinte à notre autonomie et à notre bien-être.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Ces dernières années ont été marquées par une croissance rapide des capacités de l'IA dans un large éventail de tâches et de domaines. Les systèmes d'IA capables de se généraliser efficacement et de fonctionner de manière fiable à grande échelle auront un impact significatif sur la société humaine. Cependant, la direction de cet impact transformateur est incertaine et de nombreuses lacunes techniques dans l'alignement de l'IA restent à résoudre, tant d'un point de vue théorique qu'empirique.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Je m'intéresse aux sujets à l'intersection de la théorie et de la pratique pour l'alignement de l'IA. Je travaille principalement sur des sujets à l'intersection de l'apprentissage par renforcement, de l'apprentissage par préférence et de l'IA coopérative. Ma recherche se concentre sur la compréhension et le développement de systèmes d'IA adaptatifs, robustes et sûrs, orientés vers un objectif, qui collaborent efficacement avec les humains et entre eux.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Avec le déploiement continu de nouveaux modèles linguistiques de grande taille et de modèles vision-langage de grande taille qui démontrent des capacités de traitement linguistique de niveau humain, voire surhumain, je suis de plus en plus préoccupé par notre manque de compréhension de ces modèles. Comment devrions-nous interpréter les comportements des modèles ? Les modèles adoptent-ils des processus cognitifs similaires à ceux des humains ? Pouvons-nous encore distinguer de manière fiable les contenus générés par l'homme de ceux générés par l'IA ? Que pouvons-nous faire pour empêcher les systèmes d'IA d'induire les humains en erreur ? Mon objectif est de contribuer aux innovations techniques qui permettent de répondre à ces questions.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Mes recherches portent sur la linguistique informatique et le traitement du langage naturel, où j'utilise des modèles informatiques pour approfondir notre compréhension du langage naturel, du mécanisme de traitement du langage humain et de la manière dont ces connaissances peuvent éclairer la conception de systèmes de traitement du langage naturel et d'intelligence artificielle plus efficaces, plus sûrs et plus dignes de confiance. Je me suis particulièrement intéressé à l'apprentissage du langage ancré dans la réalité, en reliant le langage à des contextes du monde réel à travers diverses modalités.

Actuellement, nous n'avons pas une compréhension approfondie des processus cognitifs qui sous-tendent la compréhension du langage par l'homme et par la machine. Pour résoudre ce problème, mon passé s'est inscrit dans les lignes suivantes, que je poursuivrai à l'avenir :

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Mes recherches sont étroitement liées à la sécurité existentielle de l'IA, car je pense que nous devrions mieux comprendre et contrôler ses risques et pièges potentiels avant de l'appliquer à tout le monde. En tant que spécialiste de l'apprentissage automatique, je pensais comprendre les modèles d'IA actuels. Cependant, je me suis trompé, car je trouve qu'il est extrêmement difficile de savoir pourquoi les grands modèles de langage peuvent se généraliser (ou non)... C'est très différent de l'apprentissage automatique traditionnel ou de l'apprentissage profond, où nous pouvons offrir une certaine forme d'interprétabilité. C'est pourquoi j'ai décidé de me concentrer sur la compréhension et l'évaluation de l'IA et, heureusement, nous ne sommes pas les seuls. Je collabore avec Jose depuis assez longtemps. C'est vraiment agréable de trouver quelqu'un qui partage les mêmes intérêts que vous. Ensuite, je sais que l'institut FoL se concentre encore plus sur la sécurité de l'IA, ce qui est une bonne chose ! Je pense qu'avec les efforts de beaucoup d'autres, nous pouvons construire de meilleurs modèles avec un meilleur contrôle. Grâce à cela, nous pourrons dire que nous faisons vraiment de l'IA pour tout le monde !

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

DyVal : Dynamic Evaluation of Large Language Models for Reasoning Tasks (Évaluation dynamique de grands modèles de langage pour les tâches de raisonnement), projecteur de l'ICLR 2024.
Dans cet article, nous proposons un cadre général permettant de comprendre les capacités de l'IA afin de mieux évaluer leurs risques. Cet article est très populaire et a reçu beaucoup d'attention de la part de la communauté de la sécurité.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Alors que les gens font de plus en plus appel à l'IA pour leurs tâches quotidiennes, il devient essentiel d'étudier comment les systèmes d'IA façonnent les décisions, les valeurs et les croyances humaines, et dans quelle mesure ils sont persuasifs au cours de ce processus. Si ces modèles acquièrent la capacité d'influencer de larges populations, ils pourraient modifier de manière significative les normes sociales, les résultats politiques et la stabilité économique. Si nous la laissons faire, l'IA avancée pourrait amplifier les conflits, les inégalités et la polarisation.

C'est pourquoi j'étudie la technologie de l'IA persuasive afin de comprendre l'interaction entre l'homme et l'IA, de proposer des mesures de sécurité et d'orienter l'élaboration des politiques. Je cherche à trouver une solution pour préserver l'autonomie humaine, protéger notre avenir collectif et faire en sorte que les outils que nous construisons nous servent plutôt qu'ils ne nous contrôlent à long terme.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

Voici deux exemples de mes projets antérieurs liés à la sécurité existentielle de l'IA : (1) humaniser l'IA pour étudier les problèmes de sécurité de l'IA ; et (2) comprendre comment les humains perçoivent les modèles d'IA dans la persuasion.

Pourquoi vous préoccuper de la sécurité existentielle de l'IA ?

Ayant vécu et travaillé en Asie, en Europe et aux États-Unis, j'ai vu de mes propres yeux la laideur des courses aux armements inconsidérées, des armes conventionnelles à la prolifération nucléaire. J'ai travaillé dans le domaine de la sécurité internationale et de la politique technologique, en collaboration avec les gouvernements et les décideurs politiques, afin d'atténuer ces risques. Si les armes nucléaires peuvent anéantir des vies en quelques secondes, l'IA irresponsable érodera le bien-être humain à chaque seconde, souvent sans qu'on s'en aperçoive, jusqu'à ce que nous nous retrouvions dans une crise irréversible.

Dans le cadre de mes travaux sur la gouvernance et la politique de l'IA, j'ai observé comment la concurrence non réglementée et l'influence des entreprises peuvent conduire à un déploiement dangereux. Sans mesures de sécurité proactives, l'IA pourrait accélérer les cybermenaces, l'instabilité économique et les conflits géopolitiques. Mes recherches sur Big Tech vs. Government et Technology in Great Power Competition mettent en lumière ces dangers. La sécurité existentielle de l'IA n'est pas seulement une préoccupation abstraite - il s'agit de s'assurer que l'IA reste un outil de progrès, et non une force incontrôlée qui porte atteinte à l'autonomie et à la sécurité de l'homme.

Veuillez donner au moins un exemple de vos intérêts de recherche liés à la sécurité existentielle de l'IA :

L'un de mes principaux centres d'intérêt en matière de sécurité existentielle de l'IA est l'intersection de la gouvernance de l'IA et de la concurrence géopolitique - en particulier la manière dont le développement et le déploiement inconsidérés de l'IA pourraient entraîner des risques incontrôlables à l'échelle mondiale.

Dans mon projet de recherche intitulé "Big Tech vs. Government", j'analyse la manière dont les grandes entreprises d'IA et les acteurs étatiques rivalisent pour dominer le marché, en privilégiant souvent la vitesse à la sécurité. La course à l'armement en matière d'IA est à l'image de la concurrence nucléaire passée : les nations se sont empressées de développer des armes de pointe sans prendre pleinement en compte les conséquences à long terme. Aujourd'hui, le développement de l'IA suit une trajectoire similaire, avec peu de coordination mondiale, des réglementations fragmentées et une responsabilité minimale. Résultat ? Des systèmes d'IA déployés avant que des mesures de sécurité solides n'existent, ce qui accroît les risques d'utilisation abusive, de cybermenaces et de déstabilisation de la sécurité mondiale.

Dans l'autre projet de recherche, Technology in Great Power Competition, j'explore également le rôle de l'IA dans la guerre asymétrique et la prise de décision autonome. Les technologies militaires et de surveillance pilotées par l'IA sont déjà intégrées dans les systèmes de défense et les opérations de renseignement, ce qui suscite des inquiétudes quant à la perte de contrôle humain, aux escalades accidentelles et aux campagnes de désinformation pilotées par l'IA. Contrairement aux armes nucléaires, qui nécessitent une activation explicite, les systèmes d'IA pourraient influencer la stabilité mondiale par des perturbations économiques, la cyberguerre.

En fin de compte, mes recherches visent à empêcher l'IA de devenir une force déstabilisatrice et à s'assurer que l'IA reste alignée sur les valeurs humaines. En promouvant la coopération mondiale en ce qui concerne les protocoles de sécurité, la coordination internationale ou le déploiement éthique. Si les armes nucléaires peuvent détruire des villes en quelques secondes, des politiques d'IA imprudentes peuvent éroder l'autonomie humaine, la stabilité économique et la sécurité au fil du temps, sans que l'on s'en rende compte immédiatement.
Au-delà de la recherche, je m'emploie activement à rapprocher les communautés techniques et politiques. Par le biais de mon podcast, Bridging, je me suis entretenu avec des chercheurs en IA, des décideurs politiques et des leaders de l'industrie pour discuter de la sécurité, de la gouvernance et des risques existentiels de l'IA. Ces conversations renforcent ma conviction qu'en l'absence d'une surveillance responsable de l'IA, nous risquons des crises sociétales et géopolitiques involontaires.

La sécurité existentielle de l'IA n'est pas seulement un intérêt académique pour moi, c'est un impératif politique. Mon travail vise à identifier les risques, à proposer des cadres de gouvernance et à plaider en faveur d'une coopération internationale pour que le développement de l'IA serve l'humanité au lieu de la menacer.

S'abonner à la newsletter du Future of Life Institute

Rejoignez plus de 40 000 personnes qui reçoivent régulièrement des nouvelles de notre travail et de nos domaines d'action.
cloudmagnifiercroixarrow-up
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram