Zum Inhalt springen

Der Kongress erwägt eine Bestimmung, die alle staatlichen KI-Vorschriften für zehn Jahre verbieten würde. Diese bundesstaatliche Vorrangstellung von KI-Gesetzen würde Big Tech einen Blankoscheck ausstellen - und sich über die legitimen Bedenken lokaler Gemeinschaften hinwegsetzen, während die Unternehmen Produkte auf den Markt bringen können, die sie freimütig als gefährlich und unkontrollierbar bezeichnen. Keine Branche, schon gar nicht eine so mächtige wie Big Tech, sollte entscheiden dürfen, welche Gesetze für sie gelten - oder ob überhaupt welche gelten.

Unterzeichnen Sie die unten stehende Petition, wenn Sie der Meinung sind, dass die Staaten das Recht haben sollten, künstliche Intelligenz zu regulieren, um unsere Familien, unsere Kinder und unsere Gemeinden zu schützen.

Ein Verbot der staatlichen Regulierung von KI würde die Amerikaner 10 Jahre lang ungetesteten und potenziell gefährlichen KI-Modellen aussetzen. Sandwich-Läden haben mehr Aufsicht als Big Tech. Jetzt wollen sie sicherstellen, dass dies ein weiteres Jahrzehnt lang der Fall ist. Dem Silicon Valley einen Freifahrtschein zu geben, ist nicht "innovationsfördernd" - es ist eine Abkehr von der Verantwortung. Der Kongress sollte eine Vorrangstellung auf Bundesebene ablehnen und stattdessen schnell grundlegende Sicherheitsvorkehrungen treffen, um Familien vor immer leistungsfähigeren KI-Modellen zu schützen.

Warum ist Ihnen die Existenzsicherheit von KI wichtig?

Ich denke, dass die Verringerung des existenziellen Risikos extrem wichtig ist, und ich denke, dass die Arbeit an der existenziellen Sicherheit von KI der effektivste Weg ist, um das existenzielle Risiko zu verringern.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI.

Ich verwende Ideen aus der Entscheidungstheorie, um künstliche Agenten zu entwerfen und zu trainieren: ein Projekt, das ich 'konstruktive Entscheidungstheorie' nenne.

Mein Hauptaugenmerk liegt bisher auf der Lösung des Abschaltproblems, d. h. dem Problem, dass leistungsstarke künstliche Agenten sich niemals gegen die Abschaltung wehren. Die von mir vorgeschlagene Lösung besteht darin, Agenten so zu trainieren, dass sie eine Bedingung erfüllen, die ich "Preferences Only Between Same-Length Trajectories" (oder kurz "POST") nenne. POST-Agenten haben Präferenzen zwischen Trajektorien gleicher Länge (und können daher nützlich sein), haben aber keine Präferenz zwischen jedem Paar von Trajektorien unterschiedlicher Länge (und sind daher neutral, wenn sie abgeschaltet werden). Ich habe mich sowohl mit den theoretischen als auch mit den praktischen Aspekten dieser vorgeschlagenen Lösung befasst. Auf der theoretischen Seite habe ich bewiesen, dass POST - zusammen mit anderen plausiblen Bedingungen - Neutralität+ impliziert: Der Agent maximiert den erwarteten Nutzen und ignoriert die Wahrscheinlichkeit jeder Bahnlänge. Der Agent verhält sich ähnlich, wie man sich verhalten würde, wenn man absolut sicher wäre, dass man die Wahrscheinlichkeit seines Todes zu jedem Zeitpunkt nicht beeinflussen kann. Ich habe argumentiert, dass Agenten, die der Neutralität+ genügen, abschaltbar und nützlich wären. Auf der praktischen Seite haben meine Mitautoren und ich einfache Agenten mit Verstärkungslernen darauf trainiert, POST mit der von mir vorgeschlagenen Belohnungsfunktion zu erfüllen. Wir sind gerade dabei, diese Experimente auszuweiten.

Ich habe auch darüber nachgedacht, wie man mächtige Agenten unter Kontrolle halten kann, indem man sie zur Risikovermeidung erzieht. Hier ist die Grundidee. Für fehlgeleitete künstliche Agenten ist der Versuch, die Welt zu übernehmen, riskant. Wenn diese Agenten risikoscheu sind, wird der Versuch, die Welt zu übernehmen, für sie weniger attraktiv sein. Im Hintergrund steht ein berühmtes Kalibrierungs-Theorem des Wirtschaftswissenschaftlers Matthew Rabin, das besagt: Wenn ein Akteur bei geringem Einsatz auch nur leicht risikoscheu ist, ist er bei hohem Einsatz extrem risikoscheu. Dieses Theorem legt nahe, dass es nicht allzu schwer sein wird, einen Grad an Risikoaversion zu finden, der die folgenden beiden Bedingungen erfüllt: (i) alle ausgerichteten Agenten werden mutig genug sein, um nützlich zu sein, und (ii) alle nicht ausgerichteten Agenten werden zaghaft genug sein, um sicher zu sein.

Ich überlege auch, wie hilfreich es sein könnte, künstliche Agenten darauf zu trainieren, zwischen Paaren von Optionen indifferent zu sein. Mit den derzeitigen Trainingstechniken ist es einfach, Agenten so zu trainieren, dass sie einige Optionen anderen vorziehen, aber sie machen es nicht einfach, Agenten so zu trainieren, dass sie zwischen Paaren von Optionen indifferent sind. Die von mir vorgeschlagene Technik könnte dies erleichtern. Meine Mitautoren und ich versuchen herauszufinden, ob das stimmt. Wenn wir den Agenten beibringen können, zwischen Paaren von Optionen indifferent zu sein, könnte das unsere Fähigkeit zur Vermeidung von Zielfehlgeneralisierung erheblich verbessern. Schließlich ist eine Präferenz nur eine Ungleichheitsbedingung für die Nutzenfunktion des Agenten, während die Indifferenz eine Gleichheitsbedingung darstellt. Wir versuchen herauszufinden, wie groß dieser Vorteil sein könnte.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Ich glaube, dass die Entwicklung fortschrittlicher KI-Systeme eines der wichtigsten Ereignisse in der Geschichte der Menschheit sein könnte - und dass sie, wenn sie falsch ausgerichtet ist, zu irreversiblem Schaden führen könnte. Meine akademische Reise begann mit Philosophie, wo ich mich auf Ethik und Erkenntnistheorie konzentrierte, und hat sich seitdem durch meinen aktuellen MSc in Datenwissenschaft und KI weiterentwickelt. Diese doppelte Grundlage bestärkt mich in meiner Überzeugung, dass es nicht nur eine technische Herausforderung, sondern ein moralisches Gebot ist, leistungsfähige Systeme mit menschlichen Werten in Einklang zu bringen. Durch das BlueDot Impact AI Safety Programm und meine Forschung zu Tugendethik und agentenbasierter KI-Ausrichtung habe ich erkannt, dass selbst gut gemeinte KI-Systeme sich auf unvorhersehbare Weise verhalten können, wenn wir nicht genau verstehen, wie sie verallgemeinern, optimieren und Ziele darstellen. Mein Projekt über Überlagerung und falsche Korrelationen in Transformatormodellen hat diese Sichtweise gestärkt und gezeigt, dass komplexe Verhaltensweisen aus relativ kleinen Systemen auf eine Weise entstehen können, die wir nicht vollständig verstehen. Ich bin motiviert, einen Beitrag zur existenziellen Sicherheit von KI zu leisten, weil die Kosten eines Versagens existenziell sind, und ich möchte dazu beitragen, dass die Menschheit langfristig gedeiht.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Eines meiner Hauptforschungsinteressen im Bereich der KI-Existenzsicherheit ist die mechanistische Interpretierbarkeit - zu verstehen, wie die internen Komponenten neuronaler Netze Informationen darstellen und verarbeiten, und wie dies unsere Fähigkeit zur Vorhersage und Kontrolle des Modellverhaltens beeinflussen kann. Mein jüngstes unabhängiges Forschungsprojekt, Investigating Superposition and Spurious Correlations in Small Transformer Models (Untersuchung von Überlagerungen und falschen Korrelationen in kleinen Transformatormodellen), konzentrierte sich auf die Art und Weise, wie Merkmale in Neuronen kodiert werden, insbesondere wenn mehrere Merkmale im selben Unterraum "überlagert" werden. Ich habe untersucht, wie diese Komprimierung zu brüchiger Generalisierung, Fehlklassifizierung und dem Potenzial für trügerisches Verhalten in leistungsfähigeren Modellen führen kann.

Dieses Projekt vertiefte mein Interesse an Darstellungsstrukturen, spärlicher vs. verteilter Kodierung und der Rolle der Überlagerung bei der trügerischen Ausrichtung. Ich glaube, dass wir in der Lage sein müssen, interne Modellzustände zu interpretieren und zu erkennen, wenn die scheinbare Ausrichtung eines Modells ein falsch ausgerichtetes oder manipulatives Ziel verdeckt, um existenziellen Risiken zu begegnen. Dies ist besonders wichtig, um frühe Anzeichen von Täuschung oder Belohnungshacking bei fortgeschrittenen Agenten zu erkennen, bevor sich die Fähigkeiten unserer Kontrolle entziehen.

Ein weiterer wichtiger Bereich von Interesse ist die Überschneidung von normativer Ethik und Alignment-Forschung. Im Rahmen des BlueDot Impact AI Safety-Kurses habe ich ein Papier mit dem Titel Virtue Ethics and its Role in Agentic AI Alignment verfasst, in dem ich untersucht habe, wie die klassische Tugendtheorie einen prinzipiellen Ansatz zur Definition wünschenswerter Eigenschaften in autonomen Systemen bieten könnte. Anstatt sich nur an Ergebnissen oder Regeln zu orientieren, bietet die Tugendethik eine Methode zur Modellierung interner Dispositionen, die in einer Vielzahl von Situationen robuster sein können. Obwohl es sich hierbei eher um einen konzeptionellen als um einen technischen Ansatz handelt, bin ich der Meinung, dass eine multidisziplinäre Argumentation für die Beantwortung der Frage "Worauf sollten wir KI ausrichten?" unerlässlich ist, die eine offene und unterentwickelte Herausforderung in der Ausrichtungstheorie darstellt. Ich interessiere mich besonders für Themen wie trügerische Ausrichtung, innere Fehlausrichtung, Zielspezifikation und skalierbare Übersicht. In vielen dieser Bereiche geht es darum zu verstehen, wie Mesa-Optimierer oder unbeabsichtigte interne Ziele während des Trainings entstehen. Ich hoffe, dass ich weiter untersuchen kann, wie Interpretierbarkeitsverfahren eingesetzt werden können, um diese Risiken in früheren Phasen der Modellentwicklung zu erkennen und zu mindern. Darüber hinaus interessiert mich, wie diese technischen Erkenntnisse in die breitere KI-Governance und -Politik einfließen. Wenn wir nicht mechanistisch verstehen können, wie und warum sich fortgeschrittene Modelle so verhalten, wie sie es tun, wird es unglaublich schwierig, Regulierungs- oder Überprüfungssysteme zu entwickeln, die sie in großem Maßstab sicher verwalten können. Mein ultimatives Ziel ist es, zu Sicherheitsmethoden beizutragen, die sowohl technisch streng als auch praktisch anwendbar sind und sicherstellen, dass wir eine sinnvolle Kontrolle über zunehmend autonome Systeme behalten.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Viele Anwälte haben kein Gespür für die Fähigkeit der KI, große Risiken einzugehen, da sich die Rechtsbranche bisher hauptsächlich auf den Einsatz von KI für Recherchen und Schreiben konzentriert hat. Da viele Regierungsbeamte Anwälte sind, mache ich mir Sorgen, dass die politischen Entscheidungsträger sich der Risiken im Zusammenhang mit KI nicht vollständig bewusst sind. Ich sehe es als Teil meiner Aufgabe als Rechtswissenschaftlerin an, Gesetzgeber und politische Entscheidungsträger über die Vorteile und Risiken der KI-Entwicklung in ihren Rechtsordnungen zu informieren. Ich hoffe auch, Unternehmen dabei zu helfen, zu erkennen, dass es in ihrem besten (rechtlichen und ethischen) Interesse liegt, der sicheren KI-Entwicklung Priorität einzuräumen.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Dieser Blogbeitrag ist Teil eines größeren Forschungsprojekts über demokratisierte KI. Diese Arbeit basiert auf meinen Erfahrungen mit der UNDP-Diskussionsgruppe zu KI und Entwicklung in Lateinamerika und der Karibik.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

KI hat das Potenzial, die menschliche Gesellschaft zu verändern, wenn sie die menschlichen Fähigkeiten übersteigt und gut im Meta-Lernen und/oder einer verallgemeinerten Form des Machtstrebens wird. Dies könnte dazu führen, dass KI-Agenten auf Handlungsfähigkeit, Unverbesserlichkeit und Handlungen optimiert werden, die für Menschen schädlich oder einfach nicht nachvollziehbar wären.

Menschliche Werte sind chaotisch und lassen sich nur schwer in KI-Systeme einbringen, was zu falschem Verhalten führt. Diese Faktoren zusammen könnten zu einem globalen Katastrophenrisiko führen, das durch einen Wettlauf um das leistungsfähigste KI-System angeheizt wird.

Ich möchte auch, dass mehr junge Menschen zu Wort kommen, denn schließlich ist es meine Generation, die sich mit den Folgen der KI auseinandersetzen muss.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Meine Forschung befasst sich mit der Steuerung von Pioniersystemen der KI, wobei ich mich darauf konzentriere, den Missbrauch von KI-Modellen zu verhindern, was einen Präzedenzfall für jede Gesetzgebung im Zusammenhang mit X-Risiken schaffen wird. In letzter Zeit konzentriere ich mich auf die Steuerung von tödlichen autonomen Waffensystemen und die globale KI-Steuerung mit dem Center for AI and Digital Policy, wo ich Stellungnahmen zu Entwürfen für KI-Gesetzgebung verfasse. Außerdem leite ich die indische Sektion von Encode Justice, der weltweit größten Jugendbewegung, die sich mit den Risiken der KI befasst.

  1. Hier ist ein Bericht, den ich zusammen mit Encode Justice über tödliche autonome Waffensysteme als Antwort auf den fortlaufenden Text der Gruppe der Regierungsexperten bei der UN CCW geschrieben habe.
  2. Hier ist ein Bericht über die Interoperabilität der KI-Governance und bewährte Verfahren , den ich gemeinsam mit dem Policy Network on AI des IGF verfasst habe.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Die rasche Ausweitung von KI-Fähigkeiten und deren Einsatz birgt große Risiken für die menschliche Gesellschaft. Diese ergeben sich sowohl aus den unvorhergesehenen Folgen leistungsfähiger KI-Systeme als auch aus ihrem möglichen Missbrauch. Ich glaube, dass es unsere Verantwortung als KI-Forscher und -Praktiker ist, diese Risiken ernst zu nehmen. Durch proaktive Erforschung der mit KI verbundenen Gefahren und der Möglichkeiten, ihnen zu begegnen, können wir diese Risiken mindern und sicherstellen, dass KI zum Nutzen aller eingesetzt werden kann. Eine umfassende Strategie für den Umgang mit KI-Risiken wird zwangsläufig über die rein technischen Aspekte hinausgehen und auch die sozialen und politischen Faktoren berücksichtigen, die Bedingungen schaffen, unter denen KI-Technologie missbraucht und die Sicherheit vernachlässigt werden kann. Sie wird auch die sozialen Auswirkungen des Einsatzes von KI-Systemen berücksichtigen, die das Potenzial für soziale Umwälzungen haben. Als Doktorand der kognitiven Computerneurowissenschaften an der Universität Oxford und Mitglied von Concordia AI interessiere ich mich besonders dafür, wie KI-Systeme mit Menschen interagieren und die Entscheidungsfindung beeinflussen, sowie für die Verbesserung der Ost-West-Zusammenarbeit im Bereich KI-Sicherheit und Governance.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Zu meinen KI-sicherheitsrelevanten Forschungsinteressen gehören die Verbesserung des Verständnisses von Ungewissheit beim Deep Learning und die Entwicklung sicherer und besser interpretierbarer Belohnungsfunktionen für RL-Algorithmen.

Deep-Learning-Algorithmen haben Schwierigkeiten, Unsicherheiten effektiv einzuschätzen, und können in Bereichen wie Computer Vision, RL und Sprachverarbeitung hochsichere, aber ungenaue Urteile fällen. Da künstliche Intelligenz jedoch zunehmend agentenbasiert wird, wird ein robustes Verständnis von Unsicherheit immer wichtiger, da wir wollen, dass die Systeme erkennen können, wenn sie nicht über die für eine bestimmte Entscheidung erforderlichen Informationen verfügen, so dass sie bei Bedarf Input von Menschen einholen oder Aktionen verschieben können. In meinem ersten großen Promotionsprojekt mit Christopher Summerfield habe ich RL verwendet, um die Fähigkeit des Menschen zu modellieren, sich an Veränderungen der Kontrollierbarkeit der Umwelt anzupassen. Im Rahmen dieses Projekts habe ich einen RL-Algorithmus entwickelt, der Unsicherheiten effektiver einschätzt, indem er vorhersagt, wie wahrscheinlich es ist, dass eine gewählte Handlung erfolgreich ist, und so die kognitiven Kontrollstrukturen des Menschen nachahmt. Wir zeigen, dass dies dem Agenten ermöglicht, seine Strategie an Veränderungen der Kontrollierbarkeit der Umwelt in Situationen anzupassen, in denen herkömmliche Meta-RL versagt. Wir zeigen, dass der Algorithmus, der Vorhersagen über die Kontrollierbarkeit der Umwelt macht, auch das menschliche Verhalten bei Entscheidungsaufgaben besser rekapituliert. Diese Arbeit wird derzeit bei Nature Neuroscience geprüft, ist aber als Vorabdruck verfügbar. Ich arbeite derzeit daran, diesen Algorithmus auf andere Arten von Ungewissheit zu erweitern, da ich glaube, dass er einen allgemeineren Rahmen bieten kann, und bin daran interessiert, Sicherheitsanwendungen dieser Art von Forschung direkter zu entwickeln.

Ein weiteres wichtiges Problem bei RL ist die Bestimmung effektiver Belohnungsfunktionen zur Steuerung des Agentenverhaltens. Da die rein aufgabenbezogenen Belohnungen in der Regel spärlich sind, werden intrinsische Belohnungen (die dem Agenten von ihm selbst und nicht von der Umwelt zugeführt werden) häufig zur Ergänzung des extrinsischen Belohnungssignals verwendet. Diese intrinsischen Motivationsfaktoren sind jedoch bekanntermaßen schwierig zu handhaben, da RL-Agenten häufig Exploits oder Hacks finden, um ihre Belohnungen auf eine Weise zu maximieren, die der Forscher nicht bedacht hat, was zu unvorhersehbarem Verhalten führt. Frühere Arbeiten haben sich mit der Verwendung von Meta-Learning in einer äußeren Schleife beschäftigt, um eine intrinsische Belohnungsfunktion zu erlernen, die dann zur Steuerung des Agentenverhaltens in einer inneren Schleife verwendet werden kann. Mein Projekt im Rahmen des Sommer-Forschungsstipendiums Principles of Intelligent Behavior in Biological and Social Systems (PIBBSS) befasste sich mit der Frage, wie Meta-Learning stattdessen zum Erlernen einer intrinsischen Motivationsfunktion verwendet werden könnte, um eine sichere Erkundung zu fördern, indem die Entscheidungen des Agenten gelenkt werden, bevor er eine Handlung vorgenommen hat. Eine Variante dieser Arbeit, die sich darauf konzentriert, wie sie auch das Lernen während der menschlichen Entwicklung modellieren kann, wurde in den Proceedings of the Meeting of the Cognitive Society veröffentlicht. Ich betreue derzeit einen Studenten an der EPFL, der an Erweiterungen dieses Projekts arbeitet.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Als Forscher, der sich mit den sozio-rechtlichen und ethischen Auswirkungen der KI befasst, halte ich es für unsere Pflicht, dafür zu sorgen, dass KI-Technologien so entwickelt und eingesetzt werden, dass die Menschenrechte und ethischen Grundsätze eingehalten werden. Dazu gehört auch, Schaden zu verhindern und sicherzustellen, dass KI-Systeme mit menschlichen Werten in Einklang stehen. Wenn einige wenige Unternehmen leistungsstarke KI-Technologien kontrollieren, kann dies zu monopolistischen Praktiken, mangelnder Rechenschaftspflicht und potenziellem Missbrauch führen. Die Gewährleistung der existenziellen Sicherheit von KI trägt dazu bei, diese Risiken zu mindern und eine gerechtere Verteilung der Vorteile von KI zu fördern. Ich setze mich für integrative und partizipative Governance-Modelle ein, die unterschiedliche Perspektiven einbeziehen, auch die von unterrepräsentierten Gemeinschaften. Dies stellt sicher, dass bei der Entwicklung von KI die Bedürfnisse und Rechte aller Beteiligten berücksichtigt werden, was zu gerechteren und ausgewogeneren Ergebnissen führt. KI hat das Potenzial, bedeutende gesellschaftliche Fortschritte zu erzielen, aber nur, wenn sie verantwortungsvoll entwickelt wird.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Indem wir uns auf die existenzielle Sicherheit konzentrieren, können wir die KI-Entwicklung in Richtung nachhaltiger und nützlicher Ergebnisse lenken und sicherstellen, dass der technologische Fortschritt einen positiven Beitrag zur Gesellschaft leistet. Wenn KI-Systeme nicht angemessen reguliert werden, können sie erhebliche Risiken bergen, einschließlich unbeabsichtigter Folgen und böswilliger Nutzung. Meine Forschung konzentriert sich daher unter anderem auf die Frage, wie wir unsere Gesetze und Vorschriften verbessern können, um mögliche Auswirkungen neu entstehender Technologien besser vorhersehen und darauf reagieren zu können, und wie wir flexibler reagieren können, um sicherzustellen, dass wir KI in einer Weise entwickeln und einsetzen, die vorteilhaft, vertrauenswürdig und zuverlässig ist. Da es sich um ein so komplexes Thema handelt, untersuche ich, wie wir tiefere Einblicke in die Probleme und Ursachen gewinnen können, aber auch, welche Hindernisse die Menschen davon abhalten, die Maßnahmen zu ergreifen, die wir brauchen, um unsere Gesellschaft in eine bessere Gesellschaft zu verwandeln, in der wir Menschen und Umwelt vor Schaden bewahren und eine gerechte Verteilung des Potenzials und der Vorteile von KI ermöglichen. Durch spekulatives Design und Zukunftsstudien, wie die von mir durchgeführten AIfutures-Workshops und die von mir entwickelten ExplodingAI- und Blackbox-Policy-Games, aber auch durch die vielen Podiumsdiskussionen und Präsentationen und andere Gelegenheiten, die ich für unterrepräsentierte Interessengruppen schaffe, um ihre Sichtweisen mitzuteilen und in die Diskussionen und Entscheidungen, die sich auf unser aller Leben auswirken, einbezogen und gehört zu werden. Mein Ziel ist es, künftige Herausforderungen der KI zu antizipieren und anzugehen. Dieser proaktive Ansatz ist entscheidend für die Entwicklung von Vorschriften und Governance-Rahmen, die belastbar und anpassungsfähig an zukünftige technologische Fortschritte sind.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Ich bin Vorsitzender und Direktor von Effective Altruism Australia und leite damit eine der wichtigsten Gemeinschaften, die sich mit diesem Problem befassen, in Australien. Ich habe zweimal den Kurs "AI Safety Fundamentals" von Blue Dot Impact geleitet und dem Team geholfen, andere Moderatoren zu schulen. Wie viele Fachleute (Karger et al., 2023) halte ich KI für das wahrscheinlichste existenzielle Risiko des kommenden Jahrhunderts. Ich fürchte, dass es vernachlässigt wird und nicht von selbst gelöst werden kann. Ich glaube, dass ich über nützliche Fähigkeiten verfüge, die dazu beitragen können, existenzielle Risiken durch künstliche Intelligenz zu verringern (siehe Forschungsbeispiele unten). Auf persönlicher Ebene habe ich Kinder und halte es für realistisch, dass sie kein langes, blühendes Leben haben werden, wenn die Menschheit die Kontrolle über die KI verliert.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Ich bin einer der Autoren des AI Risk Repository. Meine Kollegen am MIT haben die Arbeit auf einer Tagung der Vereinten Nationen vorgestellt, und sie hat in der Fachwelt und in den Medien Beachtung gefunden (z. B. dieser Artikel). Meine Rolle war die des leitenden Forschers an der UQ (einer der beiden Universitätspartner). Ich leitete Alexander und Jessica, die den Großteil der Arbeit leisteten.

Ich bin auch der Hauptautor der Studie Assessing Risks from Artificial Intelligence(SARA). Als leitender Autor habe ich dieses Projekt geleitet und finanziert und Alexander und Jessica unterstützt, die wiederum den Großteil der technischen Arbeit geleistet haben. Diese Arbeit war die zweite Erwähnung im Bericht der australischen Regierung, in dem sie ihren Ansatz zur KI-Sicherheit darlegt(Seite 3).

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Bei der Existenzsicherheit von KI geht es um mehr als um extreme, apokalyptische Szenarien - es geht darum, sicherzustellen, dass die Systeme, die wir heute bauen, mit den menschlichen Werten im Einklang bleiben, während sie skalieren und immer autonomer werden. Bei meiner Arbeit über die Manipulation von KI habe ich gesehen, wie selbst gut gemeinte Systeme das Verhalten oder die Entscheidungsfindung auf subtile Weise beeinflussen können, ohne dass wir dies vollständig vorhersehen. Dabei geht es nicht nur um die Kontrolle einer hypothetischen Superintelligenz, sondern um das Verständnis der Risiken, die von KI-Systemen ausgehen, die Anreize manipulieren, kognitive Verzerrungen ausnutzen oder Fehler in kritischen Infrastrukturen verursachen. Das existenzielle Risiko besteht darin, dass KI-Systeme, wenn sie falsch ausgerichtet sind oder zu schnell eingesetzt werden, die Gesellschaft zu unbeabsichtigten und schädlichen Ergebnissen führen könnten. Diese Risiken sind subtil, kumulativ und potenziell unumkehrbar, wenn KI immer mehr in wichtige gesellschaftliche Funktionen integriert wird. Wir müssen über die unmittelbaren Gefahren hinaus denken und die sich langsam aufbauenden Risiken berücksichtigen, die sich aus der Optimierung von Systemen für Ziele ergeben, die dem menschlichen Wohlergehen zuwiderlaufen. Bei der Gewährleistung der Sicherheit geht es darum, unsere langfristige Zukunft zu sichern, indem wir robuste, proaktive Maßnahmen in den Entwicklungszyklus einbetten, lange bevor KI-Systeme unsere Fähigkeit übersteigen, sie zu kontrollieren.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Eines meiner zentralen Forschungsinteressen im Zusammenhang mit der existenziellen Sicherheit von KI ist das Verständnis der Mechanismen der KI-Manipulation und -Beeinflussung, insbesondere wie diese Systeme das menschliche Verhalten und die Entscheidungsfindung subtil beeinflussen können. Dieser Bereich ist für die existenzielle Sicherheit von entscheidender Bedeutung, denn je leistungsfähiger und autonomer KI-Systeme werden, desto mehr werden sie in der Lage sein, weitreichende soziale, politische und wirtschaftliche Prozesse zu beeinflussen, und zwar oft auf eine Art und Weise, die wir nicht ohne Weiteres vorhersagen oder kontrollieren können.1 In meiner Arbeit mit DeepMind haben wir beispielsweise spezifische Mechanismen identifiziert, mit denen KI-Systeme Nutzer durch Vertrauensbildung, Personalisierung oder die Ausnutzung kognitiver Verzerrungen manipulieren können. Diese Mechanismen mögen bei Interaktionen im kleinen Rahmen harmlos erscheinen, aber wenn sie auf breiter Ebene eingesetzt werden, könnten sie die Autonomie untergraben, die Entscheidungsfindung auf gesellschaftlicher Ebene verzerren oder strategischen Missbrauch ermöglichen. Wenn wir diese Risiken nicht frühzeitig angehen, könnten wir KI-Systeme erleben, die uns auch ohne böswillige Absicht zu Ergebnissen drängen, die unsere langfristige Sicherheit und gesellschaftliche Stabilität gefährden. Dazu gehören die Entwicklung von Bewertungsverfahren zur Erkennung von Manipulationen in der Vor- und Nachbereitungsphase und die Entwicklung von Strategien zur Eindämmung von Manipulationen wie Prompt Engineering und Reinforcement Learning. Für mich ist dies ein entscheidender Faktor, um sicherzustellen, dass die Skalierung von KI-Systemen in einer Weise erfolgt, die mit menschlichen Werten in Einklang steht und vor weitreichenden, unbeabsichtigten Folgen schützt. Die Manipulation durch KI ist ein existenzielles Problem, nicht nur wegen der unmittelbaren Risiken, sondern auch, weil sie zeigt, wie KI-Systeme, wenn sie falsch ausgerichtet sind, den Lauf der menschlichen Geschichte langsam und subtil in einer Weise verändern könnten, die unsere Autonomie und unser Wohlergehen untergräbt.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

In den letzten Jahren hat sich gezeigt, dass die KI-Fähigkeiten in einem breiten Spektrum von Aufgaben und Bereichen rasch zunehmen. KI-Systeme, die effektiv verallgemeinert werden können und in großem Maßstab zuverlässig arbeiten, werden die menschliche Gesellschaft erheblich beeinflussen. Die Richtung dieses transformativen Einflusses ist jedoch ungewiss, und viele technische Lücken in der KI-Ausrichtung müssen sowohl in theoretischer als auch in empirischer Hinsicht noch gelöst werden

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Ich interessiere mich für Themen an der Schnittstelle zwischen Theorie und Praxis der KI-Anpassung. Ich beschäftige mich mit Themen an der Schnittstelle von Reinforcement Learning, Preference Learning und kooperativer KI. Meine Forschung konzentriert sich auf das Verständnis und die Entwicklung adaptiver, robuster und sicherer zielgerichteter KI-Systeme, die effektiv mit Menschen und untereinander zusammenarbeiten.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Mit der kontinuierlichen Einführung neuer großer Sprachmodelle und großer Bild-Sprach-Modelle, die menschliche oder sogar übermenschliche Sprachverarbeitungsfähigkeiten demonstrieren, mache ich mir zunehmend Sorgen über unser mangelndes Verständnis dieser Modelle. Wie sollten wir die Verhaltensweisen der Modelle interpretieren? Übernehmen die Modelle kognitive Prozesse in ähnlicher Weise wie Menschen? Können wir noch verlässlich zwischen von Menschen erstellten und von KI generierten Inhalten unterscheiden? Was können wir tun, um zu verhindern, dass KI-Systeme Menschen in die Irre führen? Mein Ziel ist es, technische Innovationen beizusteuern, die zur Beantwortung dieser Fragen beitragen.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Meine Forschungsinteressen liegen im Bereich der Computerlinguistik und der Verarbeitung natürlicher Sprache, wo ich Computermodelle verwende, um unser Verständnis der natürlichen Sprache und des menschlichen Sprachverarbeitungsmechanismus zu vertiefen und herauszufinden, wie diese Erkenntnisse in die Entwicklung effizienter, effektiver, sicherer und vertrauenswürdiger NLP- und KI-Systeme einfließen können. Mein besonderer Schwerpunkt liegt auf dem fundierten Spracherwerb und der Verknüpfung von Sprache mit realen Kontexten über verschiedene Modalitäten hinweg.

Derzeit fehlt es uns an einem gründlichen Verständnis der kognitiven Prozesse, die dem menschlichen und maschinellen Sprachverständnis zugrunde liegen. Um dieses Problem anzugehen, habe ich mich in der Vergangenheit mit den folgenden Themen beschäftigt, die ich auch in Zukunft weiterverfolgen werde:

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Meine Forschung hat einen starken Bezug zur Existenzsicherheit von KI, weil ich glaube, dass wir ein besseres Verständnis und eine bessere Kontrolle ihrer potenziellen Risiken und Fallstricke erreichen sollten, bevor wir sie auf alle anwenden. Als jemand, der sich mit maschinellem Lernen beschäftigt, dachte ich, ich würde die aktuellen KI-Modelle verstehen. Ich habe mich jedoch geirrt, denn ich finde es äußerst schwierig, wirklich zu wissen, warum große Sprachmodelle verallgemeinern können (oder auch nicht)... Das ist etwas ganz anderes als beim traditionellen maschinellen Lernen oder beim Deep Learning, wo wir eine gewisse Interpretierbarkeit anbieten können. Daher habe ich meinen Schwerpunkt auf das Verständnis und die Bewertung von KI verlagert, und zum Glück sind wir nicht allein. Ich arbeite schon seit langem mit Jose zusammen. Es ist wirklich schön, jemanden zu finden, der die gleichen Interessen wie man selbst hat. Außerdem weiß ich, dass sich das FoL-Institut noch mehr auf die KI-Sicherheit konzentriert, was gut ist! Ich glaube, dass wir mit den Bemühungen vieler anderer bessere Modelle mit besserer Kontrolle bauen können. Dadurch können wir sagen, dass wir wirklich KI für alle machen!

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks, ICLR 2024 spotlight.
In diesem Papier schlagen wir ein allgemeines Rahmenwerk vor, das einen ganzheitlichen Rahmen für das Verständnis von KI-Fähigkeiten bietet, um deren Risiken besser bewerten zu können. Dieses Papier ist ein populäres Papier, das in der Sicherheitsgemeinschaft viel Aufmerksamkeit erregt hat.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Da sich die Menschen bei alltäglichen Aufgaben zunehmend auf KI verlassen, ist es von entscheidender Bedeutung zu untersuchen, wie KI-Systeme menschliche Entscheidungen, Werte und Überzeugungen beeinflussen und wie überzeugend sie dabei sind. Wenn diese Modelle die Fähigkeit erlangen, große Bevölkerungsgruppen zu beeinflussen, könnten sie soziale Normen, politische Ergebnisse und wirtschaftliche Stabilität erheblich verändern. Wenn wir ihr freien Lauf lassen, könnte fortschrittliche KI Konflikte, Ungleichheit und Polarisierung verstärken.

Deshalb untersuche ich persuasive KI-Technologien, um die Interaktion zwischen Mensch und KI zu verstehen, Sicherheitsmessungen vorzuschlagen und Richtlinien zu entwickeln. Mein Ziel ist es, eine Lösung zu finden, um die menschliche Autonomie zu bewahren, unsere kollektive Zukunft zu schützen und sicherzustellen, dass die Werkzeuge, die wir entwickeln, uns auf lange Sicht dienen und nicht kontrollieren.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Hier sind zwei Beispiele für meine früheren Projekte im Zusammenhang mit der existenziellen Sicherheit von KI: (1) Vermenschlichung von KI zur Untersuchung von KI-Sicherheitsproblemen; und (2) Verständnis dafür, wie Menschen KI-Modelle in der Überzeugungsarbeit wahrnehmen.

Warum interessieren Sie sich für die existenzielle Sicherheit von KI?

Nachdem ich in Asien, Europa und den USA gelebt und gearbeitet habe, habe ich aus erster Hand die Hässlichkeit rücksichtsloser Rüstungswettläufe gesehen, von konventionellen Waffen bis hin zur Verbreitung von Atomwaffen. Ich habe in der internationalen Sicherheits- und Technologiepolitik gearbeitet und mit Regierungen und politischen Entscheidungsträgern zusammengearbeitet, um diese Risiken zu mindern. Wenn Atomwaffen Leben in Sekunden auslöschen können, wird unverantwortliche KI das menschliche Wohlergehen jede Sekunde untergraben, oft unbemerkt - bis wir uns in einer unumkehrbaren Krise befinden.

Bei meiner Arbeit über KI-Governance und -Politik habe ich beobachtet, wie unregulierter Wettbewerb und der Einfluss von Unternehmen zu einem unsicheren Einsatz führen können. Ohne proaktive Sicherheitsmaßnahmen könnte die KI Cyberbedrohungen, wirtschaftliche Instabilität und geopolitische Konflikte beschleunigen. Meine Forschung zu Big Tech vs. Regierung und Technologie im Wettbewerb der Großmächte zeigt diese Gefahren auf. Die existenzielle Sicherheit von KI ist nicht nur eine abstrakte Sorge - es geht darum, sicherzustellen, dass KI ein Werkzeug des Fortschritts bleibt und nicht eine unkontrollierte Kraft, die die menschliche Autonomie und Sicherheit untergräbt.

Bitte nennen Sie mindestens ein Beispiel für Ihr Forschungsinteresse im Zusammenhang mit der Existenzsicherheit von KI:

Eines meiner zentralen Forschungsinteressen im Bereich der existenziellen Sicherheit von KI konzentriert sich auf die Überschneidung von KI-Governance und geopolitischem Wettbewerb - insbesondere auf die Frage, wie rücksichtslose KI-Entwicklung und -Einsatz zu unkontrollierbaren Risiken auf globaler Ebene führen könnten.

In meinem Forschungsprojekt "Big Tech vs. Government" analysiere ich, wie große KI-Firmen und staatliche Akteure um die Vorherrschaft konkurrieren und dabei oft der Geschwindigkeit den Vorrang vor der Sicherheit geben. Das Wettrüsten im Bereich der KI ist ein Spiegelbild des nuklearen Wettrüstens in der Vergangenheit - Nationen haben sich beeilt, fortschrittliche Waffen zu entwickeln, ohne die langfristigen Folgen zu bedenken. Heute folgt die KI-Entwicklung einer ähnlichen Entwicklung, mit wenig globaler Koordination, fragmentierten Vorschriften und minimaler Rechenschaftspflicht. Das Ergebnis? KI-Systeme, die eingesetzt werden, bevor es robuste Sicherheitsmaßnahmen gibt, erhöhen das Risiko des Missbrauchs, der Cyber-Bedrohungen und der Destabilisierung der globalen Sicherheit.

In dem anderen Forschungsprojekt, Technology in Great Power Competition, untersuche ich auch die Rolle der KI in der asymmetrischen Kriegsführung und der autonomen Entscheidungsfindung. KI-gesteuerte Militär- und Überwachungstechnologien werden bereits in Verteidigungssysteme und nachrichtendienstliche Operationen integriert, was Bedenken hinsichtlich des Verlusts menschlicher Aufsicht, versehentlicher Eskalationen und KI-gesteuerter Fehlinformationskampagnen weckt. Im Gegensatz zu Nuklearwaffen, die explizit aktiviert werden müssen, könnten KI-Systeme die globale Stabilität durch wirtschaftliche Störungen und Cyber-Kriegsführung beeinflussen.

Letztlich zielt meine Forschung darauf ab, zu verhindern, dass die KI zu einer destabilisierenden Kraft wird, und sicherzustellen, dass die KI mit den menschlichen Werten in Einklang steht. Durch die Förderung der globalen Zusammenarbeit in Bezug auf Sicherheitsprotokolle, internationale Koordination oder ethischen Einsatz. Wenn Atomwaffen Städte innerhalb von Sekunden zerstören können, kann eine rücksichtslose KI-Politik die menschliche Autonomie, wirtschaftliche Stabilität und Sicherheit im Laufe der Zeit aushöhlen - ohne dass dies sofort bemerkt wird.
Über die Forschung hinaus arbeite ich aktiv daran, Brücken zwischen technischen und politischen Gemeinschaften zu schlagen. In meinem Podcast "Bridging" diskutiere ich mit KI-Forschern, politischen Entscheidungsträgern und Branchenführern über KI-Sicherheit, Governance und existenzielle Risiken. Diese Gespräche bestärken mich in meiner Überzeugung, dass wir ohne eine verantwortungsvolle KI-Aufsicht unbeabsichtigte gesellschaftliche und geopolitische Krisen riskieren.

Die existenzielle Sicherheit von KI ist für mich nicht nur ein akademisches Interesse, sondern ein politisches Gebot. Meine Arbeit zielt darauf ab, die Risiken zu identifizieren, Governance-Rahmenwerke vorzuschlagen und für eine internationale Zusammenarbeit einzutreten, um sicherzustellen, dass die KI-Entwicklung der Menschheit dient und sie nicht bedroht.

Abonnieren Sie den FLI Newsletter

Schließen Sie sich einer Leserschaft von 40.000 Abonenten an, die regelmäßig über unsere Arbeit und Schwerpunktbereiche informiert werden.
WolkeLupeKreuzPfeil-nach-oben
linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram