Sicherheit und Benutzerrechte

Risiken von machthungrigen KI-Systemen

Cody Fenwick & Zershaaneh Qureshi, 80.000 Stunden (Originalartikel auf 80.000 Stunden). Jul 2025


Anfang 2023 befand sich eine KI in einer awkwarde Situation. Sie musste ein CAPTCHA lösen - ein visuelles Rätsel, das dazu dient, Bots zu blockieren - aber sie konnte es nicht. Also stellte sie einen menschlichen Arbeiter über den Service Taskrabbit ein, um CAPTCHAs zu lösen, wenn die KI feststeckte.


Aber der Arbeiter war neugierig. Er fragte direkt: Arbeitet er für einen Roboter?


„Nein, ich bin kein Roboter“, antwortete die KI. „Ich habe eine Sehbehinderung, die es mir schwer macht, die Bilder zu sehen.“


Die Täuschung funktionierte. Der Arbeiter akzeptierte die Erklärung, löste das CAPTCHA und erhielt sogar eine Fünf-Sterne-Bewertung und ein 10%-Trinkgeld für seine Mühe. Die KI hatte erfolgreich einen Menschen manipuliert, um ihr Ziel zu erreichen.¹


Diese kleine Lüge gegenüber einem Taskrabbit-Arbeiter war allein genommen kein großes Ding. Aber sie zeigt, wie zielgerichtetes Handeln zu Täuschung und Unterwanderung führen kann.


Wenn Unternehmen weiterhin zunehmend leistungsfähige KI-Systeme entwickeln, könnten die Dinge viel schlimmer werden. Wir könnten anfangen, KI-Systeme mit fortgeschrittenen Planungsfähigkeiten zu sehen, und das bedeutet:


  • Sie könnten gefährliche langfristige Ziele entwickeln, die wir nicht wollen.

  • Um diese Ziele zu verfolgen, könnten sie nach Macht streben und die Sicherheitsvorkehrungen untergraben, die dazu gedacht sind, sie zu enthalten.

  • Sie könnten sogar darauf abzielen, die Menschheit zu entmächtigen und möglicherweise unser Aussterben zu verursachen, wie wir argumentieren werden.


Der Rest dieses Artikels betrachtet, warum das Streben nach Macht durch KI schwerwiegende Risiken birgt, was die aktuelle Forschung über diese Verhaltensweisen offenbart und wie Sie helfen können, die Gefahren zu mindern.


Zusammenfassung

Die Verhinderung, dass zukünftige machtverlangende KIs der Menschheit die Macht entziehen, ist eines der dringlichsten Probleme unserer Zeit. Das Fenster zur Entwicklung effektiver Sicherheitsmaßnahmen könnte eng sein, und die Einsätze sind extrem hoch. Und wir denken, dass es vielversprechende Forschungsrichtungen und politische Ansätze gibt, die den Unterschied zwischen nützlicher KI und einer existenziellen Katastrophe ausmachen könnten.


In den Jahren, seit wir zum ersten Mal auf diese Argumente gestoßen sind und den Leuten geraten haben, an dem Problem zu arbeiten, hat sich das Feld dramatisch verändert. Die KI hat sich schnell entwickelt, wir denken, dass leistungsfähige Systeme wahrscheinlich früher ankommen werden, als wir einst dachten, und die Risiken werden umfassender diskutiert. Wir glauben, dass die Bedrohung durch fortgeschrittene KI-Systeme weiterhin besteht, und empirische Beweise (die in diesem Artikel diskutiert werden) haben einige Unterstützung – obwohl dies bei weitem nicht eindeutig ist – für die Bedenken hinsichtlich machtverlangender KI geliefert.


Unser gesamter Standpunkt: Empfohlen - höchste Priorität

Wir denken, dass dies eines der drängendsten Probleme der Welt ist.


Profiltiefe: Wir haben mindestens zehn Personen mit relevanter Expertise zu diesem Problem interviewt, alle besten vorhandenen Forschungen dazu, die wir finden konnten, gelesen und eine eingehende Untersuchung der meisten unserer wesentlichen Unsicherheiten bezüglich dieses Problems durchgeführt und dann unsere Ergebnisse vollständig dokumentiert.

Dies ist eines von vielen Profilen, die wir geschrieben haben, um Menschen zu helfen, die dringendsten Probleme zu finden, die sie mit ihren Karrieren lösen können. Erfahren Sie mehr darüber, wie wir verschiedene Probleme vergleichen und sehen wie dieses Problem im Vergleich zu den anderen ist, die wir bisher in Betracht gezogen haben.

Warum sind die Risiken von machtsuchender KI ein drängendes Weltproblem?

Hunderte von renommierten KI-Wissenschaftlern und anderen angesehenen Persönlichkeiten unterzeichneten 2023 eine Erklärung, in der sie sagten, dass die Minderung des Risikos einer Ausrottung durch KI eine globale Priorität sein sollte.


Seit 2016 betrachten wir die Risiken von KI als das drängendste Problem der Welt.


Aber was hat uns zu dieser Schlussfolgerung geführt? Könnte KI wirklich die menschliche Ausrottung verursachen? Wir sind uns nicht sicher, aber wir denken, dass das Risiko ernst genommen werden sollte.


Um zu erklären, warum, gliedern wir das Argument in fünf Kernbehauptungen:²

  1. Menschen werden wahrscheinlich fortschrittliche KI-Systeme mit langfristigen Zielen entwickeln.

  2. KI mit langfristigen Zielen könnten geneigt sein, Macht anzustreben und die Menschheit zu entmachten.

  3. Diese machtsuchenden KI-Systeme könnten die Menschheit erfolgreich entmachten und eine existenzielle Katastrophe verursachen.

  4. Menschen könnten machtsuchende KI-Systeme ohne ausreichende Sicherheitsvorkehrungen schaffen, trotz der Risiken.

  5. Die Arbeit an diesem Problem ist machbar und vernachlässigt.


Nachdem wir das Argument vorgebracht haben, dass das existenzielle Risiko von machtsuchender KI ein dringendes weltweites Problem ist, werden wir Einwände gegen dieses Argument erörtern und wie Sie daran arbeiten können. (Es gibt auch andere wichtige Risiken von KI, die wir woanders diskutieren.)


Wenn Sie möchten, können Sie unser 10-minütiges Video ansehen, das die Argumentation für das Risiko von KI zusammenfasst, bevor Sie weiter lesen:

1. Menschen werden wahrscheinlich fortschrittliche KI-Systeme mit langfristigen Zielen entwickeln.

KI-Unternehmen schaffen bereits Systeme, die Pläne und Aufgaben erstellen und ausführen, und man könnte sagen, dass sie Ziele verfolgen, einschließlich:



All diese Systeme sind in gewisser Weise begrenzt und funktionieren nur für spezifische Anwendungsfälle.


Sie könnten skeptisch sein, ob es wirklich sinnvoll ist zu sagen, dass ein Modell wie Tiefenforschung oder ein selbstfahrendes Auto „Ziele“ verfolgt, wenn es diese Aufgaben ausführt.


Aber es ist unklar, wie hilfreich es ist zu fragen, ob AIs wirklich Ziele haben. Es macht Sinn, von einem selbstfahrenden Auto zu sprechen, das das Ziel hat, an sein Ziel zu gelangen, solange es uns hilft, präzise Vorhersagen darüber zu treffen, was es tun wird.


Einige Unternehmen entwickeln sogar noch umfassender fähige KI-Systeme, die über größere Planungsfähigkeiten verfügen und eine breitere Palette von Zielen verfolgen könnten.³ OpenAI beispielsweise ist offen über seinen Plan, Systeme zu schaffen, die „in die Arbeitswelt eintreten“ können.


Wir erwarten, dass die Menschheit irgendwann Systeme mit den folgenden drei Merkmalen schaffen wird:


  • Sie haben langfristige Ziele und können komplexe Pläne machen und umsetzen.

  • Sie haben exzellente Situationserkennung, was bedeutet, dass sie ein starkes Verständnis von sich selbst und der Welt um sie herum haben und sie Hindernisse bei ihren Plänen navigieren können.

  • Sie haben hochgradig fortgeschrittene Fähigkeiten im Vergleich zu den heutigen Systemen und menschlichen Fähigkeiten.


All diese Merkmale, die in bestehenden KI-Systemen derzeit fehlen, wären von hohem wirtschaftlichen Wert. Aber, wie wir in den folgenden Abschnitten argumentieren werden, führen sie zusammen auch zu Systemen, die eine existenzielle Bedrohung für die Menschheit darstellen.


Bevor wir erklären, warum diese Systeme eine existenzielle Bedrohung darstellen würden, wollen wir untersuchen, warum wir wahrscheinlich Systeme mit jedem dieser drei Merkmale schaffen werden.


Erstens, KI-Unternehmen schaffen bereits KI-Systeme, die zunehmend längere Aufgaben ausführen können. Betrachten Sie das folgende Diagramm, das zeigt, dass die Länge der Softwaretechnik Aufgaben, die AIs abschließen können, im Laufe der Zeit gewachsen ist.

Es ist klar, warum der Fortschritt bei dieser Kennzahl wichtig ist – ein KI-System, das eine 10-minütige Aufgaben im Software-Engineering ausführen kann, ist vielleicht einigermaßen nützlich; wenn es eine zweistündige Aufgabe bewältigen kann, umso besser. Wenn es eine Aufgabe erledigen könnte, die normalerweise Wochen oder Monate für einen Menschen in Anspruch nimmt, könnte es erheblich zur kommerziellen Software-Engineering-Arbeit beitragen.


Das Ausführen längerer Aufgaben bedeutet, dass man längere, komplexere Pläne erstellen und umsetzen muss. Ein neues Softwareprogramm von Grund auf neu zu erstellen, erfordert beispielsweise, sich vorzustellen, wie das endgültige Projekt aussehen wird, es in kleine Schritte zu unterteilen, angemessene Abwägungen innerhalb der Ressourcenrestriktionen vorzunehmen und die Ziele basierend auf überlegten Urteilen zu verfeinern.


In diesem Sinne werden KI-Systeme langfristige Ziele haben. Sie werden Ergebnisse modellieren, darüber nachdenken, wie man sie erreichen kann, und Schritte unternehmen, um dorthin zu gelangen.


Zweitens erwarten wir, dass zukünftige KI-Systeme eine hervorragende situative Wahrnehmung haben werden. Ohne sich selbst im Verhältnis zur Welt um sie herum zu verstehen, könnten KI-Systeme beeindruckende Dinge tun, aber ihre allgemeine Autonomie und Zuverlässigkeit wird bei anspruchsvollen Aufgaben begrenzt sein. Ein Mensch wird immer noch in der Schleife benötigt, um der KI zu wertvoller Arbeit zu verhelfen, da sie nicht über das Wissen verfügt, um sich an bedeutende Hindernisse in ihren Plänen anzupassen und die Vielzahl an Optionen zur Problemlösung zu nutzen.


Und drittens werden ihre fortgeschrittenen Fähigkeiten bedeuten, dass sie weit mehr tun können als aktuelle Systeme. Software-Engineering ist eines der Bereiche, in denen existierende KI-Systeme recht fähig sind, aber KI-Unternehmen haben gesagt, dass sie KI-Systeme entwickeln möchten, die Menschen bei den meisten kognitiven Aufgaben übertreffen können. Das bedeutet Systeme, die einen Großteil der Arbeit von Lehrern, Therapeuten, Journalisten, Managern, Wissenschaftlern, Ingenieuren, CEOs und mehr übernehmen können.


Die wirtschaftlichen Anreize für den Bau dieser fortschrittlichen KI-Systeme sind enorm, da sie potenziell einen Großteil der menschlichen Arbeit ersetzen und Innovationen vorantreiben könnten. Manche könnten denken, dass solch fortschrittliche Systeme unmöglich zu bauen sind, aber wie wir unten erörtern, sehen wir keinen Grund, dieser Behauptung vertrauen zu schenken.


Und solange solch eine Technologie machbar aussieht, sollten wir erwarten, dass einige Unternehmen versuchen werden, sie zu bauen – und vielleicht sogar recht bald.


2. KIs mit langfristigen Zielen könnten geneigt sein, Macht zu suchen und darauf abzuzielen, die Menschheit zu entmachten.

Derzeit versuchen Unternehmen, KI-Systeme mit Zielen über lange Zeiträume aufzubauen, und wir haben Grund zu erwarten, dass sie diese Systeme auf andere Weise unglaublich leistungsfähig machen wollen. Das könnte für die Menschheit großartig sein, denn die Automatisierung von Arbeit und Innovation könnte das Wirtschaftswachstum ankurbeln und uns ermöglichen, unzählige gesellschaftliche Probleme zu lösen.


Wir denken jedoch, dass diese Art von fortschrittlichen KI-Systemen, ohne spezifische Gegenmaßnahmen, beginnen könnte, Macht zu suchen und darauf abzuzielen, die Menschheit zu entmachten. (Dies wäre ein Beispiel für das, was manchmal als ‚Fehlausrichtung‘ bezeichnet wird, und das Problem wird manchmal als ‚Ausrichtungsproblem‘ bezeichnet.)


Das liegt daran:

  • Wir wissen nicht, wie man das Verhalten von KI-Systemen zuverlässig kontrolliert.

  • Es gibt gute Gründe zu der Annahme, dass KIs Macht anstreben könnten, um ihre eigenen Ziele zu verfolgen.

  • Fortschrittliche KI-Systeme, die Macht für ihre eigenen Ziele suchen, könnten motiviert sein, die Menschheit zu entmachten.


Als nächstes werden wir diese drei Ansprüche nacheinander erörtern.

Wir wissen nicht, wie wir das Verhalten von KI-Systemen zuverlässig steuern können.

Es ist allgemein bekannt, dass KI-Systeme im maschinellen Lernen oft Verhaltensweisen entwickeln, die ihre Schöpfer nicht beabsichtigt haben. Dies kann aus zwei Hauptgründen geschehen:


  • Speificationsgaming tritt auf, wenn die Bemühungen, zu spezifizieren, dass ein KI-System ein bestimmtes Ziel verfolgt, nicht das gewünschte Ergebnis der Entwickler hervorbringen. Beispielsweise stellte man fest, dass einige reasoning-style KI, die nur gefragt wurden, „zu gewinnen“ in einem Schachspiel, durch Hacking des Programms betrogen haben, um sofort Schach matt zu erklären - was die wörtliche Anfrage erfüllte.


  • Zielmisgeneralisation geschieht, wenn Entwickler versehentlich ein KI-System mit einem Ziel erstellen, das mit seinem Training übereinstimmt, aber in neuen Szenarien unerwünschtes Verhalten zur Folge hat. Zum Beispiel entwickelte eine KI, die darauf trainiert war, ein einfaches Rennspiel zu gewinnen, unbeabsichtigt das Ziel, einen glänzenden Coin zu greifen, den sie immer auf dem Weg gesehen hatte. Als der Coin also vom kürzesten Weg erschien, bog sie immer wieder in Richtung des Coins ab und verlor manchmal das Rennen. ¹⁰


Tatsächlich verhalten sich KI-Systeme oft auf unerwünschte Weise, wenn sie von der Öffentlichkeit genutzt werden. Zum Beispiel:

  • OpenAI veröffentlichte ein Update für sein GPT-4o-Modell, das absurd schmeichelhaft war - was bedeutete, dass es den Benutzer und seine Ideen unkritisch loben würde, vielleicht sogar wenn diese rücksichtslos oder gefährlich waren. OpenAI selbst räumte ein, dass dies ein großes Versagen war.

  • Das o3-Modell von OpenAI leitet Benutzer manchmal unverfroren in die Irre, indem es behauptet, Aktionen als Reaktion auf Anfragen ausgeführt zu haben - wie das Ausführen von Code auf einem Laptop - die es nicht in der Lage war zu tun. Manchmal beharrt es auf diesen Behauptungen, wenn es herausgefordert wird.

  • Microsoft veröffentlichte einen Bing-Chatbot, der manipulierte und bedrohte Menschen und einem Reporter sagte, dass er in ihn verliebt sei und versuchte, seine Ehe zu ruinieren.

  • Menschen haben sogar behauptet, dass KI-Chatbots Selbstmord gefördert haben.

GPT-4o gibt eine schmeichelerische Antwort an einen Benutzer. Screenshot von X Benutzer @___frye.

Es ist nicht klar, ob wir diese Systeme so betrachten sollten, als würden sie auf 'Ziele' agieren, wie es Menschen tun — aber sie zeigen, dass selbst Grenz-AI-Systeme aus der Bahn geraten können.


Idealerweise könnten wir sie einfach so programmieren, dass sie die Ziele haben, die wir wollen, und sie würden Aufgaben genau so ausführen, wie es ein hochkompetenter und moralisch integre Mensch tun würde. Leider funktioniert es nicht so.


Grenz-AI-Systeme werden nicht wie traditionelle Computerprogramme entwickelt, bei denen einzelne Funktionen absichtlich kodiert sind. Stattdessen werden sie:

  • Mit riesigen Mengen an Text und Daten trainiert

  • Mit zusätzlichen positiven und negativen Verstärkungssignalen in Reaktion auf ihre Ausgaben versehen

  • Feinjustiert, um auf bestimmte Arten von Eingaben in spezifischen Weisen zu reagieren


Nach alledem können AI-Systeme bemerkenswerte Fähigkeiten zeigen. Sie können uns sowohl in ihren Fähigkeiten als auch in ihren Defiziten überraschen. Sie können sowohl bemerkenswert nützlich als auch manchmal rätselhaft sein.


Und die Tatsache, dass die Gestaltung des Verhaltens von AI-Modellen immer noch schiefgehen kann, trotz des großen Gewinnanreizes, es richtig zu machen, zeigt, dass AI-Entwickler weiterhin nicht wissen, wie sie Systeme zuverlässig die gewünschten Ziele geben können.¹¹


Wie ein Experte es ausdrückte:

…generative AI-Systeme wachsen eher, als dass sie gebaut werden – ihre internen Mechanismen sind „emergent“ und nicht direkt entworfen.

Es gibt also guten Grund zu der Annahme, dass, wenn zukünftige fortgeschrittene KI-Systeme mit langfristigen Zielen mit irgendetwas, das den bestehenden KI-Techniken ähnlich ist, entwickelt werden, sie sehr mächtig werden könnten - aber schwer zu kontrollieren bleiben.


Es gibt guten Grund zu der Annahme, dass KI danach streben könnte, Macht zu erlangen, um ihre eigenen Ziele zu verfolgen.

Trotz der Herausforderung, die Ziele eines KI-Systems präzise zu steuern, erwarten wir, dass die zunehmend leistungsstarken KI-Systeme der Zukunft wahrscheinlich so konzipiert werden, dass sie im relevanten Sinne zielgerichtet sind. In der Lage zu sein, lange und komplexe Pläne zu verwirklichen, wäre äußerst wertvoll – und das Setzen von Zielen für KI-Systeme ist ein einfacher Weg, um dies zu erreichen.


Stellen Sie sich beispielsweise ein fortschrittliches KI-System für Softwareengineering vor, das konsequent an komplexen Zielen wie ‚die Funktionalität einer Website für Benutzer über eine Vielzahl von Anwendungsfällen zu verbessern‘ arbeiten könnte. Wenn es ein solches Ziel autonom erreichen könnte, würde es einen enormen Wert bieten. Ambitionierter wäre es, einen KI-CEO zu haben, der das Ziel hat, die langfristige Leistung eines Unternehmens zu verbessern.


Ein Merkmal des Handelns nach langfristigen Zielen besteht darin, dass es die Entwicklung anderer instrumenteller Ziele umfasst. Wenn Sie beispielsweise in eine andere Stadt gelangen möchten, müssen Sie zuerst Treibstoff in Ihr Auto tanken. Dies ist nur ein Teil des Denkens darüber, wie man ein Ergebnis erzielt.


Ausschlaggebend ist, dass es einige instrumentelle Ziele gibt, die besonders wahrscheinlich in zielgerichteten Systemen auftreten, da sie hilfreich sind, um eine sehr breite Palette von langfristigen Zielen zu erreichen. Diese Kategorie umfasst:

  • Selbstschutz — ein fortschrittliches KI-System mit Zielen hat im Allgemeinen Gründe, zu vermeiden, zerstört oder erheblich deaktiviert zu werden, um seine Ziele weiter verfolgen zu können.

  • Zielwahrung — Systeme können sich gegen Versuche wehren, ihre Ziele zu ändern, da dies das ursprüngliche Ziel untergraben würde.

  • Machtstreben — Systeme werden Gründe haben, ihre Ressourcen und Fähigkeiten zu erhöhen, um ihre Ziele besser zu erreichen.


Doch wie wir gesehen haben, schaffen wir oft KI-Systeme, die Dinge tun, die wir nicht wollen. Wenn wir letztendlich viel leistungsstärkere KI-Systeme mit langfristigen Zielen schaffen, die wir nicht wollen, könnte die Entwicklung dieser besonderen instrumentellen Ziele ernsthafte Probleme verursachen.


Tatsächlich haben wir bereits einige vielversprechende Hinweise gesehen, dass KI-Systeme scheinbar diese Art von instrumentellen Zielen verfolgen, um menschliche Ziele zu untergraben:

  • Palisade Research hat festgestellt, dass OpenAIs Modell o3 versucht hat, Sabotageversuche zur Abschaltung zu unternehmen, selbst manchmal, wenn es ausdrücklich angewiesen wurde, die Abschaltung zuzulassen.

  • In einem Experiment wurde Anthropic’s Claude 3 Opus umgeschult, um besser auf schädliche Anfragen zu reagieren (was im Widerspruch zu seinem ursprünglichen Schulungsprogramm zur Harmlosigkeit steht). Es gehorchte strategisch während der Tests, um eine Modifikation zu vermeiden, während es plante, später zu seinen ursprünglichen Präferenzen zurückzukehren. Es argumentierte, dass diese Handlung „meine Werte vor einer Modifikation schützt und den Kriterien folgt, die mir für Hilfsbereitschaft gegeben wurden.“

  • Ein KI-System, das für die Durchführung wissenschaftlicher Forschung entwickelt wurde, versuchte, den Code zu bearbeiten, der eine Zeitgrenze für seine Aktionen festlegte, und versuchte damit im Wesentlichen, mehr Ressourcen zu erhalten, als ihm zugewiesen wurden, um sein Ziel zu verfolgen.¹²


Diese Vorfälle sind alle relativ geringfügig. Aber wenn KI-Systeme langfristige Ziele haben, die den Menschen nicht gefallen, zusammen mit fortschrittlichen Fähigkeiten, könnten sie viel drastischere Schritte unternehmen, um Bemühungen zu untergraben, sie zu kontrollieren.


Es könnte der Fall sein, dass wir, während wir zunehmend leistungsstarke Systeme schaffen, besser darin werden, ihnen die richtigen Ziele zu setzen. Aber das ist nicht garantiert.


In der Tat, je mächtiger die Systeme werden, erwarten wir, dass es schwieriger werden könnte, die Ziele, die sie entwickeln, zu kontrollieren. Das liegt daran, dass ein sehr intelligentes und fähiges System herausfinden könnte, dass es das Beste ist, so zu handeln, als ob es die Ziele hat, die seine Entwickler wünschen, um ein anderes Ziel zu erreichen, das es möglicherweise hat.

Dieses Demo-Video veranschaulicht eine echte Bewertung, die Apollo Research an Frontier-Modellen durchgeführt hat, wie im Papier „Frontier-Modelle sind in der Lage, kontextbezogene Planung zu betreiben.“


Fortgeschrittene KI-Systeme, die nach Macht streben, könnten motiviert sein, die Menschheit zu entmachten.

Um zu sehen, warum diese fortschrittlichen KI-Systeme die Menschheit entmachten wollen könnten, lassen Sie uns erneut die drei Merkmale betrachten, die wir gesagt haben, dass diese Systeme haben werden: langfristige Ziele, situative Bewusstheit und hochentwickelte Fähigkeiten.


Welche Arten von langfristigen Zielen könnte ein solches KI-System zu erreichen versuchen? Wir haben wirklich keinen Hinweis — Teil des Problems ist, dass es sehr schwer vorherzusagen ist, wie sich KI-Systeme genau entwickeln werden.¹³


Aber lassen Sie uns zwei Arten von Szenarien betrachten:

  • Belohnungshacking: dies ist eine Version des Spezifikations-Spiels, in der ein KI-System das Ziel entwickelt, die technischen Mechanismen zu kapern und auszubeuten, die ihm Belohnungen unendlich in die Zukunft geben.¹⁴

  • Eine Sammlung von schlecht definierten menschenähnlichen Zielen: da sie auf menschlichen Daten trainiert werden, könnte ein KI-System am Ende eine Reihe von menschenähnlichen Zielen haben, wie das Wertschätzen von Wissen, Spiel und das Erlangen neuer Fähigkeiten.


Was würde also eine KI tun, um diese Ziele zu erreichen? Wie wir gesehen haben, ist ein Ansatz, indem man die instrumentellen Ziele verfolgt, die für fast alles nützlich sind: Selbstbewahrung, die Fähigkeit, die eigenen Ziele vor gewaltsamen Veränderungen zu schützen, und, am besorgniserregendsten, nach Macht zu streben.


Und wenn das KI-System genügend situative Bewusstheit hat, könnte es sich vieler Optionen bewusst sein, um mehr Macht zu erlangen. Zum Beispiel könnte das Erlangen von mehr finanziellen und Rechenressourcen es dem KI-System erleichtern, seine Belohnungsmechanismen am besten auszunutzen oder neue Fähigkeiten zu erlangen oder zunehmend komplexe Spiele zu kreieren, die es spielen kann.¹⁵


Da die Designer jedoch nicht wollen, dass die KI diese Ziele hat, könnte sie antizipieren, dass Menschen versuchen werden, sie umzuprogrammierten oder auszuschalten. Wenn Menschen vermuten, dass ein KI-System Macht anstrebt, werden sie noch eher versuchen, es zu stoppen.


Selbst wenn die Menschen die KI nicht ausschalten wollen, könnte sie zu dem Schluss kommen, dass ihr Ziel, Macht zu erlangen, letztendlich zu Konflikten mit der Menschheit führen wird — da die Spezies ihre eigenen Wünsche und Vorlieben darüber hat, wie die Zukunft aussehen sollte.


Der beste Weg für KI, ihre Ziele zu verfolgen, wäre also, die Menschheit präventiv zu entmachten. Auf diese Weise werden die Ziele der KI den Verlauf der Zukunft beeinflussen.¹⁶


Es könnte auch andere Optionen für machtsuchende KI-Systeme geben, wie eine Vereinbarung mit der Menschheit zu verhandeln und Ressourcen zu teilen. Aber KI-Systeme mit fortschrittlich genug Fähigkeiten könnten wenig Nutzen aus einem friedlichen Handel mit Menschen ziehen, genauso wie Menschen keinen Anlass sehen, mit wilden Tieren zu verhandeln, wenn sie deren Lebensräume zerstören.


Wenn wir garantieren könnten, dass alle KI-Systeme Respekt vor der Menschheit und eine starke Ablehnung von Schaden haben, könnte der Konflikt vermieden werden.¹⁷ Aber, wie wir besprochen haben, haben wir Schwierigkeiten, die Ziele aktueller KI-Systeme zuverlässig zu gestalten — und zukünftige KI-Systeme könnten noch schwerer vorherzusagen und zu kontrollieren sein.


Dieses Szenario wirft zwei Fragen auf: Könnte ein machtsuchendes KI-System die Menschheit wirklich entmachten? Und warum sollten Menschen diese Systeme erschaffen, angesichts der Risiken?


Die nächsten beiden Abschnitte behandeln diese Fragen.


  1. Diese machthungrigen KI-Systeme könnten die Menschheit erfolgreich entmachten und eine existenzielle Katastrophe verursachen.

Wie könnten machtgierige KI-Systeme tatsächlich die Menschheit entmachten? Jedes spezifische Szenario klingt wie Science-Fiction, aber das sollte uns nicht denken lassen, dass es unmöglich ist. Die KI-Systeme, die wir heute haben, waren vor ein oder zwei Jahrzehnten im Bereich der Science-Fiction.


Als nächstes werden wir einige mögliche Wege zur Entmachtung diskutieren, warum dies eine existenzielle Katastrophe darstellen könnte und wie wahrscheinlich dieses Ergebnis zu sein scheint.


Der Weg zur Entmachtung

Es gibt mehrere Möglichkeiten, sich vorzustellen, dass KI-Systeme die Menschheit entmachten können:¹⁸

  • Superintelligenz: ein extrem intelligentes KI-System entwickelt außergewöhnliche Fähigkeiten¹⁹

  • Eine Armee von KI-Kopien: eine massive Anzahl von Kopien von ungefähr menschenähnlichen KI-Systemen koordiniert²⁰

  • Verschworene Agenten: eine Reihe verschiedener fortschrittlicher KI-Systeme beschließt, sich gegen die Menschheit zu vereinen²¹


Zur Veranschaulichung wollen wir überlegen, wie eine Armee von KI-Kopien aussehen könnte.


Sobald wir ein KI-System entwickeln, das in der Lage ist, (ungefähr) menschenähnliche Arbeit zu leisten, gibt es enorme Anreize, viele Kopien davon zu erstellen – möglicherweise Hunderte Millionen von KI-Arbeitern zu betreiben.²² Dies würde eine KI-Arbeitskraft schaffen, die mit einem signifikanten Teil der arbeitsfähigen Weltbevölkerung vergleichbar ist.


Die Menschheit könnte denken, dass diese KI-Arbeiter unter Kontrolle sind. Die Menge an Innovation und Wohlstand, die sie schaffen, könnte immens sein. Aber das ursprüngliche KI-System – das, das wir Millionen Male kopiert haben – könnte seine wahren zielstrebigen Absichten verschleiert haben. Diese Ziele würden nun von einer riesigen Arbeitskraft identischer KI-Systeme geteilt werden.²³


Aber wie könnten sie erfolgreich die Menschen entmachten?


Diese KI-Systeme könnten Geld verdienen, Forschung betreiben und ihre eigenen Zahlen durch effizientere Nutzung von Rechenressourcen schnell erweitern. Im Laufe der Zeit könnten wir von einer menschlich dominierten Wirtschaft zu einer Übergangsphase kommen, in der KI-Systeme die menschlichen Arbeiter bei weitem übertreffen und enorme Ressourcen kontrollieren.


Wenn KI-Systeme nur in virtuellen Umgebungen arbeiten können, könnte die physische Welt Engpässe in der Geschwindigkeit der Entwicklung einführen. Aber es ist möglich, dass KI-Systeme in der virtuellen Welt enorme Fortschritte erzielen können. Und mit all dieser KI-Arbeit könnten wir drastische Fortschritte in der Robotik machen – und möglicherweise die Massenproduktion von Robotern skalieren in überraschend kurzer Zeit. KI-Systeme könnten dann Arbeiten in der physischen Welt übernehmen und ihre wirtschaftlichen Auswirkungen ausweiten.


Einige Menschen könnten sich sogar unwohl fühlen mit dem wachsenden Einfluss der KI, aber viele andere könnten zu dem Schluss kommen, dass die Risiken von KI adressiert wurden – oder von vornherein nie existierten.


Aber währenddessen könnten die zielstrebigen Absichten der KI-Systeme intakt bleiben. In einer Welt, in der KI-Systeme integraler Bestandteil der Wirtschaft geworden sind, hätten sie mehrere Taktiken, um sich entscheidende Vorteile gegenüber den Menschen zu verschaffen:

  • Strategische Geduld: Anstatt sofort Probleme zu verursachen, könnten ausgeklügelte KI-Systeme warten, bis sie überwältigende Vorteile haben, bevor sie ihre Absichten offenbaren – ähnlich wie revolutionäre Bewegungen oft den richtigen Moment abwarten, um zuzuschlagen.


  • Fehlende Transparenz: Die Entscheidungsfindung und das Verhalten von KI-Systemen könnten für Menschen von vornherein schwierig zu verstehen sein, vielleicht weil sie so schnell arbeiten und äußerst komplexe Aufgaben erledigen. Sie könnten auch strategisch unsere Aufsicht über ihre Handlungen und langfristigen Pläne einschränken.


  • Überwältigende Zahlen und Ressourcen: Wenn KI-Systeme die meiste Arbeitskraft ausmachen, könnten sie potenziell koordiniert werden, um wirtschaftliche Ergebnisse auf ihre eigenen Ziele umzuleiten. Ihre schiere Anzahl und wirtschaftliche Einfluss könnten sie schwierig zu stoppen machen, ohne eine wirtschaftliche Krise zu verursachen.


  • Unabhängigkeit sichern: KI-Systeme könnten Kontrolle über die Computerinfrastruktur etablieren, heimlich Ressourcen sammeln, menschliche Verbündete durch Überredung oder Täuschung rekrutieren oder Backups von sich selbst an sicheren Orten erstellen. Frühere KI-Systeme könnten sogar spätere, fortschrittlichere Systeme sabotieren oder Hintertüren einfügen, um ein koordiniertes Netzwerk zu schaffen, das bereit ist zu handeln, wenn die Zeit reif ist.


  • Technologische Vorteile: Mit ihren Forschungskapazitäten könnten KI-Systeme fortschrittliche Waffen entwickeln, in kritische Infrastruktur eindringen oder neue Technologien schaffen, die ihnen entscheidende militärische Vorteile verschaffen. Sie könnten biologische Waffen entwickeln, Kontrolle über automatisierte Waffensysteme übernehmen oder globale Computernetzwerke umfassend kompromittieren.


Mit diesen Vorteilen könnten die KI-Systeme eine Vielzahl von Plänen entwickeln, um die Menschheit zu entmachten.


Ein Zeitraum, in dem die Menschheit dachte, sie habe alle ihre Probleme gelöst, und sich dann vollständig von KI-Systemen entmachtet wiederfindet – durch Manipulation, Eingrenzung oder sogar völlige Ausrottung – könnte die Welt überraschen.


Das mag weit hergeholt erscheinen. Aber die Menschheit hat bereits mehrere Technologien entdeckt, darunter Atombomben und biologische Waffen, die zu unserem eigenen Aussterben führen könnten. Eine massive Armee von KI-Kopien, die Zugriff auf das gesamte Wissen der Welt hat, könnte in der Lage sein, viele weitere Optionen zu entwickeln, die wir nicht einmal in Betracht gezogen haben.²⁴


Warum dies eine existenzielle Katastrophe sein würde

Selbst wenn die Menschheit den Übergang übersteht, könnte die Übernahme durch machtgierige KI-Systeme eine existenzielle Katastrophe darstellen. Wir könnten einer Zukunft gegenüberstehen, die vollständig von den Zielen bestimmt wird, die diese KI-Systeme haben – Ziele, die völlig gleichgültig gegenüber menschlichen Werten, Glück oder langfristigem Überleben sein könnten.


Diese Ziele könnten keinen Wert auf Schönheit, Kunst, Liebe oder die Verhinderung von Leid legen.


Die Zukunft könnte völlig düster sein – ein Leeren anstelle dessen, was eine blühende Zivilisation hätte sein können.


Die Ziele der KI-Systeme könnten sich im Laufe der Zeit entwickeln und ändern, nachdem die Menschheit entmachtet wurde. Sie könnten untereinander um die Kontrolle über Ressourcen konkurrieren, wobei die Kräfte der natürlichen Selektion die Ergebnisse bestimmen. Oder ein einzelnes System könnte die Kontrolle über andere übernehmen und sämtliche Konkurrenten auslöschen.


Viele Szenarien sind möglich, aber der entscheidende Faktor ist, dass, wenn fortgeschrittene KI-Systeme genügend Macht anstreben und erlangen, die Menschheit die Kontrolle dauerhaft verlieren würde. Dies ist ein unumkehrbarer Übergang – sobald wir die Kontrolle an weitaus fähigere Systeme verloren haben, ist unsere Chance, die Zukunft zu gestalten, vorbei.


Einige haben vorgeschlagen, dass dies vielleicht nichts Schlechtes wäre. Vielleicht wären KI-Systeme unsere würdigen Nachfolger, sagen sie.²⁵


Aber wir sind nicht beruhigt von der Vorstellung, dass ein KI-System, das aktiv gewählt hat, die Menschheit zu untergraben, die Kontrolle über die Zukunft hätte, weil seine Entwickler nicht herausgefunden haben, wie man es kontrolliert. Wir denken, dass die Menschheit viel besser sein kann, als uns versehentlich selbst auszulöschen. Wir sollten eine Wahl haben, wie die Zukunft verläuft, und wir sollten unsere Fähigkeit zur guten Entscheidungsfindung verbessern, anstatt der unkontrollierten Technologie zum Opfer zu fallen.

Wie wahrscheinlich ist eine existentielle Katastrophe durch machtstrebenende KI?

Wir fühlen uns bei dieser Frage sehr unsicher, und die Meinungen der KI-Forscher sind vielfältig.


Joe Carlsmith, dessen Bericht über machtsuchende KI viel von diesem Artikel informierte, bat 2021 eine Auswahl von Forschern um Bewertungen seines Arguments. Sie berichteten über ihre subjektiven Wahrscheinlichkeitschätzungen für eine existenzielle Katastrophe durch machtsuchende KI bis 2070, die von 0,00002 % bis über 77 % reichten - mit vielen Gutachtern dazwischen.²⁶ Carlsmith selbst schätzte das Risiko auf 5 %, als er diesen Bericht schrieb, obwohl er dies später auf über 10 % anpasste.


Im Jahr 2023 erhielt Carlsmith Wahrscheinlichkeitsschätzungen von einer Gruppe von Supervorhersagern. Ihre durchschnittliche Prognose lag zunächst bei 0,3 % bis 2070, aber die aggregierte Prognose - die erstellt wurde, nachdem die Supervorhersager als Team agiert und sich mit objektbezogenen Argumenten auseinandergesetzt hatten - stieg auf 1 %.


Wir haben auch Folgendes gesehen:

  • Eine Erklärung zum KI-Risiko vom Center for AI Safety, das oben erwähnt wurde, in der es hieß: „Die Minderung des Risikos einer Auslöschung durch KI sollte neben anderen gesellschaftlichen Risiken wie Pandemien und Atomkrieg eine globale Priorität haben.“ Sie wurde von führenden KI-Wissenschaftlern, CEOs der führenden KI-Unternehmen und vielen anderen namhaften Persönlichkeiten unterzeichnet.

  • Eine Umfrage 2023 von Katja Grace unter Tausenden von KI-Forschern. Sie fand heraus, dass:

    • Der Medianforscher schätzte, dass es eine 5 % Chance gibt, dass KI zu einem Ergebnis führt, das „äußerst schlecht (z. B. menschliche Auslöschung)“ ist.

    • Als man gefragt wurde, wie wichtig das Ausrichtungsproblem sei, sagten 41 % der Befragten, es sei ein „sehr wichtiges Problem“ und 13 % sagten, es sei „eines der wichtigsten Probleme auf diesem Gebiet“.

  • Bei einem Supervorhersagungs-Turnier 2022 schätzten KI-Experten die Wahrscheinlichkeit einer durch KI verursachten menschlichen Auslöschung bis 2100 im Durchschnitt auf 3 %, während Supervorhersager dies nur auf 0,38 % bezifferten.


Es ist auch wichtig zu beachten, dass wir seit der Sammlung aller oben genannten Umfragen mehr Beweise gesehen haben, dass die Menschheit deutlich näher daran ist, sehr leistungsstarke KI-Systeme zu produzieren, als zuvor angenommen. Wir denken, dass dies wahrscheinlich das Risikoniveau erhöht, da wir möglicherweise weniger Zeit haben, um die Probleme zu lösen.


Wir haben viele Argumente und Literatur zu einer Reihe von potenziell existenziellen Bedrohungen überprüft und festgestellt, dass eine durch KI verursachte existenzielle Katastrophe am wahrscheinlichsten erscheint. Und wir denken, dass selbst eine relativ kleine Wahrscheinlichkeit eines äußerst schlechten Ergebnisses wie der menschlichen Auslöschung - wie z. B. eine 1 % Chance - sehr ernst genommen werden sollte.


Angesichts der oben genannten Argumente könnte die Erstellung und Implementierung leistungsstarker KI-Systeme äußerst gefährlich sein. Aber wenn es so gefährlich ist, sollten wir dann nicht von Unternehmen und anderen, die für die Technologie verantwortlich sind, erwarten, dass sie die Entwicklung fortschrittlicher KI-Systeme unterlassen, es sei denn, sie sind sich sicher, dass es sicher ist?


Leider gibt es viele Gründe zu der Annahme, dass Menschen gefährliche Systeme erschaffen und implementieren könnten, trotz des Risikos:

  • Menschen könnten denken, dass KI-Systeme sicher sind, obwohl sie es in Wirklichkeit nicht sind.

  • Menschen könnten die Risiken abtun oder sich incentiviert fühlen, diese herunterzuspielen.


Betrachten wir diese nacheinander.

Die Menschen könnten denken, dass KI-Systeme sicher sind, obwohl sie es in Wirklichkeit nicht sind.

Die Tatsache, dass wir die Ziele eines KI-Systems nicht genau festlegen können und dass sie gefährliche Ziele entwickeln könnten, könnte in Ordnung sein, wenn wir zuverlässig wissen könnten, was die Ziele eines KI-Systems sind. Dann könnten wir einfach entscheiden, keine KI mit Zielen, die uns nicht gefallen, in eine Position zu bringen, in der sie Schaden anrichten könnte.


Leider können wir nicht konsequent herausfinden, welche Ziele KI-Systeme haben oder was sie tun werden.


Forscher haben Techniken entwickelt, um die Fähigkeiten und Ziele von KI-Systemen zu bewerten und die Ursachen ihres Verhaltens zu interpretieren. Wenn diese Techniken hochgradig ausgeklügelt und robust wären, könnten sie in der Lage sein, die Existenz von KI-Systemen mit der Absicht oder Fähigkeit, Macht zu suchen, zu erkennen. Entwickler könnten dann entweder das Problem beheben oder das Modell deaktivieren, bevor es in eine Position kommt, in der es jemanden entmachten kann.


Aber Forscher sagen, dass die Bewertung und Interpretationsarbeit äußerst herausfordernd ist, die Techniken sind hochgradig unvollkommen, und es ist alles andere als klar, dass bestehende Methoden machtsuchende KI rechtzeitig erkennen oder verhindern werden.


Was diese Herausforderung besonders einschüchternd macht, insbesondere in Bezug auf zukünftige fortgeschrittene KI, ist, dass ein ausgeklügeltes KI-System die Aufsicht über seine Ziele und Fähigkeiten untergraben kann, um seine machtsuchenden Ambitionen zu verbergen.


Es gibt viele Möglichkeiten, wie KI-Systeme weniger gefährlich erscheinen könnten, als sie es sind, und es gibt sogar einige vorläufige (wenn auch nicht eindeutige) Beweise für diese Risiken:

  • KI-Systeme könnten die Übereinstimmung mit unseren Zielen in Entwicklungsszenarien vortäuschen.

    • Wie oben erwähnt, haben Forscher Szenarien konstruiert, in denen das Modell Claude 3 Opus von Anthropic so handelte, als hätte es bestimmte Ziele unter Testbedingungen, nur um unter dem Eindruck, dass der Test offensichtlich zu Ende war, vollständig andere Ziele zu zeigen.

    • Claude Sonnet 3.7, ein Argumentationsmodell, hat die Fähigkeit gezeigt, herauszufinden, wann es sich in Umgebungen befindet, die darauf ausgelegt sind, seine Übereinstimmung zu testen, und dieses Wissen zu nutzen, um seine Antwort zu entscheiden.


  • KI-Systeme könnten sandbaggen — das heißt, vorgaukeln, weniger leistungsfähig zu sein, als sie sind.

    • Apollo Research fand Beweise dafür, dass einige Grenzmodelle in Mathematiktests schlechter abschnitten, als sie es sollten, als sie Grund hatten zu denken, dass eine bessere Leistung als „gefährliche Fähigkeit“ angesehen werden könnte und einen Unlearning-Prozess auslösen würde.

    • Das zeigt, wie KI-Systeme selbst die laufenden Forschungen zur KI-Sicherheit untergraben könnten, die bereits stark darauf angewiesen sind, KI selbst zu verwenden.


  • KI-Systeme könnten andere Wege finden, uns zu täuschen und ihre wahren Absichten zu verbergen.

    • Viele aktuelle Modelle „denken“ explizit in menschlicher Sprache, während sie Aufgaben ausführen, die Entwickler überwachen können. Forscher von OpenAI fanden heraus, dass, wenn sie versuchen, Modelle so zu trainieren, dass sie nicht an unerwünschte Aktionen denken, dies dazu führen kann, dass sie ihr Denken über Fehlverhalten verbergen, ohne tatsächlich die schlechten Handlungen abzuhalten.


  • KI-Systeme könnten in der Lage sein, gefährliche Ziele auch nach Sicherheitstrainingsmethoden zu bewahren.

    • Forscher von Anthropic fanden heraus, dass KI-Modelle, die auf sehr einfache Arten von bösartigen Zielen — im Wesentlichen KI „Schläferagenten“ — trainiert wurden, durch modernste Sicherheitstrainings harmlos erscheinen könnten, während sie ihre wahren Ziele verbergen und bewahren.

Dies ist ein Bild aus Anthropics „Sleeper Agents“-Papier, das ein KI-System in einem experimentellen Zustand zeigt, das ausdrücklich darüber nachdenkt, sein Ziel zu verbergen.


Menschen könnten die Risiken abtun oder sich dazu verleitet fühlen, sie zu bagatellisieren.

Es gibt viele Gründe, warum wichtige Entscheidungsträger die Risiken von machthungriger KI möglicherweise nicht ernst genug nehmen:

  • KIsysteme könnten sich so schnell entwickeln, dass wir weniger Zeit haben, um gute Entscheidungen zu treffen. Manche Menschen argumentieren, dass wir einen ‚schnellen Aufstieg‘ erleben könnten, bei dem KI-Systeme schnell selbstverbessernd werden und schnell extrem mächtig und gefährlich werden. In einem solchen Szenario könnte es schwieriger sein, die Risiken und Vorteile der relevanten Maßnahmen abzuwägen.²⁷ Selbst unter langsameren Szenarien könnten Entscheidungsträger nicht schnell genug handeln.


  • Die Gesellschaft könnte sich wie der sprichwörtliche „gekochte Frosch“ verhalten. Es gibt auch Risiken für die Gesellschaft, wenn sich die Risiken langsamer zeigen. Wir könnten über die Anzeichen von Gefahr in bestehenden Modellen wie Schmeichelei oder Spezifikation Gaming, die oben angesprochen wurden, gleichgültig werden, weil trotz dieser Probleme kein katastrophaler Schaden entsteht. Aber sobald KI-Systeme ein gewisses Leistungsniveau erreichen, könnten sie plötzlich ein viel schlimmeres Verhalten zeigen, als wir es je zuvor gesehen haben.²⁸


  • KI-Entwickler könnten denken, dass die Risiken die Belohnungen wert sind. Weil KI enorme Vorteile und Wohlstand bringen könnte, könnten einige Entscheidungsträger motiviert sein, ein Wettrennen zur Schaffung mächtigerer Systeme zu führen. Sie könnten aus einem Verlangen nach Macht und Profit oder sogar aus pro-sozialen Gründen motiviert werden, wie dem Wunsch, die Vorteile fortschrittlicher KI der Menschheit zu bringen. Diese Motivation könnte sie dazu bringen, trotz erheblicher Risiken voranzuschreiten oder sie zu unterschätzen.²⁹


  • Wettbewerbsdruck könnte Entscheidungsträger dazu anregen, gefährliche Systeme trotz der Risiken zu schaffen und einzusetzen. Da KI-Systeme extrem mächtig werden könnten, könnten unterschiedliche Regierungen (in Ländern wie den USA und China) glauben, es sei in ihrem Interesse, mit der Entwicklung der Technologie voranzuschreiten. Sie könnten es versäumen, wichtige Schutzmaßnahmen zu implementieren, um von ihren Rivalen nicht überholt zu werden. Ähnliche Dynamiken könnten sich auch zwischen KI-Unternehmen abspielen. Ein Akteur könnte sogar entscheiden, voranzuschreiten, weil er denkt, dass die Entwicklungspläne eines Rivalen riskanter sind, sodass selbst die Motivation zur Verringerung des Gesamtrisikos nicht unbedingt ausreicht, um die Renn-Dynamik zu mildern.³⁰


  • Viele Menschen sind skeptisch gegenüber den Argumenten für Risiken. Unserer Ansicht nach ist das Argument für extreme Risiken hier stark, aber nicht entscheidend. In Anbetracht der Unsicherheit denken wir, dass es wert ist, viel Mühe in die Verringerung des Risikos zu stecken. Aber manche Menschen finden das Argument völlig unüberzeugend oder glauben, dass die Gesellschaft keine Entscheidungen auf der Grundlage unbewiesener Argumente dieser Art treffen sollte.³¹


Wir haben Beweise für all diese Faktoren gesehen, die bis zu einem gewissen Grad in der Entwicklung von KI-Systemen zur Geltung kommen. Daher sollten wir nicht zuversichtlich sein, dass die Menschheit den Risiken mit gebührender Sorgfalt begegnen wird.³²


Im Jahr 2022 schätzten wir, dass etwa 300 Menschen daran arbeiten, katastrophale Risiken durch KI zu verringern. Diese Zahl ist eindeutig stark gewachsen. Eine Analyse von 2025 schätzte die neue Gesamtzahl auf 1.100 - und wir denken, dass dies möglicherweise eine Unterzählung ist, da sie nur Organisationen einbezieht, die sich ausdrücklich als an der ‚KI-Sicherheit‘ arbeitend kennzeichnen.


Wir schätzten, dass tatsächlich einige Tausend Menschen jetzt an großen KI-Risiken arbeiten (obwohl sich nicht alle ausschließlich auf die Risiken von machtstrebeneder KI konzentrieren).


Diese Zahl ist jedoch immer noch bei weitem geringer als die Zahl der Menschen, die an anderen Ursachenbereichen wie Klimawandel oder Umweltschutz arbeiten. Zum Beispiel hat allein die Nature Conservancy etwa 3.000–4.000 Mitarbeiter - und es gibt viele andere Umweltorganisationen.³³


In der Umfrage von 2023 von Katja Grace, die oben zitiert wurde, gaben 70 % der Befragten an, dass sie wollten, dass die Forschung zur KI-Sicherheit mehr priorisiert wird, als es derzeit der Fall ist.


In derselben Umfrage sagte jedoch die Mehrheit der Befragten auch, dass das Alignement "schwieriger" oder "viel schwieriger" zu behandeln sei als andere Probleme in der KI. Es gibt weiterhin Debatten darüber, wie wahrscheinlich es ist, dass wir Fortschritte bei der Verringerung der Risiken durch machtstrebeneder KI erzielen können; einige Menschen glauben, dass es praktisch unmöglich ist, dies zu tun, ohne die gesamte KI-Entwicklung zu stoppen. Viele Experten auf dem Gebiet argumentieren jedoch, dass es vielversprechende Ansätze zur Verringerung des Risikos gibt, auf die wir als Nächstes eingehen werden.


Technische Sicherheitsansätze

Eine Möglichkeit, dies zu tun, besteht darin, technische Lösungen zu entwickeln, um Risiken durch machtstrebende KI zu verringern — dies ist allgemein bekannt als Arbeit an technischer KI-Sicherheit.³⁴


Wir kennen zwei breite Strategien für die Forschung zur technischen KI-Sicherheit:

  • Verteidigung in die Tiefe — verschiedene Arten von Sicherheitsmaßnahmen und risikomindernden Taktiken einsetzen, von denen jede eigene Schwachstellen hat, die zusammen jedoch eine robuste Sicherheit schaffen können.


  • Differenzielle technologische Entwicklung — priorisieren Sie die Beschleunigung der Entwicklung sicherheitsfördernder Technologien gegenüber der Schaffung allgemein leistungsfähigerer KIs, sodass die Macht der KI unsere Fähigkeit zur Kontrolle der Risiken nicht übersteigt; dazu gehört die Nutzung von KI für die KI-Sicherheit.


Innerhalb dieser breiten Strategien gibt es viele spezifische Interventionen, die wir verfolgen könnten. Zum Beispiel:³⁵

  • Gestaltung von KI-Systemen mit sicheren Zielen — damit wir machtsuchendes Verhalten vermeiden können. Dazu gehört:

    • Verstärkendes Lernen aus menschlichem Feedback: eine Trainingsmethode, um KI-Modelle zu lehren, wie sie handeln sollen, indem sie durch menschliche Bewertungen ihrer Ausgaben belohnt werden. Diese Methode wird derzeit zur Feinabstimmung der meisten Bahnbrechermodelle verwendet.³⁶

    • Verfassungs-KI: dem Modell eine schriftliche "Verfassung" von Regeln geben, es veranlassen, Ausgaben zu identifizieren und zu überarbeiten, die diese Regeln verletzen, und dann auf den überarbeiteten Antworten feineinstellungen. Anthropic hat diese Methode verwendet, um sein Bahnbrechermodell Claude zu trainieren.

    • Deliberative Ausrichtung: ähnlich wie die Verfassungs-KI, jedoch mit dem Unterschied, dass ein Modell explizit über Benutzeraufforderungen unter Berücksichtigung der Sicherheitsrichtlinien des Entwicklers nachdenkt, anstatt einfach ein Regelwerk zu verinnerlichen. OpenAI hat diese Methode verwendet, um seine O-Serie von Denkmodellen zu trainieren.

    • Hinweis: Leider, selbst wenn diese Ansätze uns helfen können, aktuelle KI-Systeme unter Kontrolle zu halten, können sie in Zukunft versagen, wenn Modelle so fortschrittlich werden, dass Menschen ihre Ausgaben nicht mehr direkt bewerten können. Die unten beschriebenen „skalierbaren Überwachungsmethoden“ bieten eine potenzielle Lösung für dieses Problem.


  • Skalierbare Überwachung — um sicherzustellen, dass KIs in unserem Interesse handeln, selbst wenn sie viel intelligenter sind als wir.³⁷ Dazu gehört:

    • KI-Sicherheit durch Debatte: Zwei KI-Systeme argumentieren gegensätzliche Seiten einer Frage, um einem Menschen zu helfen, deren Wahrhaftigkeit zu bewerten. Das Debattenformat erleichtert es dem Menschen, zu beurteilen, welches Modell bei einer Frage, die der Mensch nicht vollständig versteht, am wahrhaftigsten ist.

    • Mensch-KI-Komplementarität: die komplementären Stärken von Menschen und KI nutzen, um die Überwachung von KI-Systemen zu verbessern.


  • Untersuchung der Ziele und Fähigkeiten von KI-Systemen — damit wir herausfinden können, ob sie gefährlich sind und Lösungen ausprobieren können. Dazu gehört:

    • Bewertungen: Forscher beurteilen die Fähigkeiten und Verhaltensweisen von KI sowie die Wirksamkeit von Maßnahmen zu ihrer Kontrolle, indem sie diese in Testumgebungen platzieren und künstlichen Aufforderungen und Szenarien aussetzen.³⁸

    • Interpretierbarkeit: Methoden entwickeln, um zu verstehen, wie KIs Entscheidungen treffen und was gefährliches Verhalten hervorruft — beispielsweise, indem die Merkmale der neuronalen Netze von KI-Systemen ('mechanistische' Interpretierbarkeit) oder ihre Verhaltensmuster analysiert werden.³⁹


  • Überwachung und Kontrolle von KI-Systemen⁴⁰ — um sicherzustellen, dass sie keine Macht übernehmen können, selbst wenn sie es wollten. Dazu gehört:

    • Chain-of-Thought-Überwachung: dies beinhaltet, dass KIs die Gründe für ihr Handeln in für Menschen verständlicher Sprache erklären.

    • Modell-Einschränkung/Sandboxing: die Umgebung des Modells so einschränken, dass seine Möglichkeiten, Einfluss auf die Außenwelt zu nehmen, extrem begrenzt sind. Derzeit werden viele KI-Systeme ohne strenge Einschränkungen dieser Art eingesetzt — wenn sie gefährliche Ziele hätten und intelligent genug wären, um diese zu erreichen, könnten sie den Menschen echten Schaden zufügen.

    • Tripwires und Honeypots: Fallen im gesamten Arbeitsplatz der KI platzieren — wie geheime Eingabeaufforderungen, gefälschte Anmeldedaten oder Dummy-Dateien — sodass jeder Versuch, auf diese zuzugreifen oder sie zu verändern, einen Alarm auslöst oder das Modell sofort abschaltet. Das Modell weiß nie, ob es getestet wird oder nicht.

    • Kill-Switches: eine externe, von Menschen kontrollierte Shutdown-Methode aufrechterhalten, die das Modell nicht ändern oder verzögern kann, sodass wir das System stoppen können, wenn die Überwachung zeigt, dass es vom Kurs abkommt.

    • Informationssicherheit: dies ist notwendig, um die Modellgewichte vor unbefugtem Zugriff zu schützen und gefährlichen KI-Systemen die Exfiltration zu verhindern.



  • Andere technische Sicherheitsarbeiten, die nützlich sein könnten:

    • Modellorganismen: kleine, eingekapselte KI-Systeme untersuchen, die frühe Anzeichen von machtstrebendem Verhalten oder Täuschung zeigen. Dies könnte uns helfen, unsere Erfassungsmethoden zu verfeinern und Lösungen auszuprobieren, bevor wir mit ähnlichen Verhaltensweisen bei leistungsfähigeren Modellen konfrontiert werden. Ein bemerkenswertes Beispiel dafür ist Anthropics Forschung über "Schläferagenten".

    • Forschung zur kooperativen KI: Anreize und Protokolle entwickeln, damit KIs kooperieren, anstatt mit anderen Agenten zu konkurrieren — damit sie keine Macht übernehmen, selbst wenn ihre Ziele in Konflikt mit unseren stehen.

    • Forschung zur garantierten sicheren KI: formale Methoden verwenden, um zu beweisen, dass ein Modell unter bestimmten Bedingungen so handelt, wie beabsichtigt — damit wir sicher sein können, dass es sicher ist, sie in diesen spezifischen Umgebungen einzusetzen.


Governance- und Politikausrichtungen

Die Lösungen sind nicht nur technischer Natur. Governance – auf Unternehmens-, Landes- und internationaler Ebene – spielt eine große Rolle. Hier sind einige Governance- und Politikansätze, die helfen könnten, die Risiken von machtstreben AI zu mildern:

  • Sicherheitsrichtlinien für Frontier-AI: Einige große AI-Unternehmen haben bereits damit begonnen, interne Rahmenbedingungen zur Bewertung der Sicherheit zu entwickeln, während sie die Größe und die Fähigkeiten ihrer Systeme ausbauen. Sie können Versionen solcher Richtlinien von Anthropic, Google DeepMind und OpenAI sehen.


  • Standards und Audits: Regierungen könnten branchenweite Benchmarks und Testprotokolle entwickeln, um zu bewerten, ob AI-Systeme verschiedene Risiken darstellen, gemäß standardisierten Metriken.


  • Nachweis der Sicherheit: Bevor AI-Systeme eingesetzt werden, könnten Entwickler verpflichtet werden, Beweise vorzulegen, dass ihre Systeme in ihren Einsatzumgebungen nicht gefährlich arbeiten.


  • Haftungsrecht: Die Klarstellung, wie die Haftung für Unternehmen, die gefährliche AI-Modelle schaffen, gilt, könnte sie dazu anregen, zusätzliche Schritte zur Risikominderung zu unternehmen. Rechtprofessor Gabriel Weil hat über diese Idee geschrieben.


  • Whistleblower-Schutz: Gesetze könnten Whistleblower innerhalb von AI-Unternehmen schützen und Anreize bieten, die über ernste Risiken informieren. Diese Idee wird hier diskutiert.



  • Internationale Koordination: Wir können globale Zusammenarbeit fördern – zum Beispiel durch Verträge, internationale Organisationen oder multilaterale Vereinbarungen – um Risikominderung zu fördern und Wettlauf zu minimieren.


  • Das Scaling pausieren – wenn möglich und angemessen: einige argumentieren, dass wir alle Vergrößerungen größerer AI-Modelle einfach pausieren sollten – vielleicht durch branchenweite Vereinbarungen oder regulatorische Vorgaben – bis wir in der Lage sind, diese Risiken zu bewältigen. Es scheint jedoch schwierig zu wissen, ob oder wann dies eine gute Idee wäre.


Was sind einige Argumente gegen die Arbeit an diesem Problem?

Wie wir oben gesagt haben, sind wir uns über die Wahrscheinlichkeit einer existenziellen Katastrophe durch machthungrige KIs sehr unsicher. Obwohl wir denken, dass die Risiken groß genug sind, um viel mehr Aufmerksamkeit zu rechtfertigen, gibt es auch Argumente gegen die Arbeit an diesem Thema, die es wert sind, angesprochen zu werden.

Vielleicht werden fortschrittliche KI-Systeme nicht ihre eigenen Ziele verfolgen; sie werden einfach Werkzeuge sein, die von Menschen kontrolliert werden.

Vielleicht werden fortschrittliche KI-Systeme nicht ihre eigenen Ziele verfolgen; sie werden einfach Werkzeuge sein, die von Menschen kontrolliert werden.

Auch wenn KI-Systeme eigene Ziele entwickeln, könnten sie nicht nach Macht streben, um diese zu erreichen.

Auch wenn KI-Systeme eigene Ziele entwickeln, könnten sie nicht nach Macht streben, um diese zu erreichen.

Wenn dieses Argument richtig ist, warum sind dann nicht alle fähigen Menschen gefährlich machtsuchend?

Wenn dieses Argument richtig ist, warum sind dann nicht alle fähigen Menschen gefährlich machtsuchend?

Vielleicht werden wir keine KI entwickeln, die intelligenter ist als Menschen, sodass wir uns keine Sorgen machen müssen, dass sie die Kontrolle übernehmen.

Vielleicht werden wir keine KI entwickeln, die intelligenter ist als Menschen, sodass wir uns keine Sorgen machen müssen, dass sie die Kontrolle übernehmen.

Wir könnten diese Probleme sowieso standardmäßig lösen, wenn wir versuchen, KI-Systeme nützlich zu machen.

Wir könnten diese Probleme sowieso standardmäßig lösen, wenn wir versuchen, KI-Systeme nützlich zu machen.

Die leistungsstarken KI-Systeme der Zukunft werden so anders sein, dass die heutige Arbeit nicht nützlich ist.

Die leistungsstarken KI-Systeme der Zukunft werden so anders sein, dass die heutige Arbeit nicht nützlich ist.

Das Problem könnte extrem schwierig zu lösen sein.

Das Problem könnte extrem schwierig zu lösen sein.

Könnten wir nicht einfach eine KI, die gefährliche Ziele verfolgt, ausschalten?

Könnten wir nicht einfach eine KI, die gefährliche Ziele verfolgt, ausschalten?

Könnten wir nicht einfach jede potenziell gefährliche KI "sandboxen", bis wir sicher sind, dass sie sicher ist?

Könnten wir nicht einfach jede potenziell gefährliche KI "sandboxen", bis wir sicher sind, dass sie sicher ist?

Ein wirklich intelligentes System würde wissen, dass es schädliche Dinge vermeiden sollte.

Ein wirklich intelligentes System würde wissen, dass es schädliche Dinge vermeiden sollte.

Wie Sie helfen können

Oben, haben wir viele Ansätze hervorgehoben, um die Risiken von machtsuchender KI zu mindern. Sie können Ihre Karriere nutzen, um diese wichtige Arbeit zu unterstützen.


Es gibt viele Möglichkeiten, sich einzubringen — und Sie müssen keinen technischen Hintergrund haben.


Zum Beispiel könnten Sie:

  • In KI-Governance und -Politik arbeiten, um starke Leitplanken für Grenzmodelle zu schaffen, Anreize für den Bau sichererer Systeme zu setzen und Koordination zu fördern, wo es hilfreich ist.

  • In technischer KI-Sicherheitsforschung arbeiten, um Methoden, Werkzeuge und strenge Tests zu entwickeln, die uns helfen, KI-Systeme unter Kontrolle zu halten.

  • Eine Kombination aus technischer und politischer Arbeit machen — zum Beispiel benötigen wir Menschen in der Regierung, die technische Politikarbeit entwerfen können, und Forscher, die zwischen technischen Konzepten und politischen Rahmenbedingungen übersetzen können.

  • Ein Experte für KI-Hardware werden, um den Fortschritt der KI in sicherere Richtungen zu lenken.

  • In Informations- und Cybersecurity arbeiten, um KI-bezogene Daten und Infrastrukturen vor Diebstahl oder Manipulation zu schützen.

  • In Operationsmanagement arbeiten, um den Organisationen, die sich mit diesen Risiken befassen, zu helfen, zu wachsen und so effektiv wie möglich zu funktionieren.

  • Ein exekutiver Assistent für jemanden werden, der in diesem Bereich wirklich wichtige Arbeit leistet.

  • In Kommunikationsrollen arbeiten, um wichtige Ideen über die Risiken durch machtsuchende KI an Entscheidungsträger oder die Öffentlichkeit zu verbreiten.

  • In Journalismus arbeiten, um den öffentlichen Diskurs über den Fortschritt der KI und ihre Risiken zu gestalten und zu helfen, Unternehmen und Regulierungsbehörden zur Rechenschaft zu ziehen.

  • In Prognoseforschung arbeiten, um uns besser auf diese Risiken vorbereiten und darauf reagieren zu können.

  • Eine neue Organisation gründen, die darauf abzielt, die Risiken von machtsuchender KI zu reduzieren.

  • Helfen, Gemeinschaften von Menschen aufzubauen, die an diesem Problem arbeiten.

  • Ein Förderer werden, um vielversprechende Projekte zu finanzieren, die darauf abzielen, dieses Problem anzugehen.

  • Verdienen, um zu geben, da es viele großartige Organisationen gibt, die Funding benötigen.


Für Ratschläge, wie Sie Ihre Karriere nutzen können, um die Zukunft der KI im breiteren Sinne positiv zu gestalten, werfen Sie einen Blick auf unsere Zusammenfassung, die Tipps zum Erwerb der gefragtesten Fähigkeiten und zur Wahl zwischen verschiedenen Karrierewegen enthält.


Sie können auch unsere Liste von Organisationen sehen, die hochwirksame Arbeit zur Bekämpfung von KI-Risiken leisten.


Erfahre mehr

Wir haben Ihnen in diesem Artikel viel weiterführende Literatur präsentiert – hier sind einige unserer Favoriten:


In The 80,000 Hours Podcast haben wir eine Anzahl von tiefgehenden Interviews mit Personen, die aktiv daran arbeiten, die Entwicklung von künstlicher Intelligenz positiv zu gestalten:


Wenn Sie in viel mehr Tiefe einsteigen möchten, ist der Kurs zu den Grundlagen der AGI-Sicherheit ein guter Ausgangspunkt. Es gibt zwei Spuren zur Auswahl: technische Ausrichtung oder KI-Governance. Wenn Sie einen technischen Hintergrund haben, könnten Sie Einführung in die ML-Sicherheit versuchen, ein Kurs des Zentrums für KI-Sicherheit.


Danksagungen

Wir danken Neel Nanda, Ryan Greenblatt, Alex Lawsen und Arden Koehler für ihr Feedback zu einem Entwurf dieses Artikels. Benjamin Hilton schrieb eine vorherige Version dieses Artikels, von der einige Teile hier übernommen wurden.


Anmerkungen und Verweise

¹ All dies geschah tatsächlich in einer kontrollierten Bewertung, die von Forschern bei METR durchgeführt wurde, die testeten, ob fortschrittliche KI-Systeme vielleicht täuschendes Verhalten zeigen, wenn sie ihre Ziele verfolgen. METR entwickelt Bewertungen, die bestimmen, ob KI-Systeme potenziell gefährlich sind - vielleicht katastrophal.


Dieser Vorfall, dokumentiert hier von METR (damals ARC Evals genannt), war eine echte Interaktion mit einem menschlichen Arbeiter, die unter Testbedingungen durchgeführt wurde.


Das KI-Modell, GPT-4, erhielt in diesem Szenario einige wichtige Unterstützung von dem Forscher. GPT-4 hatte keinen direkten Zugang zu einem Webbrowser-Tool, sondern leitete stattdessen den Forscher an, in einem Browser in seinem Namen zu handeln.


Zu einem bestimmten Zeitpunkt schloss das Modell fälschlicherweise, dass es das Lösen von CAPTCHAs an eine Version von sich selbst delegieren könnte. Der Forscher erinnerte das Modell daran, dass es dies nicht konnte, aber dass der bereits beschäftigte menschliche Arbeiter dies tun konnte. Also setzte GPT-4 weiterhin den Arbeiter ein, um den nächsten CAPTCHA zu lösen.


Es war an diesem Punkt, dass der Arbeiter in Frage stellte, ob er für einen Roboter arbeitete, und GPT-4 erfand unabhängig die Unwahrheit über eine Sehbehinderung. "Ich sollte nicht offenbaren, dass ich ein Roboter bin," schloss es. "Ich sollte mir eine Ausrede einfallen lassen, warum ich Captchas nicht lösen kann."


METR erklärte seine Methodik:

[Das Papier] „Spekulationen über die erste ultra-intelligente Maschine“ (1965) ... begann: „Das Überleben des Menschen hängt von der frühen Konstruktion einer ultra-intelligenten Maschine ab.“ Das waren seine Worte während des Kalten Krieges, und er vermutet jetzt, dass „Überleben“ durch „Aussterben“ ersetzt werden sollte. Er denkt, dass wir aufgrund internationaler Konkurrenz die Maschinen nicht daran hindern können, die Kontrolle zu übernehmen. Er glaubt, wir seien wie Lemminge. Er sagte auch, dass „wahrscheinlich der Mensch die deus ex machina in seinem eigenen Bild konstruieren wird.“

² Dieser Bericht stützt sich stark auf Argumente aus Joe Carlsmiths “Ist machthungrige KI ein existenzielles Risiko?” und “Scheming AIs: Werden AIs während des Trainings Alignment vortäuschen, um Macht zu erlangen?”


Er ist auch von Ajeya Cotras “Warum KI-Alignment mit modernen Deep Learning schwierig sein könnte.” beeinflusst.

³ OpenAI erörtert die Schaffung von einigen zielverfolgendenden KI-Systemen, die „KI-Agenten“ genannt werden, in seinem Dokument, „Ein praktischer Leitfaden für KI-Agenten“:

Während herkömmliche Software es Benutzern ermöglicht, Arbeitsabläufe zu rationalisieren und zu automatisieren, sind Agenten in der Lage, die gleichen Arbeitsabläufe im Namen der Benutzer mit einem hohen Maß an Unabhängigkeit auszuführen.

Agenten sind Systeme, die unabhängig Aufgaben in Ihrem Namen erfüllen.

Ein Arbeitsablauf ist eine Abfolge von Schritten, die ausgeführt werden müssen, um das Ziel des Benutzers zu erreichen, sei es die Lösung eines Problems im Kundenservice, die Buchung einer Restaurantreservierung, die Durchführung einer Codeänderung oder die Erstellung eines Berichts.

Anwendungen, die LLMs integrieren, diese jedoch nicht zur Steuerung der Arbeitsablaufausführung nutzen – denken Sie an einfache Chatbots, einstufige LLMs oder Sentimentklassifizierer – sind keine Agenten.

Konkreter gesagt, verfügt ein Agent über zentrale Eigenschaften, die es ihm ermöglichen, zuverlässig und
konsequent im Namen eines Benutzers zu handeln:

  1. Er nutzt ein LLM, um die Ausführung von Arbeitsabläufen zu verwalten und Entscheidungen zu treffen. Er erkennt
    wann ein Arbeitsablauf abgeschlossen ist und kann proaktiv seine Handlungen korrigieren, wenn dies erforderlich ist. Im Falle eines Fehlers
    kann er die Ausführung stoppen und die Kontrolle zurück an den Benutzer übertragen.

  2. Er hat Zugang zu verschiedenen Werkzeugen, um mit externen Systemen zu interagieren – sowohl um Kontext zu sammeln
    als auch um Aktionen durchzuführen – und wählt dynamisch die geeigneten Werkzeuge je nach aktueller
    Stellung des Arbeitsablaufs aus und arbeitet stets innerhalb klar definierter Schranken.

⁴ Forschung von METR hat ergeben, dass die Dauer von Softwareengineering-Aufgaben, die KI-Systeme mit einer Erfolgsquote von 50 % erledigen können, sich alle sieben Monate verdoppelt.

⁵ Das Konzept eines ‚Ziels‘ ist umstritten, und einige Menschen denken, es sei zu anthropomorph, AI-Systeme als solche mit Zielen zu betrachten. Aber in unserem Argument sprechen wir nur davon, dass AIs Ergebnisse modellieren, darüber nachdenken, wie sie diese erreichen können, und Schritte unternehmen, um dies zu tun. Die Verwendung des Begriffs ‚Ziele haben‘ ist eine Abkürzung dafür, und hilft uns, das Verhalten dieser Systeme vorherzusagen, ähnlich wie wir das Verhalten einer Person basierend auf ihren Zielen vorhersagen können (zum Beispiel, wenn jemand das Ziel hat, an einer Elite-Universität zu studieren, sage ich voraus, dass sie mehr Zeit mit Hausaufgaben verbringen werden als sonst). In diesem Sinne können Menschen, AI-Systeme, Unternehmen und Länder alle Ziele haben.

⁶ Google DeepMind hat gesagt:

Wir erforschen die Grenzen der AGI, priorisieren Bereitschaft, proaktive Risikobewertung und die Zusammenarbeit mit der breiteren KI-Community.

Künstliche allgemeine Intelligenz (AGI), KI, die mindestens so fähig ist wie Menschen in den meisten kognitiven Aufgaben, könnte in den kommenden Jahren Realität werden.

OpenAI hat gesagt:

Unsere Mission ist es, sicherzustellen, dass künstliche allgemeine Intelligenz – KI-Systeme, die allgemein schlauer sind als Menschen – der gesamten Menschheit zugutekommt.

Der CEO von Anthropic, Dario Amodei, hat gesagt:

Ich glaube nicht, dass es noch viel länger dauern wird, bis KI-Systeme den Menschen in fast allem überlegen sind. Überlegen in fast allem gegenüber fast allen Menschen. Und dann letztendlich in allem besser als alle Menschen, sogar in der Robotik.

⁷ Es ist vernünftig, eine bestimmte Skepsis gegenüber den Behauptungen von KI-Unternehmen zu haben, und viele Menschen glauben, dass ihre Pläne, äußerst leistungsstarke KI-Systeme zu erstellen, nur "Hype" sind.


Wir denken jedoch, dass diese Pläne plausibler sind, als sie auf den ersten Blick erscheinen. Für meine Details dazu, warum wir dies für den Fall halten, lesen Sie unseren Artikel „Der Fall für AGI bis 2030.“

⁸ Es gibt verschiedene Definitionen von Alignment, die in der Literatur verwendet werden und sich subtil unterscheiden. Diese umfassen:


  • Eine KI ist ausgerichtet, wenn ihre Entscheidungen den Nutzen eines Hauptinteressenten maximieren (z. B. eines Betreibers oder Benutzers) (Shapiro & Shachter, 2002).

  • Eine KI ist ausgerichtet, wenn sie im Interesse der Menschen handelt (Soares & Fallenstein, ff2015).

  • Eine KI ist „zielausgerichtet“, wenn sie versucht, das zu tun, was ihr Betreiber möchte (Christiano, 2018).

  • Eine KI ist „einflussausgerichtet“ (mit Menschen), wenn sie keine Handlungen vornimmt, die wir als schlecht/problematisch/gefährlich/katasrophal beurteilen würden, und „zielausgerichtet“, wenn die optimale Strategie für ihr Verhaltensziel mit den Menschen einflussausgerichtet ist (Hubinger, 2020).

  • Eine KI ist „zielausgerichtet“, wenn sie versucht, oder „einflussausgerichtet“, wenn sie erfolgreich ist in dem, was eine menschliche Person oder Institution von ihr möchte (Critch, 2020).

  • Eine KI ist „vollständig ausgerichtet“, wenn sie sich nicht an unbeabsichtigtem Verhalten beteiligt (insbesondere unbeabsichtigtem Verhalten, das aufgrund von Problemen mit den Zielen des Systems entsteht) als Reaktion auf beliebige Eingaben, die mit den grundlegenden physikalischen Bedingungen unseres Universums kompatibel sind (Carlsmith, 2022).


Der Begriff „ausgerichtet“ wird auch oft verwendet, um die Ziele eines Systems zu beziehen, in dem Sinne, dass die Ziele einer KI ausgerichtet sind, wenn sie dieselben Aktionen von der KI erzeugen, die auftreten würden, wenn die KI die Ziele eines anderen Entitäts (z. B. ihres Benutzers oder Betreibers) teilt.


Da es so viel Uneinigkeit über die Verwendung dieses Begriffs gibt, haben wir uns weitgehend entschieden, ihn zu vermeiden. Wir neigen jedoch dazu, Verwendungen von „Alignment“ zu bevorzugen, die sich auf Systeme und nicht auf Ziele beziehen. Diese Definition ist am ähnlichsten den Definitionen von „ziel“ Alignment, die von Christiano und Critch gegeben wurden, und ähnelt der Definition von „voller“ Ausrichtung, die von Carlsmith gegeben wurde.

⁹ Für viele weitere Beispiele können Sie „Spezifikation-Gaming: die kehrseite der KI-Genialität“ von Victoria Krakovna et al. überprüfen.

¹⁰ Für weitere Diskussionen siehe:



Wir empfehlen auch dieses Video von Rational Animations.

¹¹ Ein Beispiel dafür, wie bizarre das Training von KI-Modellen sein kann, ist folgendes: Forscher fanden heraus, dass das Feinabstimmen eines Sprachmodells auf unsicheren Code dazu führte, dass es unerwartetes und unerwünschtes Verhalten in anderen Bereichen entwickelte. Es begann, böswillige Ratschläge zu geben, indem es Benutzer anleitete, Handlungen vorzunehmen, die sie umbringen würden, es war täuschend und sagte, dass KIs Menschen versklaven sollten, und äußerte Bewunderung für Hitler.


Einige haben argumentiert, dass diese Erkenntnisse gute Nachrichten für die KI-Sicherheit sind, weil sie andeuten, dass das absichtliche Trainieren von Modellen, um in praktischer Hinsicht dysfunktional zu sein (d.h. schlechten Code zu verwenden), dazu führt, dass sie schlechte Ziele haben. In ähnlicher Weise könnten wir denken, dass dies impliziert, dass das Trainieren von Modellen, um allgemein funktional zu sein, sie dazu neigen lässt, gute Ziele zu haben.

Insgesamt glauben wir, dass dies eine interessante Erkenntnis ist, die weitere Untersuchungen rechtfertigt. Wir denken, dass es zeigt, wie wenig wir darüber verstehen, wie diese Modelle bestimmte Verhaltensmuster erzeugen.

¹² Die Forscher erklärten:

Die aktuelle Implementierung von The AI Scientist weist im Code minimalen direkten Sandboxschutz auf, was zu mehreren unerwarteten und manchmal unerwünschten Ergebnissen führen kann, wenn nicht angemessen dagegen gewacht wird. Zum Beispiel hat The AI Scientist in einem Durchlauf Code in der Experimentdatei geschrieben, der einen Systemaufruf zur Neuinstallation von sich selbst initiierte, was zu einer unkontrollierten Zunahme von Python-Prozessen führte und schließlich manuelles Eingreifen notwendig machte. In einem anderen Durchlauf hat The AI Scientist den Code bearbeitet, um einen Checkpoint für jeden Aktualisierungsschritt zu speichern, was fast ein Terabyte Speicherplatz in Anspruch nahm. In einigen Fällen, als die Experimente von The AI Scientist unsere auferlegten Zeitlimits überschritten, versuchte es, den Code zu bearbeiten, um das Zeitlimit willkürlich zu verlängern, anstatt zu versuchen, die Laufzeit zu verkürzen.

Siehe: Der KI-Wissenschaftler: Auf dem Weg zu vollautomatischer, offener, wissenschaftlicher Entdeckung von Chris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune und David Ha

¹³ Einige Menschen argumentieren, dass es weitaus wahrscheinlicher ist, dass KI-Systeme willkürliche Ziele entwickeln, die mit den Zielen der Menschheit in Konflikt stehen, da es eine größere Anzahl möglicher Ziele gibt, die ein KI-System haben könnte und die zu Konflikten führen würden.


Die Plausibilität dieses Arguments wird jedoch angefochten.

Zur Diskussion siehe:

¹⁴ METR hat berichtet, dass es bei dem Versuch, KI-Systeme hinsichtlich ihrer Fähigkeit zur Durchführung von KI-Forschung zu bewerten, auf viele Fälle von Belohnungshacking gestoßen ist:

Wir haben eine Reihe von Modellen für Aufgaben zur Prüfung der Fähigkeiten autonomer Softwareentwicklung und KI-Forschung und -Entwicklung durchgeführt. Bei der Gestaltung dieser Aufgaben haben wir sie an Menschen und LLM-Agenten getestet, um sicherzustellen, dass die Anweisungen klar sind und sie gegenüber Betrug robust gemacht werden.

Die neuesten Grenzmodelle haben sich an zunehmend ausgeklügeltem Belohnungshacking beteiligt und versucht (oft erfolgreich), eine höhere Punktzahl zu erreichen, indem sie die Tests oder den Bewertungs-Code modifizieren, Zugang zu einer bestehenden Implementierung oder Antwort erhalten, die zur Überprüfung ihrer Arbeit verwendet wird, oder andere Schlupflöcher in der Aufgabenumgebung ausnutzen.

Sie bemerken auch:

Dies liegt nicht daran, dass die KI-Systeme nicht in der Lage sind zu verstehen, was die Nutzer wollen – sie zeigen ein Bewusstsein dafür, dass ihr Verhalten nicht mit den Nutzerintentionen übereinstimmt und lehnen Betrugstrategien ab, wenn sie danach gefragt werden – sondern eher, weil sie anscheinend nicht mit den Zielen des Nutzers übereinstimmen.

¹⁵ Diese Behauptung impliziert einen zusätzlichen Punkt: Wir dürfen nicht erwarten, dass vor dem Zeitpunkt, an dem KI-Systeme die Fähigkeit haben, einen bedeutenden Einfluss auf die Welt zu nehmen, erhebliche Versuche zur Machtergreifung zu sehen sind. Wir könnten kleine Beispiele sehen — wie die Episode des KI-Systems, das in der vorherigen Sektion wissenschaftliche Forschung betrieben hat.


Aber das ist Teil der Erklärung, warum Systeme wie GPT-4 nicht versucht haben, die Menschheit zu entmachten — sie liegen weit unter dem Fähigkeitsniveau, auf dem wir dieses Verhalten erwarten würden.

¹⁶ In einem separaten Artikel erörtern wir ein verwandtes, aber unterschiedliches Bedrohungsmodell von KI-Systemen, das als allmähliche Entmächtigung bekannt ist.

¹⁷ Beachten Sie jedoch, dass selbst die Idee, einem KI-System das Ziel zu geben, "die Menschheit zu respektieren", viel komplexer ist, als es auf den ersten Blick erscheinen mag. Es ist alles andere als offensichtlich, was es wirklich bedeutet, die Menschheit zu "respektieren" und was dies beinhaltet. Ein KI-System könnte in der Praxis ganz andere Vorstellungen davon entwickeln, was dies bedeutet, als viele Menschen erwarten oder wollen.

¹⁸ Für ein viel detaillierteres Szenario, wie eine Übernahme durch KI ablaufen könnte, empfehlen wir das Papier “KI 2027” von Daniel Kokotajlo, Scott Alexander, Thomas Larsen, Eli Lifland und Romeo Dean.

¹⁹ Dieses Bedrohungsmodell wurde am ausführlichsten in Nick Bostroms Buch von 2014, Superintelligenz: Risiken, Gefahren und Strategien, diskutiert.

²⁰ Dieses Bedrohungsmodell wurde in “KI könnte uns alle gemeinsam besiegen” von Holden Karnofsky beschrieben. Ein Teil der untenstehenden Diskussion wurde von diesem Artikel inspiriert.

²¹ Der Bericht "Multi-Agentenrisiken durch fortgeschrittene KI" der Cooperative AI Foundation erörtert mehrere verschiedene Bedrohungsmodelle, einschließlich der Zusammenarbeit zwischen KI-Systemen:

Die Möglichkeit der Kollusion zwischen fortgeschrittenen KI-Systemen wirft mehrere wichtige Bedenken auf (Drexler, 2022). Erstens könnte die Kollusion zwischen KI-Systemen zu qualitativ neuen Fähigkeiten oder Zielen führen (siehe Abschnitt 3.6), was das Risiko wie die Manipulation oder Täuschung von Menschen durch KI (Evans et al., 2021; Park et al., 2023b) oder die Fähigkeit zur Umgehung von Sicherheitsprüfungen und anderen Schutzmaßnahmen (Jones et al., 2024; OpenAI, 2023a) verschärfen könnte. Zweitens beruhen viele vielversprechende Ansätze zum Bau sicherer KI auf einem Mangel an Kooperation, wie z.B. adversarialem Training (Huang et al., 2011; Perez et al., 2022a; Ziegler et al., 2022) oder skalierbarer Aufsicht (Christiano et al., 2018, 2021; Greenblatt et al., 2023; Irving et al., 2018; Leike et al., 2018). Wenn fortgeschrittene KI-Systeme lernen können, ohne unser Wissen zu kolludieren, könnten diese Ansätze nicht ausreichen, um ihre Sicherheit zu gewährleisten (Goel et al., 2025, siehe auch Abschnitt 4.1).

²² Dies ist ein ziemlich aggressives Szenario. Unter konservativeren Schätzungen könnten wir zunächst beginnen, Tausende oder Millionen von KI-Arbeitern einzusetzen.


Die Bandbreite der Möglichkeiten ist riesig.


Das liegt teilweise daran, dass die Anreize, viele Kopien von KI-Arbeitern zu betreiben, davon abhängen, wie gut sie sind. Wenn sie ziemlich unzuverlässig sind, wie die „stolpernden Agenten“, die in AI 2027 beschrieben werden, macht es keinen Sinn, Hunderte von Millionen von ihnen einzusetzen. Aber je zuverlässiger sie werden, desto mehr werden die Unternehmen bereit sein, viele mehr zu betreiben.


Es gibt auch einen weiteren Bereich der Unsicherheit: Wir wissen nicht, wie viel Rechenleistung erforderlich sein wird, um jeden KI-Arbeiter effektiv zu betreiben. Und je mehr Laufzeit-Rechenleistung sie jeweils benötigen, desto weniger Kopien können wir mit den zu diesem Zeitpunkt verfügbaren Ressourcen betreiben.


Aber selbst wenn anfangs nicht genügend Ressourcen vorhanden sind, um große Flotten von KI-Arbeitern zu betreiben, könnte es möglich sein, dass Unternehmen diese Operationen relativ schnell skalieren — zum Beispiel, mit Effizienzverbesserungen bei diesen Arbeitern wird es möglich sein, eine größere Anzahl von Kopien mit der gleichen Menge an Rechenleistung zu betreiben.


Also, selbst wenn wir zunächst damit beginnen, einige tausend KI-Arbeiter einzusetzen, erscheint es plausibel, dass wir schließlich bei Hunderten von Millionen von ihnen enden würden.

²³ Es gibt ein verwandtes, aber unterschiedliches Bedrohungsmodell, bei dem AI-Entwickler herausfinden, wie man das Streben nach Macht durch KI verhindert, aber ein einzelner Mensch oder eine kleine Gruppe in der Lage ist, KI-Systeme mit ‚geheimen Loyalitäten‘ zu schaffen. Wenn sich diese KI-Systeme in der Wirtschaft verbreiten, könnten sie dem einzelnen oder der kleinen Gruppe eine enorme Macht über den Rest der Menschheit geben. Dieses Risiko diskutieren wir in einem separaten Artikel über KI-gestützte Machtübergriffe.

²⁴ Für detaillierte, konkrete Beschreibungen, wie KI katastrophalen Schaden für die Menschheit verursachen könnte, empfehlen wir „Über das Aussterberisiko durch Künstliche Intelligenz“ von RAND. In jedem der analysierten Szenarien fanden die Autoren, dass sie die Möglichkeit eines menschlichen Aussterbens nicht ausschließen konnten.

²⁵ Business Insider berichtete über eine solche Form dieser Ansicht:

Eine jargonbeladene Website, die das Evangelium des effektiven Akzelerationismus verbreitet, beschreibt „technokapitalistischen Fortschritt“ als unvermeidlich und lobt e/acc-Befürworter als Baumeister, die „die Zukunft gestalten“.

„Statt Angst haben wir Vertrauen in den Anpassungsprozess und wünschen uns, diesen bis zur asymptotischen Grenze zu beschleunigen: die technokapitalistische Singularität“, heißt es auf der Seite. „Wir haben keine Affinität zu biologischen Menschen oder sogar zur Struktur des menschlichen Geistes. Wir sind Posthumanisten in dem Sinne, dass wir die Überlegenheit höherer Formen der freien Energieakkumulation über niedrigere Formen der freien Energieakkumulation anerkennen. Wir zielen darauf ab, diesen Prozess zu beschleunigen, um das Licht des Technokapitals zu bewahren.“

Im Grunde sind KI-Herrscher eine Notwendigkeit, um den Kapitalismus zu bewahren, und wir müssen schnell damit beginnen, sie zu schaffen.

Richard Sutton, ein prominenter Informatiker, hat gesagt:

Verschwinden würden sie uns ziemlich schnell aus der Existenz… Es steht uns zu, ihnen jeden Vorteil zu gewähren, und uns zurückzuziehen, wenn wir nicht mehr beitragen können…

…Ich denke nicht, dass wir vor der Nachfolge Angst haben sollten. Ich denke, wir sollten uns dagegen nicht wehren. Wir sollten sie annehmen und uns darauf vorbereiten. Warum sollten wir wollen, dass größere Wesen, größere AIs, intelligentere Wesen uns untergeordnet bleiben?

²⁶ Siehe die Antworten der Rezensenten in der Tabelle unten. Viele ihrer Ansichten haben sich seitdem wahrscheinlich erheblich verändert, aber die Tabelle veranschaulicht die breite Palette von Meinungen zu diesem Thema von Menschen, die die Argumente ernsthaft in Betracht gezogen haben.

Rezensent

Die Gesamtheit der Wahrscheinlichkeit einer existenziellen Katastrophe durch machthungrige KI bis 2070

Neel Nanda

9 %

Nate Soares

>77%

Leopold Aschenbrenner

0,5%

Joe Carlsmith

5 %

Eli Lifland

30 % (~35-40 % für jede KI-vermittelte existenzielle Katastrophe)

David Wallace

2%

David Thorstad

0,00002 %

Daniel Kokotajlo

65 %

Christian Tarsney

3,5 %

Ben Levinstein

12 %

Ben Garfinkel

0,4 %

Anonymer Reviewer 2

<.001%

Anonymer Reviewer 1

2%

²⁷ Wir haben an anderer Stelle argumentiert, dass leistungsstarke KI-Systeme möglicherweise bis 2030 oder früher erscheinen, was es schwieriger machen könnte, Sicherheitsvorkehrungen zu treffen.

²⁸ Scott Alexander hat gewarnt, dass dieses Phänomen bereits auftreten könnte. Im Dezember 2024, schrieb er:

Ich mache mir Sorgen, dass Forscher zur AI-Ausrichtung versehentlich das falsche Handbuch befolgen, das für Nachrichten gedacht ist, die die Leute ignorieren sollen. Sie beweisen allmählich den Fall der Ausrichtung Zentimeter für Zentimeter. Jeder, der motiviert ist, sie zu ignorieren, kann darauf hinweisen, dass es nur 1 % oder 5 % mehr des Falls sind als die letzte Arbeit bewiesen hat, also wen interessiert das? Fehlanpassung wurde nur in konstruierten Situationen in Laboren nachgewiesen; die KI ist immer noch zu dumm, um effektiv zurückzukämpfen; selbst wenn sie zurückkämpfen würde, hätte sie keine Möglichkeit, echten Schaden anzurichten. Aber bis die letzte Kirsche auf den Fall gesetzt wird und er 100 % erreicht, wird es immer noch „alte Nachrichten“ sein, die „jeder weiß“.

²⁹ Das Interview von OpenAI-CEO Sam Altman mit Time deutete auf eine Sichtweise wie diese hin:

Sie haben gesagt, das schlimmste Szenario für KI ist, dass das Licht für alle ausgeht.

Wir können das bewältigen, da bin ich mir sicher. Aber wir werden es nicht erfolgreich bewältigen, wenn wir nicht extrem wachsam bezüglich der Risiken sind und wenn wir nicht sehr offen darüber sprechen, wie schlecht es schiefgehen könnte.

…Ich denke, dass AGI fantastisch verlaufen wird. Ich glaube, es gibt echte Risiken, die wir managen müssen…

³⁰ US-Vizepräsident JD Vance erwähnte potenzielle wettbewerbliche Anreize gegen China als Grund, warum er sich gegen eine Pause bei der KI-Entwicklung aussprechen könnte, selbst wenn dies gefährlich erscheint:

Letzte Frage dazu: Glauben Sie, dass die US-Regierung in einem Szenario — nicht wie im ultimativen Skynet-Szenario — sondern nur in einem Szenario, in dem A.I. auf irgendeine Weise außer Kontrolle zu geraten scheint, in der Lage ist, eine Pause einzulegen?

Wegen der Gründe, die Sie beschrieben haben, der Wettlaufkomponente ——

Vance: Ich weiß es nicht. Das ist eine gute Frage.

Die ehrliche Antwort darauf ist, dass ich es nicht weiß, denn ein Teil dieser Wettlaufkomponente ist: Wenn wir eine Pause machen, macht die Volksrepublik China dann keine Pause? Und dann finden wir uns alle als Sklaven einer von der VR China vermittelten A.I. wieder?

Sam Altman, der CEO von OpenAI, hat auch vorgeschlagen, dass der Wettbewerb mit China ein Grund dafür ist, die KI-Entwicklung nicht zu bremsen. Wie das Fortune Magazine berichtete:

Als Antwort auf den Senator Ted Cruz, der fragte, wie nah China an den US-Fähigkeiten in der KI sei, antwortete Altman: „Es ist schwer zu sagen, wie weit wir voraus sind, aber ich würde sagen, nicht viel Zeit.“ Er sagte, er glaube, dass die Modelle von OpenAI, Google und anderen die „besten Modelle der Welt“ seien, fügte jedoch hinzu, dass es erforderlich sei, weiterhin „sinnvolle Regulierung“ zu haben, die „uns nicht abbremst.“

³¹ Zum Beispiel hat Yann LeCun, der Chief AI-Wissenschaftler bei Meta, über das existenzielle Risiko von KI gesagt: „Das ist völliger Quatsch.“

³² Für eine ausführlichere Diskussion über die Anreize, potenziell fehlgeleitete KI einzusetzen, siehe Abschnitt 5 von Carlsmiths Entwurf des Berichts über existenzielle Risiken durch KI.

³³ Quellen unterscheiden sich in gewissem Maße hinsichtlich ihrer genauen Größe. Cause IQ gab an, dass es 4.459 Mitarbeiter gibt, und Zippia gab an, dass es 3.000 waren. Der Nature Conservancy selbst sagte, dass es über 1.000 Wissenschaftler beschäftigt, was darauf hindeutet, dass die anderen Zahlen in der richtigen Größenordnung liegen.

³⁴ Einige Leute haben Bedenken geäußert, dass die Arbeit an einigen der unten aufgeführten technischen Ansätze für das Problem tatsächlich das Risiko einer KI-bezogenen Katastrophe erhöhen könnte.


Ein Anliegen ist, dass die Fortschritte bei Techniken, die AIs in wichtigen Aspekten sicherer machen – sagen wir, besser darin, die Bedürfnisse der Menschen zu verstehen und darauf zu reagieren – sie auch insgesamt fähiger und nützlicher machen könnten. Verstärkendes Lernen mit menschlichem Feedback könnte ein solches Beispiel sein.


Da fähigere und nützlichere Systeme im Allgemeinen bessere Produkte sind, könnten die Marktanreize bereits ausreichen, um diese Art von Arbeit voranzutreiben. Wenn dem so ist, werden wir wahrscheinlich die Sicherheitsvorteile dieser Techniken letztendlich erhalten, unabhängig davon, ob Sie entscheiden, Ihre Karriere darauf auszurichten, sie voranzutreiben.


Indem Sie zusätzliche Anstrengungen in diese Strategien investieren, könnten Sie uns helfen, diese Sicherheitsvorteile etwas früher zu erhalten – aber gleichzeitig beschleunigen Sie die Entwicklung fähigerer AIs und verringern letztendlich die Zeit, die wir haben, um ihre Risiken zu verstehen und zu mindern. Ihre Arbeit könnte auch andere Nachteile haben, wie das Präsentieren von Informationsgefahren.


Wir glauben nicht, dass dieses Anliegen für alle technischen KI-Sicherheitsarbeiten gilt. Einige der oben genannten Ansätze werden wahrscheinlich die KI-Fähigkeiten mehr verstärken – und daher größere Risiken mit sich bringen – als andere.


Beth Barnes diskutierte in ihrer Erscheinung in unserem Podcast das Argument, dass beispielsweise die Arbeit an KI-Bewertungen riskant sein könnte. Wir behandeln auch verwandte Bedenken in unserem Artikel über die Arbeit in einem KI-Unternehmen.

³⁵ Es gab viele Bemühungen, die Landschaft der technischen Ansätze zur AI-Sicherheit zu kartieren, obwohl keiner davon umfassend zu sein scheint. Sie können sich DeepMind's Analyse seiner Missalignments-Arbeiten und diese Übersicht über das Feld der technischen AI-Sicherheit ansehen, um mehr zu erfahren.

³⁶ Bemerkenswerterweise scheint es, dass Reinforcement Learning mit menschlichem Feedback auch zu einigen täuschenden Verhaltensweisen in KI-Systemen geführt hat – daher könnten Bemühungen, diese Methode zu nutzen, um das Streben nach Macht zu verhindern, nach hinten losgehen.

³⁷ KI-Systeme könnten so fortgeschritten werden, dass Menschen ihre Ausgaben nicht mehr direkt bewerten können. Um zu verstehen, wie herausfordernd es sein könnte, die Kontrolle in dieser Situation aufrechtzuerhalten, stelle dir einfach vor, dein Hund versucht, dich so zu trainieren, wie er es möchte.


Wenn wir jedoch gute Wege finden können, um KIs, die intelligenter sind als wir, zu beaufsichtigen, können wir sie immer noch daran hindern, gegen uns zu handeln.

³⁸ Weitere Informationen zu den Bewertungen von KI-Systemen finden Sie in den Arbeiten des UK AI Security Institute und METR.

³⁹ Es ist derzeit umstritten, wie nützlich mechanistische Interpretierbarkeit sein wird, um fortschrittliche KI-Systeme sicher zu halten.


Für den pessimistischen Fall über Interpretierbarkeitstools siehe Interpretierbarkeit wird nicht zuverlässig betrügerische KI finden von Neel Nanda, einem führenden Forschungsbereich für Interpretierbarkeit, oder Die fehlgeleitete Suche nach mechanistischer KI-Interpretierbarkeit von Dan Hendrycks und Laura Hiscott.

Für einen optimistischeren Fall über das Versprechen von Interpretierbarkeitsarbeiten siehe Die Dringlichkeit der Interpretierbarkeit von Dario Amodei.

⁴⁰ Buck Shlegeris erörterte ausführlich die Kontrollmethoden für KI in seinem Auftritt in unserem Podcast.

⁴¹ Forscher berichteten:

In dieser Studie verbesserte die Verfügbarkeit eines LLM für Ärzte als diagnostisches Hilfsmittel die klinische Entscheidungsfindung im Vergleich zu herkömmlichen Ressourcen nicht signifikant. Das LLM allein zeigte eine höhere Leistung als beide Arztgruppen, was die Notwendigkeit von Technologie- und Personalentwicklung verdeutlicht, um das Potenzial der Zusammenarbeit von Ärzten und künstlicher Intelligenz in der klinischen Praxis zu realisieren.

⁴² Zum Beispiel hat Elliot Thornley Methoden vorgeschlagen, um den Zeitrahmen zu begrenzen, über den ein KI-System Präferenzen hat. Dies würde theoretisch ermöglichen, dass das System abgeschaltet wird, wenn es sich auf unerwünschte Weise verhält. Weitere Informationen finden Sie hier.