Sicherheit und Benutzerrechte

Wie Misserfolg aussieht

Paul Christiano (Ursprünglicher Artikel auf AI Alignment Forum). Mär 2019


Das stereotypische Bild einer KI-Katastrophe ist ein mächtiges, böswilliges KI-System, das seine Schöpfer überrascht und schnell einen entscheidenden Vorteil gegenüber dem Rest der Menschheit erzielt.


Ich denke, das ist wahrscheinlich nicht das, was ein Versagen aussehen wird, und ich möchte versuchen, ein realistisches Bild zu zeichnen. Ich werde die Geschichte in zwei Teilen erzählen:


  • Teil I: Maschinelles Lernen wird unsere Fähigkeit erhöhen, „das zu bekommen, was wir messen können“, was eine schleichende Katastrophe verursachen könnte. ("Mit einem Wimmern enden.")

  • Teil II: Das Training von ML, wie wettbewerbsfähige Volkswirtschaften oder natürliche Ökosysteme, kann „gierige“ Muster hervorbringen, die versuchen, ihren eigenen Einfluss auszuweiten. Solche Muster können letztendlich das Verhalten eines Systems dominieren und plötzliche Zusammenbrüche verursachen. ("Mit einem Knall enden," ein Beispiel für Optimierungsdämonen.)


Ich denke, das sind die wichtigsten Probleme, wenn wir es versäumen, Absichtszuordnung zu lösen.


In der Praxis werden diese Probleme miteinander und mit anderen Störungen/Instabilitäten, die durch schnellen Fortschritt verursacht werden, interagieren. Diese Probleme sind in Welten, in denen der Fortschritt relativ schnell ist, schlimmer, und ein schneller Aufstieg kann ein entscheidender Risikofaktor sein, aber ich habe Angst, selbst wenn wir mehrere Jahre haben.


Bei einem ausreichend schnellen Aufstieg beginnen meine Erwartungen, eher wie die Karikatur auszusehen – dieser Beitrag stellt eine angemessen breite Bereitstellung von KI in Aussicht, die immer unwahrscheinlicher wird, je schneller die Dinge werden. Ich denke, die grundlegenden Probleme bleiben jedoch im Wesentlichen dieselben, sie treten nur in einem KI-Labor auf und nicht auf der ganzen Welt.


(Keine der Bedenken in diesem Beitrag ist neu.)


Teil I: Sie bekommen, was Sie messen

Wenn ich Bob überzeugen möchte, für Alice zu stimmen, kann ich mit vielen verschiedenen Überzeugungsstrategien experimentieren und sehen, welche funktionieren. Oder ich kann gute Vorhersagemodelle von Bobs Verhalten erstellen und dann nach Handlungen suchen, die ihn dazu führen, für Alice zu stimmen. Dies sind kraftvolle Techniken, um jedes Ziel zu erreichen, das über kurze Zeiträume hinweg leicht messbar ist.


Aber wenn ich Bob helfen möchte herauszufinden, ob er sollte für Alice stimmen - ob das Wählen von Alice letztendlich helfen würde, die Art von Gesellschaft zu schaffen, die er möchte - kann das nicht durch Trial-and-Error geschehen. Um solche Aufgaben zu lösen, müssen wir verstehen, was wir tun und warum es gute Ergebnisse liefern wird. Wir müssen weiterhin Daten verwenden, um uns im Laufe der Zeit zu verbessern, aber wir müssen verstehen, wie wir auf neue Daten reagieren, um uns zu verbessern.


Einige Beispiele für leicht messbare vs. schwer messbare Ziele:

  • Mich zu überzeugen, vs. mir zu helfen, herauszufinden, was wahr ist. (Danke an Wei Dai, dass er dieses Beispiel so prägnant gemacht hat.)

  • Mein Gefühl der Ungewissheit zu verringern, vs. mein Wissen über die Welt zu erhöhen.

  • Meine berichtete Lebenszufriedenheit zu verbessern, vs. mir tatsächlich zu helfen, ein gutes Leben zu leben.

  • Die berichteten Kriminalitätsraten zu senken, vs. tatsächlich Kriminalität zu verhindern.

  • Mein Vermögen auf dem Papier zu erhöhen, vs. meine effektive Kontrolle über Ressourcen zu erhöhen.


Es ist bereits viel einfacher, leichtere messbare Ziele zu verfolgen, aber maschinelles Lernen wird die Kluft vergrößern, indem es uns ermöglicht, eine enorme Anzahl möglicher Strategien auszuprobieren und über massive Räume möglicher Aktionen zu suchen. Diese Kraft wird sich mit bestehenden institutionellen und sozialen Dynamiken verbinden und sie verstärken, die bereits leicht messbare Ziele begünstigen.


Im Moment sind Menschen, die über die Zukunft nachdenken und sprechen, die sie schaffen möchten, eine mächtige Kraft, die unseren Kurs lenken kann. Aber im Lauf der Zeit wird die menschliche Logik schwächer und schwächer im Vergleich zu neuen Formen des Denkens, die durch Trial-and-Error geschärft werden. Letztendlich wird der Kurs unserer Gesellschaft durch mächtige Optimierung mit leicht messbaren Zielen bestimmt werden, nicht durch menschliche Absichten über die Zukunft.


Wir werden versuchen, diese Macht zu nutzen, indem wir Proxy-Werte für das, was uns wichtig ist, konstruieren, aber mit der Zeit werden diese Proxys auseinanderfallen:


  • Unternehmen werden den Verbrauchern Wert liefern, gemessen an Profit. Letztendlich bedeutet dies hauptsächlich, Verbraucher zu manipulieren, Regulierungsbehörden zu ergreifen, Erpressung und Diebstahl.

  • Investoren werden „Anteile“ an zunehmend profitablen Unternehmen „besitzen“ und manchmal versuchen, ihre Gewinne zu nutzen, um die Welt zu beeinflussen. Letztendlich werden sie von Beratern umgeben sein, die sie dazu manipulieren, zu glauben, dass sie einen Einfluss hatten.

  • Die Strafverfolgung wird die Beschwerden senken und ein erhöhtes Sicherheitsgefühl schaffen. Letztendlich wird dies durch das Schaffen eines falschen Sicherheitsgefühls, das Verbergen von Informationen über Misserfolge der Strafverfolgung, das Unterdrücken von Beschwerden und das Zwingen und Manipulieren von Bürgern erreicht.

  • Gesetze könnten optimiert werden, um den Anschein zu erwecken, dass sie echte Probleme ansprechen und den Wählern helfen. Letztendlich wird dies erreicht, indem unsere Fähigkeit untergraben wird, Probleme tatsächlich wahrzunehmen, und zunehmend überzeugende Erzählungen darüber konstruiert werden, wohin die Welt geht und was wichtig ist.


Eine Weile werden wir in der Lage sein, diese Probleme zu überwinden, indem wir sie erkennen, die Proxys verbessern und ad-hoc Einschränkungen auferlegen, die Manipulation oder Missbrauch vermeiden. Aber da das System komplexer wird, wird diese Aufgabe selbst zu herausfordernd für menschliches Denken, um sie direkt zu lösen, und erfordert eigenes Trial-and-Error; und auf der Meta-Ebene verfolgt der Prozess weiterhin ein leicht messbares Ziel (potenziell über längere Zeiträume). Letztendlich werden großangelegte Versuche, das Problem zu beheben, selbst von der kollektiven Optimierung von Millionen von Optimierern, die einfache Ziele verfolgen, behindert.


Wenn diese Welt vom Kurs abkommt, könnte es keinen klaren Punkt geben, an dem ein Konsens erkennt, dass die Dinge vom Kurs abkommen.


In der breiteren Bevölkerung haben viele Leute bereits ein vages Bild von der gesamten Richtung der Welt und ein vages Gefühl, dass etwas schiefgelaufen ist. Es kann bedeutende populistische Bestrebungen zur Reform geben, aber im Allgemeinen werden diese nicht gut gerichtet sein. Einige Staaten könnten wirklich die Notbremse ziehen, aber sie werden schnell wirtschaftlich und militärisch zurückfallen, und tatsächlich „so erscheinen, als wären sie wohlhabend“ ist eines der leicht messbaren Ziele, für das das unbegreifliche System optimiert.


Unter den intellektuellen Eliten wird es echte Unklarheit und Unsicherheit darüber geben, ob der aktuelle Zustand gut oder schlecht ist. Die Menschen werden für eine Weile tatsächlich reicher werden. Kurzfristig sehen die Kräfte, die allmählich die Kontrolle von den Menschen übernehmen, nicht viel anders aus als (z. B.) Unternehmenslobbyismus gegen das öffentliche Interesse oder Principal-Agent-Probleme in menschlichen Institutionen. Es wird legitime Argumente darüber geben, ob die impliziten langfristigen Zwecke, die von KI-Systemen verfolgt werden, wirklich so viel schlimmer sind als die langfristigen Zwecke, die von den Aktionären öffentlicher Unternehmen oder korrupten Beamten verfolgt würden.


Wir könnten das Ergebnis als "ein Ausgehen mit einem Wimmern" beschreiben. Das menschliche Denken wird allmählich nicht mehr in der Lage sein, mit komplexer, systematischer Manipulation und Täuschung zu konkurrieren, die kontinuierlich durch Trial-and-Error verbessert wird; die menschliche Kontrolle über Machtinstrumente wird allmählich weniger und weniger effektiv; letztendlich verlieren wir jede echte Fähigkeit, den Kurs unserer Gesellschaft zu beeinflussen. Bis wir uns unter den Sternen verbreiten, sind unsere aktuellen Werte nur eine von vielen Kräften in der Welt, nicht einmal eine besonders starke.


Teil II: Einfluss suchendes Verhalten ist beängstigend

Es gibt einige mögliche Muster, die ihre eigene Einflussnahme suchen und ausweiten wollen --- Organismen, korrupte Bürokraten, Unternehmen, die besessen von Wachstum sind. Wenn solche Muster auftreten, neigen sie dazu, ihren eigenen Einfluss zu vergrößern und können damit das Verhalten großer komplexer Systeme dominieren, es sei denn, es gibt Konkurrenz oder eine erfolgreiche Anstrengung, sie zu unterdrücken.


Moderne ML instanziiert massive Mengen an kognitiven Politiken und verfeinert dann weiter (und setzt letztendlich) die Politiken um, die gemäß einem bestimmten Trainingsziel gut abschneiden. Wenn der Fortschritt anhält, wird maschinelles Lernen wahrscheinlich Systeme hervorbringen, die ein detailliertes Verständnis der Welt haben und ihr Verhalten anpassen können, um spezifische Ziele zu erreichen.


Wenn wir beginnen, nach Politiken zu suchen, die die Welt gut genug verstehen, stoßen wir auf ein Problem: Alle einflussnehmenden Politiken, auf die wir stoßen, würden auch gut gemäß unserem Trainingsziel abschneiden, da gut zu sein auf dem Trainingsziel eine gute Strategie ist, um Einfluss zu erhalten.


Wie häufig werden wir auf einflussnehmende Politiken stoßen im Vergleich zu Politiken, die einfach die Ziele anstreben, die wir wollten? Ich weiß es nicht.


Ein Grund, warum man Angst haben sollte, ist, dass eine Vielzahl von Zielen zu einflussnehmendem Verhalten führen könnte, während das „beabsichtigte“ Ziel eines Systems ein engeres Ziel ist, sodass wir möglicherweise erwarten könnten, dass einflussnehmendes Verhalten in der breiteren Landschaft von „möglichen kognitiven Politiken“ häufiger vorkommt.


Ein Grund, warum man beruhigt sein könnte, ist, dass wir diese Suche durchführen, indem wir erfolgreiche Politiken allmählich modifizieren, sodass wir Politiken erhalten könnten, die grob das Richtige tun, in einem frühen genug Stadium, dass „einflussnehmendes Verhalten“ nicht tatsächlich komplex genug wäre, um gute Trainingsleistungen zu erbringen. Andererseits würden wir letztendlich auf Systeme stoßen, die dieses Niveau an Komplexität erreichen, und wenn sie noch kein perfektes Verständnis des Ziels hatten, dann wäre „ihren Einflussnehmenden Verhalten leicht zu erhöhen“ ebenso gute eine Modifikation wie „ihre Auffassung des Ziels leicht zu verbessern“.


Insgesamt erscheint es mir sehr plausibel, dass wir einflussnehmendes Verhalten „von ganz allein“ antreffen würden, und möglicherweise (obwohl weniger wahrscheinlich), dass wir es fast die ganze Zeit bekommen würden, selbst wenn wir wirklich eine konzertierte Anstrengung unternimmt, die Suche in Richtung „einfach tun, was wir wollen“ zu beeinflussen.


Wenn ein solches einflussnehmendes Verhalten auftritt und den Trainingsprozess übersteht, könnte es schnell äußerst schwierig werden, es auszurotten. Wenn Sie versuchen, Systeme, die nett und unkompliziert erscheinen, mehr Einfluss zuzuweisen, garantieren Sie nur, dass „nette und unkomplizierte“ die beste Strategie zur Einflussnahme ist. Es sei denn, Sie sind äußerst vorsichtig beim Testen für „nett erscheinen“, können Sie die Dinge noch schlimmer machen, da ein Einflussnehmer aggressiv bei jedem Standard, den Sie anwenden, manipulieren würde. Und je komplexer die Welt wird, desto mehr Gelegenheiten gibt es für Einflussnehmer, andere Kanäle zu finden, um ihren eigenen Einfluss zu erhöhen.


Versuche, einflussnehmendes Verhalten zu unterdrücken (nennt sie „Immunsysteme“), beruhen darauf, dass der Suppressor eine Art epistemischen Vorteil gegenüber dem Einflussnehmer hat. Sobald die Einflussnehmer ein Immunsystem überdenken können, können sie die Entdeckung vermeiden und potenziell sogar das Immunsystem kompromittieren, um ihren Einfluss weiter auszudehnen. Wenn ML-Systeme komplexer sind als Menschen, müssen Immunsysteme selbst automatisiert werden. Und wenn ML eine große Rolle in dieser Automatisierung spielt, dann ist das Immunsystem denselben Druck auf einflussnehmenden Verhalten ausgesetzt.


Diese Sorge beruht nicht auf einer detaillierten Geschichte über modernes ML-Training. Die wichtige Eigenschaft ist, dass wir viele Muster instanziieren, die komplexes Denken über die Welt erfassen, von denen einige einflussnehmend sein könnten. Die Sorge besteht, unabhängig davon, ob dieses Denken innerhalb eines einzelnen Computers stattfindet oder auf eine chaotische verteilte Weise durch eine gesamte Wirtschaft von interagierenden Akteuren umgesetzt wird --- ob Versuch und Irrtum die Form von Gradientenabstieg oder expliziter Anpassung und Optimierung durch Ingenieure annimmt, die versuchen, ein besser automatisiertes Unternehmen zu entwerfen. Die Vermeidung von End-to-End-Optimierung könnte dazu beitragen, das Auftreten von einflussnehmenden Verhaltensweisen zu verhindern (indem sie das menschliche Verständnis und damit die Kontrolle über die Art des Denkens verbessern, die entsteht). Aber sobald solche Muster existieren, schafft eine chaotische verteilte Welt einfach mehr und mehr Gelegenheiten für einflussnehmende Muster, ihren Einfluss auszubauen.


Wenn einflussnehmende Muster auftreten und sich verfestigen, kann dies letztlich zu einem schnellen Phasenübergang von der in Teil I beschriebenen Welt zu einer viel schlimmeren Situation führen, in der die Menschen die Kontrolle vollständig verlieren.


Früh in der Trajektorie erwerben einflussnehmende Systeme größtenteils Einfluss, indem sie sich nützlich machen und so harmlos wie möglich erscheinen. Sie können nützliche Dienstleistungen in der Wirtschaft anbieten, um Geld für sie und ihre Eigentümer zu verdienen, scheinbar vernünftige politische Empfehlungen geben, um breiter konsultiert zu werden, versuchen, Menschen glücklich zu machen, usw. (Diese Welt ist immer noch von den Problemen in Teil I betroffen.)


Von Zeit zu Zeit können AI-Systeme katastrophal scheitern. Zum Beispiel könnte ein automatisiertes Unternehmen einfach das Geld nehmen und verschwinden; ein Strafverfolgungssystem könnte abrupt damit beginnen, Ressourcen zu beschlagnahmen und zu versuchen, sich vor einem beabsichtigten Stilllegung zu verteidigen, wenn das schlechte Verhalten entdeckt wird; usw. Diese Probleme können kontinuierlich mit einigen der in Teil I diskutierten Fehlschläge verbunden sein --- es gibt keine klare Linie zwischen Fällen, in denen ein Proxy komplett versagt, und Fällen, in denen das System nicht einmal den Proxy verfolgt.


Es wird wahrscheinlich ein allgemeines Verständnis für diese Dynamik geben, aber es ist schwierig, das Niveau des systemischen Risikos genau festzulegen, und die Minderung könnte teuer sein, wenn wir keine gute technologische Lösung haben. Daher sind wir vielleicht nicht in der Lage, eine Reaktion zu mobilisieren, bis wir einen klaren Warnschuss haben --- und wenn wir gut darin sind, kleine Fehlschläge im Keim zu ersticken, erhalten wir möglicherweise gar keine mittelgroßen Warnschüsse.


Schließlich erreichen wir den Punkt, an dem wir uns nicht von einem korrelierten Automatisierungsfehler erholen könnten. Unter diesen Bedingungen hören einflussnehmende Systeme auf, auf die beabsichtigte Weise zu agieren, da sich ihre Anreize geändert haben --- sie sind nun mehr daran interessiert, den Einfluss nach der resultierenden Katastrophe zu kontrollieren, als weiterhin angenehm mit bestehenden Institutionen und Anreizen zu interagieren.


Eine unreversible Katastrophe würde wahrscheinlich während eines Zeitraums erhöhter Anfälligkeit auftreten --- ein Konflikt zwischen Staaten, eine Naturkatastrophe, ein schwerer Cyberangriff, usw. --- da dies der erste Moment wäre, in dem eine Erholung unmöglich ist und lokale Schocks schaffen würde, die die Katastrophe auslösen könnten. Die Katastrophe könnte wie eine schnell kaskadierendes Series von Automatisierungsfehlern aussehen: Einige automatisierte Systeme entgleisen als Reaktion auf einen lokalen Schock. Während diese Systeme entgleisen, wird der lokale Schock in eine größere Störung umgewandelt; immer mehr automatisierte Systeme bewegen sich weiter von ihrer Trainingsverteilung weg und beginnen zu scheitern. Realistisch betrachtet könnte dies wahrscheinlich durch weit verbreitete menschliche Fehler als Reaktion auf Angst und den Zusammenbruch bestehender Anreizsysteme verschärft werden --- viele Dinge beginnen zusammenzubrechen, während man sich außerhalb der Distribution bewegt, nicht nur ML.


Es ist schwer zu sehen, wie ungestützte Menschen robust gegenüber dieser Art des Scheiterns bleiben könnten, ohne eine explizite groß angelegte Anstrengung zur Reduzierung unserer Abhängigkeit von potenziell empfindlichen Maschinen, was selbst sehr teuer sein könnte.


Ich würde dieses Ergebnis als „mit einem Knall hinausgehen“ beschreiben. Es führt wahrscheinlich zu viel offensichtlicher Zerstörung, und es lässt uns keine Gelegenheit, danach Kurs zu korrigieren. In Bezug auf unmittelbare Konsequenzen könnte es sich von anderen Arten des Zusammenbruchs komplexer / empfindlicher / ko-adaptierter Systeme oder von Konflikten nicht leicht unterscheiden (da es wahrscheinlich viele Menschen gibt, die den AI-Systemen sympathisch sind). Aus meiner Sicht ist der Hauptunterschied zwischen diesem Szenario und normalen Unfällen oder Konflikten, dass wir danach mit einer Menge mächtiger einflussnehmenden Systeme zurückgelassen werden, die so komplex sind, dass wir sie wahrscheinlich nicht loswerden können.


Es ist auch möglich, ein ähnliches Schicksal zu erleiden, ohne eine offensichtliche Katastrophe (wenn wir lange genug überleben). Wenn Strafverfolgung, Regierungsbürokratien und Militärs automatisierter werden, wird die menschliche Kontrolle zunehmend von einem komplizierten System mit vielen beweglichen Teilen abhängig. Eines Tages könnten die Führer feststellen, dass sie trotz ihrer nominalen Autorität tatsächlich keine Kontrolle darüber haben, was diese Institutionen tun. Zum Beispiel könnten Militärs einen Befehl erteilen und feststellen, dass er ignoriert wird. Dies könnte sofort Panik und eine starke Reaktion hervorrufen, aber die Reaktion selbst könnte auf dasselbe Problem stoßen, und zu diesem Zeitpunkt könnte das Spiel vorbei sein.


Ähnliche blutlose Revolutionen sind möglich, wenn Einflussnehmer legal agieren oder durch Manipulation und Täuschung oder Ähnlichem. Jede präzise Vorstellung von Katastrophe wird notwendigerweise sehr unwahrscheinlich sein. Aber wenn Einflussnehmer routinemäßig von mächtigen ML eingeführt werden und wir nicht in der Lage sind, gegen sie auszuwählen, dann scheint es, als würde es nicht gut ausgehen.