Sicherheit und Benutzerrechte
Mehr Ist Anders für KI
Jacob Steinhardt (Originalartikel auf AI Alignment Forum). Jan 2022
Maschinenlernen berührt zunehmend viele Aspekte unserer Gesellschaft, und seine Auswirkungen werden nur weiter zunehmen. Angesichts dessen kümmere ich mich wie viele andere um die Risiken zukünftiger ML-Systeme und wie man diese mindern kann.
Beim Nachdenken über Sicherheitsrisiken von ML gibt es zwei gebräuchliche Ansätze, die ich als den Engineering-Ansatz und den Philosophie-Ansatz bezeichnen werde:
Der Engineering-Ansatz ist tendenziell empirisch orientiert, zieht Erfahrungen aus bestehenden oder vergangenen ML-Systemen heran und betrachtet Probleme, die entweder: (1) bereits große Probleme sind, oder (2) kleinere Probleme darstellen, die in Zukunft schlechter werden können. Engineering ist tendenziell bottom-up und ist sowohl in Kontakt mit aktuellen systemtechnischen Möglichkeiten als auch auf diese verankert.
Der Philosophische Ansatz denkt tendenziell mehr über die Grenzen sehr fortgeschrittener Systeme nach. Er ist bereit, Gedankenexperimente zu unterhalten, die mit aktuellen systemtechnischen Möglichkeiten implausibel wären (wie Nick Bostroms Paperclip-Maximierer) und ist offen für abstrakte Überlegungen, ohne viele Details zu kennen. Er klingt oft eher "sci-fi-artig" und mehr wie Philosophie als wie Informatik. Er zieht etwas Inspiration von aktuellen ML-Systemen, jedoch oft nur in breiten Zügen.
Ich werde diese Ansätze hauptsächlich im Kontext von ML-Sicherheit diskutieren, aber dieselbe Unterscheidung gilt in anderen Bereichen. Zum Beispiel könnte ein Engineering-Ansatz zu KI + Recht sich darauf konzentrieren, wie man selbstfahrende Autos regulieren könnte, während die Philosophie fragen könnte, ob der Einsatz von KI bei gerichtlichen Entscheidungen die liberale Demokratie untergraben könnte.
Obwohl Engineering und Philosophie in einigen Punkten übereinstimmen, machen sie größtenteils völlig unterschiedliche Vorhersagen darüber, was die wichtigsten Sicherheitsrisiken von ML sein werden und wie wir damit umgehen sollten:
Sowohl Engineering als auch Philosophie würden in einigen übergeordneten Punkten übereinstimmen: Sie würden zustimmen, dass nicht übereinstimmende Ziele ein wichtiges Problem bei ML-Systemen darstellen, das wahrscheinlich schlimmer wird. Engineering glaubt dies aufgrund von Beispielen wie dem Facebook-Empfehlungssystem, während die Philosophie dies auf konzeptionellen Argumenten wie denen in Superintelligenz basiert. Die Philosophie ist sich sicherer, dass nicht übereinstimmende Ziele ein großes Problem darstellen und hält sie für eine existenzielle Bedrohung für die Menschheit, wenn sie nicht angegangen werden.
Sowohl Engineering als auch Philosophie würden übereinstimmen, dass die Robustheit außerhalb der Verteilung ein wichtiges Problem darstellt. Philosophie könnte jedoch die meisten Probleme mit der Ingenieurrobustheit (wie die, mit denen selbstfahrende Autos konfrontiert sind) als vorübergehende Probleme betrachten, die behoben werden, wenn wir mit mehr Daten trainieren. Die Philosophie ist besorgter darüber, ob Systeme von solchen Einstellungen, in denen Menschen Daten bereitstellen können, zu solchen Einstellungen generalisieren können, in denen sie nicht einmal prinzipiell Daten bereitstellen können.
Engineering konzentriert sich in der Regel auf Aufgaben, bei denen aktuelle ML-Systeme nicht gut funktionieren, gewichtet nach ihrem Einfluss und ihrer Repräsentativität. Die Philosophie konzentriert sich auf Aufgaben, die eine bestimmte abstrakte Eigenschaft aufweisen, die wichtig zu sein scheint, wie imitative Täuschung.
Meiner Erfahrung nach denken Menschen, die stark an der Engineering-Weltanschauung festhalten, dass die Philosophie grundsätzlich verwirrt und grundlos ist, während diejenigen, die stark an der Philosophie festhalten, die meisten Ingenieurarbeiten als fehlgeleitet und orthogonal (höchstens) zur langfristigen Sicherheit von ML betrachten. Angesichts dieses scharfen Kontrasts und der Bedeutung des Problems habe ich viel darüber nachgedacht, welcher—wenn überhaupt—der "richtige" Ansatz ist.
Ausgehend von meiner Sicht war ich überwiegend auf der Engineering-Seite, obwohl ich mehr Sympathie für die Philosophie hatte als der mediane ML-Forscher (der ~0% Sympathie für die Philosophie hat). Ich fühle jedoch jetzt, dass:
Philosophie wird von den meisten ML-Forschern erheblich unterschätzt.
Die Engineering-Weltanschauung, ernst genommen, impliziert tatsächlich, dass den Gedankenexperimenten ein erheblicher Stellenwert eingeräumt wird.
Andererseits fühle ich auch, dass:
Die Philosophie sollte den Wert von empirischen Daten weiterhin erheblich unterschätzen.
Keiner dieser Ansätze ist zufriedenstellend und wir haben tatsächlich keinen einzelnen guten Ansatz, um über Risiken zukünftiger ML-Systeme nachzudenken.
Ich habe diese Schlussfolgerungen durch eine Kombination aus Nachdenken, Diskussionen mit anderen und Beobachtungen empirischer Entwicklungen im ML seit 2011 (als ich in das Feld eingetreten bin) erreicht. Ich habe meine Gedanken in eine Reihe von Blog-Beiträgen destilliert, in denen ich argumentiere, dass:
Zukünftige ML-Systeme werden qualitativ anders sein als die, die wir heute sehen. Tatsächlich haben ML-Systeme historisch gesehen qualitative Änderungen als Ergebnis der Erhöhung ihrer Größe gezeigt. Dies ist ein Beispiel für "Mehr ist anders", was in anderen Bereichen wie Physik, Biologie und Wirtschaftswissenschaften weit verbreitet ist (siehe Appendix: Mehr ist anders in anderen Bereichen). Folglich sollten wir erwarten, dass ML künftig weitere qualitative Änderungen zeigt, wenn es skaliert.
Die meisten Diskussionen über ML-Fehler sind entweder auf bestehende Systeme oder auf Menschen verankert. Gedankenexperimente bieten einen dritten Anker, und drei Anker zu haben, ist viel besser als zwei, aber jeder hat seine eigenen Schwächen.
Wenn wir Gedankenexperimente ernst nehmen, enden wir damit, vorherzusagen, dass ML-Systeme seltsame Fehlermuster haben werden. Einige wichtige Fehlermuster von ML-Systemen werden in keinem bestehenden System vorhanden sein und könnten schnell genug auftreten, sodass wir sicher nicht warten können, bis sie auftreten, bevor wir uns mit ihnen auseinandersetzen.
Mein größter Dissens mit der Philosophie ist, dass ich denke, dass empirische Erkenntnisse überraschend weitreichend sind, was bedeutet, dass gut gewählte Experimente an aktuellen Systemen uns viel über zukünftige Systeme sagen können.