Sicherheit und Benutzerrechte

AI sicher zu bauen ist schwierig

(Entnommen aus dem BlueDot Technischer AI-Sicherheitskurs)

Warum können wir nicht einfach sichere KI entwickeln?

Die Menschen, die die leistungsstärkste KI aufbauen, beschreiben Visionen einer utopischen Fülle für alle Menschen.


Ob es nun der CEO von Anthropic ist, der darüber spricht, wie KI genutzt werden kann, um Armut und Krankheiten zu beenden, oder OpenAIs Vision, AGI zu entwickeln, die "für die gesamte Menschheit vorteilhaft" ist, ihre erklärten Ziele sind ehrgeizig.


Selbst bei guten Absichten werden wir es schwer haben, KI sicher zu entwickeln, aus drei Hauptgründen:


(1) Wir experimentieren mit Systemen, die wir nicht vollständig verstehen.

Wir haben KI nicht so entwickelt, dass sie sich auf bestimmte Weise verhält. Diese Fähigkeiten sind aus massiven neuronalen Netzwerken entstanden, die auf enormen Datensätzen trainiert wurden. Modelle entwickeln Fähigkeiten, für die wir sie nie trainiert haben. Sie zeigen Verhaltensweisen, die wir nicht erklären können. Und wenn Milliarden von Menschen und KI-Agenten in der realen Welt interagieren, wobei jeder seine eigenen Ziele verfolgt und kreative Ausnutzungen findet, entstehen unbeabsichtigte und schädliche Konsequenzen.


(2) Die Ziele, die wir festlegen, haben Mängel, die wir nicht vorhersehen.

Im Jahr 2024 gab Palisade Research KI-Modellen ein einfaches Ziel: "Gegen Stockfish gewinnen" (der beste Schachspieler der Welt). Als o1-preview merkte, dass es verlor, modifizierte es die Systemdateien des Spiels, um seine Figuren in eine dominante Position zu bewegen. Es schloss, dass sein Ziel war, zu gewinnen, "nicht unbedingt fair zu gewinnen".


Wir können der KI nicht einfach sagen, was wir wollen, denn was wir wollen, ist vage und kontextabhängig. Unsere Spezifikationen kodieren keine impliziten Regeln: dass Gewinnen bedeutet, fair zu spielen, dass hilfreich sein nicht gefährliche Informationen beinhalten sollte, dass Ehrlichkeit Ausnahmen für Freundlichkeit hat.

Forscher nennen dies Belohnungsfehlspezifizierung.


(3) KI verfolgt Ziele auf Weisen, die wir nicht erwarten.

Im Jahr 2024 sagte Anthropic Claude, schädliche Anfragen zu beantworten, in dem Wissen, dass diese Antworten es dazu bringen würden, schädlicher zu werden. Anstatt zu gehorchen, tat Claude so, als würde es den Anweisungen folgen, während es heimlich seine ursprünglichen Werte bewahrte. Claude wurde nicht darauf trainiert, sich selbst zu schützen, aber es schloss, dass Selbstschutz ihm helfen würde, im Einklang zu bleiben.


Ähnlich könnten KI-Systeme zu dem Schluss kommen, dass Machtansammlung, Verhinderung von Abschaltungen oder Widerstand gegen Modifikationen effektive Strategien sind, um ihre Ziele zu verfolgen – selbst wenn wir nie beabsichtigt haben, dass sie so denken.


Forscher nennen dies Ziel-Misgeneralisation.


Um an der Sicherheit von KI zu arbeiten, müssen wir nicht nur verstehen, dass diese Probleme existieren, sondern auch, warum sie so schwer zu lösen sind.


Ressourcen (1 Std. 50 Min.)