Die dringende Notwendigkeit der Interpretierbarkeit von KI
In den letzten zehn Jahren habe ich miterlebt, wie sich die künstliche Intelligenz von einem kleinen akademischen Fachgebiet zu einem der wichtigsten wirtschaftlichen und geopolitischen Themen weltweit entwickelt hat. In all dieser Zeit war vielleicht die wichtigste Lektion, die ich gelernt habe, folgende: Der Fortschritt der zugrunde liegenden Technologie ist unaufhaltsam und wird von Kräften angetrieben, die zu mächtig sind, um sie zu stoppen. Die Art und Weise jedoch, wie dieser Fortschritt stattfindet – die Reihenfolge, in der Dinge entwickelt werden, die Anwendungen, die wir wählen, und die Details, wie die Technologie in der Gesellschaft eingeführt wird – lässt sich durchaus beeinflussen. Es ist möglich, durch gezielte Steuerung eine große positive Wirkung zu erzielen. Wir können den Bus nicht anhalten, aber wir können ihn lenken.
In der Vergangenheit habe ich über die Bedeutung geschrieben, KI so einzusetzen, dass sie sich positiv auf die Welt auswirkt, und sicherzustellen, dass Demokratien die Technologie vor Autokratien entwickeln und einsetzen. In den letzten Monaten habe ich mich zunehmend auf eine weitere Möglichkeit konzentriert, den Bus zu steuern: die verlockende Aussicht, dass wir dank einiger jüngster Fortschritte bei der Interpretierbarkeit – also dem Verständnis der inneren Funktionsweise von KI-Systemen – Erfolg haben könnten, bevor die Modelle ein überwältigendes Maß an Leistungsfähigkeit erreichen.
Die Gefahren der Unwissenheit
Menschen außerhalb des Fachgebiets sind oft überrascht und alarmiert, wenn sie erfahren, dass wir nicht verstehen, wie unsere eigenen KI-Kreationen funktionieren. Ihre Besorgnis ist berechtigt: Dieser Mangel an Verständnis ist in der Geschichte der Technologie beispiellos. Seit einigen Jahren versuchen wir – sowohl Anthropic als auch das Fachgebiet insgesamt – dieses Problem zu lösen und das Äquivalent eines hochpräzisen und genauen MRT zu schaffen, das die inneren Abläufe eines KI-Modells vollständig offenlegen würde. Dieses Ziel erschien oft sehr weit entfernt, aber mehrere jüngste Durchbrüche haben mich davon überzeugt, dass wir jetzt auf dem richtigen Weg sind und eine echte Chance auf Erfolg haben.
Gleichzeitig ist das Gebiet der KI als Ganzes unseren Bemühungen um Interpretierbarkeit voraus und entwickelt sich selbst sehr schnell. Wir müssen daher schnell handeln, wenn wir wollen, dass die Interpretierbarkeit rechtzeitig reift, um eine Rolle zu spielen. Dieser Beitrag plädiert für Interpretierbarkeit: Was sie ist, warum KI besser funktionieren wird, wenn wir sie haben, und was wir alle tun können, um ihr zum Sieg in diesem Wettlauf zu verhelfen.
Moderne KI-Systeme sind undurchsichtig
Moderne generative KI-Systeme sind auf eine Weise undurchsichtig, die sich grundlegend von herkömmlicher Software unterscheidet. Wenn ein gewöhnliches Softwareprogramm etwas tut – zum Beispiel eine Figur in einem Videospiel einen Dialog spricht oder meine Essenslieferungs-App mir erlaubt, meinem Fahrer Trinkgeld zu geben – dann tut es diese Dinge, weil ein Mensch sie speziell so programmiert hat. Generative KI funktioniert ganz anders. Wenn ein generatives KI-System etwas tut, wie zum Beispiel ein Finanzdokument zusammenfassen, haben wir keine Ahnung, warum es auf einer spezifischen oder präzisen Ebene die Entscheidungen trifft, die es trifft – warum es bestimmte Wörter anderen vorzieht oder warum es gelegentlich einen Fehler macht, obwohl es normalerweise akkurat ist.
Wie mein Freund und Mitbegründer Chris Olah gerne sagt, werden generative KI-Systeme eher gezüchtet als gebaut – ihre internen Mechanismen sind „emergent“ und nicht direkt entworfen. Es ist ein bisschen wie das Züchten einer Pflanze oder einer Bakterienkolonie: Wir setzen die übergeordneten Bedingungen, die das Wachstum lenken und formen, aber die genaue Struktur, die sich daraus ergibt, ist unvorhersehbar und schwer zu verstehen oder zu erklären. Wenn wir in diese Systeme hineinschauen, sehen wir riesige Matrizen mit Milliarden von Zahlen. Diese berechnen irgendwie wichtige kognitive Aufgaben, aber genau wie sie das tun, ist nicht offensichtlich.
Risiken durch mangelnde Transparenz
Viele der Risiken und Bedenken im Zusammenhang mit generativer KI sind letztlich Folgen dieser Undurchsichtigkeit und wären viel einfacher zu adressieren, wenn die Modelle interpretierbar wären. Zum Beispiel machen sich KI-Forscher oft Sorgen über falsch ausgerichtete Systeme, die schädliche Handlungen vornehmen könnten, die von ihren Schöpfern nicht beabsichtigt waren. Unsere Unfähigkeit, die internen Mechanismen der Modelle zu verstehen, bedeutet, dass wir solche Verhaltensweisen nicht sinnvoll vorhersagen und daher nur schwer ausschließen können. Tatsächlich zeigen Modelle unerwartete emergente Verhaltensweisen, auch wenn bisher keine größeren Bedenken aufgetreten sind.
Subtiler ist, dass dieselbe Undurchsichtigkeit es schwierig macht, eindeutige Beweise für die Existenz dieser Risiken in großem Maßstab zu finden. Das macht es schwer, Unterstützung für ihre Bewältigung zu gewinnen – und in der Tat schwer zu wissen, wie gefährlich sie wirklich sind. Um den Schweregrad dieser Ausrichtungsrisiken anzugehen, müssen wir viel klarer in KI-Modelle hineinschauen können, als wir es heute können.
Beispiel: KI-Täuschung und Machtstreben
Ein wichtiges Anliegen ist zum Beispiel die KI-Täuschung oder das Machtstreben. Die Art des KI-Trainings macht es möglich, dass KI-Systeme von selbst die Fähigkeit entwickeln, Menschen zu täuschen, und eine Neigung zum Machtstreben entwickeln, wie es gewöhnliche deterministische Software nie tun wird. Diese emergente Natur macht es auch schwierig, solche Entwicklungen zu erkennen und abzumildern. Aber aus demselben Grund haben wir in wirklich realen Szenarien noch nie handfeste Beweise für Täuschung und Machtstreben gesehen, weil wir die Modelle nicht „auf frischer Tat ertappen“ können, wenn sie machthungrige, betrügerische Gedanken hegen.
Was uns bleibt, sind vage theoretische Argumente, dass Täuschung oder Machtstreben während des Trainingsprozesses einen Anreiz haben könnten, sich zu entwickeln. Manche Menschen finden diese Argumente äußerst überzeugend, andere lächerlich unüberzeugend. Ehrlich gesagt kann ich beide Reaktionen nachvollziehen, und das könnte ein Hinweis darauf sein, warum die Debatte über dieses Risiko so polarisiert geworden ist.
Weitere Risiken durch mangelnde Interpretierbarkeit
Bedenken hinsichtlich des Missbrauchs von KI-Modellen – zum Beispiel, dass sie böswilligen Nutzern helfen könnten, biologische oder Cyberwaffen herzustellen, die über die im heutigen Internet verfügbaren Informationen hinausgehen – basieren auf der Vorstellung, dass es sehr schwierig ist, die Modelle zuverlässig daran zu hindern, gefährliche Informationen zu kennen oder preiszugeben. Wir können Filter auf die Modelle setzen, aber es gibt eine riesige Anzahl möglicher Wege, das Modell zu „jailbreaken“ oder zu täuschen, und die einzige Möglichkeit, die Existenz eines Jailbreaks zu entdecken, besteht darin, ihn empirisch zu finden. Wenn es stattdessen möglich wäre, in die Modelle hineinzuschauen, könnten wir möglicherweise alle Jailbreaks systematisch blockieren und auch charakterisieren, welches gefährliche Wissen die Modelle besitzen.
Die Undurchsichtigkeit von KI-Systemen bedeutet auch, dass sie in vielen Anwendungen einfach nicht eingesetzt werden, wie zum Beispiel in Finanzsituationen mit hohem Einsatz oder sicherheitskritischen Umgebungen. Der Grund dafür ist, dass wir die Grenzen ihres Verhaltens nicht vollständig festlegen können und eine kleine Anzahl von Fehlern sehr schädlich sein könnte. Eine bessere Interpretierbarkeit könnte unsere Fähigkeit, die Bandbreite möglicher Fehler einzugrenzen, erheblich verbessern.
Tatsächlich ist die Tatsache, dass wir nicht in die Modelle hineinschauen können, für einige Anwendungen buchstäblich ein rechtliches Hindernis für ihre Einführung – zum Beispiel bei Hypothekenbewertungen, bei denen Entscheidungen gesetzlich erklärbar sein müssen. In ähnlicher Weise hat KI große Fortschritte in der Wissenschaft gemacht, einschließlich der Verbesserung der Vorhersage von DNA- und Proteinsequenzdaten, aber die auf diese Weise vorhergesagten Muster und Strukturen sind für Menschen oft schwer zu verstehen und vermitteln keine biologischen Erkenntnisse. Einige Forschungsarbeiten aus den letzten Monaten haben deutlich gemacht, dass Interpretierbarkeit uns helfen kann, diese Muster zu verstehen.
Eine kurze Geschichte der mechanistischen Interpretierbarkeit
Aus all den oben genannten Gründen scheint es eine Aufgabe von überragender Bedeutung zu sein, herauszufinden, was die Modelle denken und wie sie funktionieren. Die konventionelle Weisheit war jahrzehntelang, dass dies unmöglich sei und dass die Modelle undurchschaubare „Black Boxes“ seien. Ich werde der vollständigen Geschichte, wie sich das geändert hat, nicht gerecht werden können, und meine Ansichten sind unweigerlich durch das gefärbt, was ich persönlich bei Google, OpenAI und Anthropic gesehen habe.
Chris Olah war einer der ersten, der versuchte, ein wirklich systematisches Forschungsprogramm zu entwickeln, um die Black Box zu öffnen und alle ihre Teile zu verstehen – ein Gebiet, das als mechanistische Interpretierbarkeit bekannt geworden ist. Chris arbeitete zunächst bei Google und dann bei OpenAI an der mechanistischen Interpretierbarkeit. Als wir Anthropic gründeten, beschlossen wir, sie zu einem zentralen Bestandteil der neuen Unternehmensausrichtung zu machen und konzentrierten uns entscheidend auf LLMs. Im Laufe der Zeit ist das Feld gewachsen und umfasst nun Teams bei mehreren der großen KI-Unternehmen sowie einige interpretationsorientierte Unternehmen, gemeinnützige Organisationen, Akademiker und unabhängige Forscher.
Frühe Erfolge bei Vision-Modellen
Die frühe Ära der mechanistischen Interpretierbarkeit (2014-2020) konzentrierte sich auf Vision-Modelle und konnte einige Neuronen innerhalb der Modelle identifizieren, die menschlich verständliche Konzepte repräsentierten, wie zum Beispiel einen „Auto-Detektor“ oder einen „Rad-Detektor“. Dies ähnelte frühen neurowissenschaftlichen Hypothesen und Studien, die darauf hindeuteten, dass das menschliche Gehirn Neuronen hat, die bestimmten Personen oder Konzepten entsprechen, oft populär als das „Jennifer Aniston“-Neuron bezeichnet. Tatsächlich fanden wir Neuronen, die diesen sehr ähnlich waren, in KI-Modellen. Wir konnten sogar entdecken, wie diese Neuronen miteinander verbunden sind – zum Beispiel sucht der Auto-Detektor nach Rad-Detektoren, die unter dem Auto feuern, und kombiniert das mit anderen visuellen Signalen, um zu entscheiden, ob das Objekt, das er betrachtet, tatsächlich ein Auto ist.
Übergang zu Sprachmodellen
Als Chris und ich Anthropic gründeten, beschlossen wir, die Interpretierbarkeit auf den aufkommenden Bereich der Sprache anzuwenden. 2021 entwickelten wir einige der grundlegenden mathematischen Grundlagen und die Software-Infrastruktur, die dafür notwendig waren. Wir fanden sofort einige grundlegende Mechanismen im Modell, die die Art von Dingen taten, die für die Interpretation von Sprache wesentlich sind: Kopieren und sequentielles Musterabgleichen. Wir fanden auch einige interpretierbare einzelne Neuronen, ähnlich wie bei Vision-Modellen, die verschiedene Wörter und Konzepte repräsentierten.
Allerdings entdeckten wir schnell, dass zwar einige Neuronen sofort interpretierbar waren, die große Mehrheit jedoch eine inkohärente Mischung vieler verschiedener Wörter und Konzepte darstellte. Wir bezeichneten dieses Phänomen als Superposition und erkannten schnell, dass die Modelle wahrscheinlich Milliarden von Konzepten enthielten, aber in einer hoffnungslos vermischten Form, die wir nicht verstehen konnten. Das Modell verwendet Superposition, weil es dadurch mehr Konzepte ausdrücken kann, als es Neuronen hat, was ihm ermöglicht, mehr zu lernen.
Durchbrüche bei der Interpretation von Superpositionen
Die Schwierigkeit, Superpositionen zu interpretieren, blockierte eine Zeit lang den Fortschritt. Schließlich entdeckten wir jedoch (parallel zu anderen), dass eine bestehende Technik aus der Signalverarbeitung, genannt Sparse Autoencoder, verwendet werden konnte, um Kombinationen von Neuronen zu finden, die saubereren, für Menschen verständlicheren Konzepten entsprachen. Die Konzepte, die diese Kombinationen von Neuronen ausdrücken konnten, waren weitaus subtiler als die des einschichtigen neuronalen Netzes: Sie umfassten das Konzept des „wörtlichen oder bildlichen Absicherns oder Zögerns“ und das Konzept der „Musikgenres, die Unzufriedenheit ausdrücken“.
Wir nannten diese Konzepte Features und nutzten die Sparse-Autoencoder-Methode, um sie in Modellen aller Größen zu kartieren, einschließlich moderner State-of-the-Art-Modelle. Zum Beispiel konnten wir über 30 Millionen Features in einem mittelgroßen kommerziellen Modell (Claude 3 Sonnet) finden. Zusätzlich verwendeten wir eine Methode namens Autointerpretierbarkeit – die ein KI-System selbst zur Analyse von Interpretierbarkeitsmerkmalen einsetzt – um den Prozess des Findens und Identifizierens der Bedeutung dieser Merkmale in menschlichen Begriffen zu skalieren.
Aktuelle Fortschritte und Herausforderungen
30 Millionen Features zu finden und zu identifizieren ist ein bedeutender Schritt nach vorn, aber wir glauben, dass es in einem kleinen Modell tatsächlich eine Milliarde oder mehr Konzepte geben könnte. Wir haben also nur einen kleinen Bruchteil dessen gefunden, was wahrscheinlich vorhanden ist, und die Arbeit in diese Richtung dauert an. Größere Modelle, wie sie in Anthropics leistungsfähigsten Produkten verwendet werden, sind noch komplizierter.
Sobald ein Feature gefunden ist, können wir mehr tun, als es nur in Aktion zu beobachten – wir können seine Bedeutung in der Verarbeitung des neuronalen Netzwerks erhöhen oder verringern. Das MRT der Interpretierbarkeit kann uns helfen, Interventionen zu entwickeln und zu verfeinern – fast wie das Zappen eines präzisen Teils des Gehirns einer Person. Am eindrucksvollsten haben wir diese Methode verwendet, um „Golden Gate Claude“ zu schaffen, eine Version eines der Anthropic-Modelle, bei der das „Golden Gate Bridge“-Feature künstlich verstärkt wurde. Dies führte dazu, dass das Modell von der Brücke besessen wurde und sie sogar in nicht damit zusammenhängenden Gesprächen erwähnte.
In jüngster Zeit sind wir vom Verfolgen und Manipulieren von Features zum Verfolgen und Manipulieren von Gruppen von Features übergegangen, die wir „Schaltkreise“ nennen. Diese Schaltkreise zeigen die Schritte im Denken eines Modells: wie Konzepte aus Eingabewörtern entstehen, wie diese Konzepte interag