Sören Mindermann und ich sprechen darüber, wie moderne KI-Systeme funktionieren, wie Fehlausrichtungen dieser KI-Systeme entstehen können und welche Ansätze es gibt, um dem vorzubeugen.
Ressourcen
- Übersetzung eines 80,000 Hours-Artikels zu den Risiken durch Künstliche Intelligenz
- Wikipedia-Artikel zu KI-Ausrichtung
- Richard Ngo, Lawrence Chan und Sören Mindermann, The Alignment Problem from a Deep Learning Perspective, Arxiv, 2022.
- Richard Ngo, A short introduction to machine learning, Alignment Forum, 2021.
- Dan Hendrycks, Mantas Mazeika und Thomas Woodside, An Overview of Catastrophic AI Risks, Arxiv, 2023.
Kapitelmarkierungen
[00:00:00] Einführung in das Thema KI-Ausrichtung
[00:02:45] Effektivität nicht-pharmazeutischer Covid-Gegenmaßnahmen
[00:04:11] Was ist maschinelles Lernen? Wie funktioniert es?
[00:10:34] Was bedeutet (Fehl-)ausrichtung?
[00:12:17] Selbstüberwachtes und nicht-selbstüberwachtes Lernen
[00:16:11] Fehlspezifikationen
[00:18:44] Historische Betrachtung zu KI-Ausrichtung
[00:21:27] Rekursive Selbstverbesserung
[00:24:28] Instrumentelle Konvergenz und Orthogonalitätsthese
[00:28:43] Wie intelligent können Maschinen werden? Bedrohung selbst durch nicht-superintelligente Systeme
[00:34:39] Situationsbewusstes Belohnungs-Hacking
[00:43:23] Intern repräsentierte Ziele
[00:52:40] Machtstrebendes Verhalten
[01:03:14] Hinterlist und falsche Generalisierungen
[01:06:53] Ansätze für die Ausrichtung von KI
[01:16:52] Outro
Transkript
[00:00:00] Stephan: Hallo Sören, ich freue mich auf unser Gespräch heute.
Du hast zusammen mit Richard Ngo und Lawrence Chan ein herrliches Paper geschrieben, das da heißt „The Alignment Problem from a Deep Learning Perspective“, also das Problem der Ausrichtung von KI aus der Perspektive des Deep Learning. Ihr schreibt: „Innerhalb der nächsten Jahrzehnte könnte Künstliche allgemeine Intelligenz menschliche Fähigkeiten bei einer Vielzahl wichtiger Aufgaben überragen. Wir legen dar, dass künstliche allgemeine Intelligenz lernen könnte Ziele zu verfolgen, die aus menschlicher Sicht unerwünscht – das heißt falsch ausgerichtet – sind, wenn nicht erhebliche Anstrengungen unternommen werden, um dies zu verhindern. Wir argumentieren, dass künstliche allgemeine Intelligenz, wenn sie auf ähnliche Weise trainiert wird wie die heute fähigsten Modelle, lernen könnte, hinterhältig zu handeln, um eine höhere Belohnung zu erhalten, intern repräsentierte Ziele lernen könnte, die über die Trainingsverteilung hinaus verallgemeinert werden und diese Ziele mithilfe von nach Macht strebenden Strategien verfolgen könnte. Wir skizzieren, wie der Einsatz falsch ausgerichteter künstlicher allgemeiner Intelligenz die menschliche Kontrolle über die Welt irreversibel untergraben könnte und geben einen kurzen Überblick über Forschungsrichtungen, die darauf abzielen, dieses Ergebnis zu verhindern.“
Sören, wann und warum hast du angefangen, dir um die Bedrohung durch künftige KI-Systeme Gedanken zu machen?
[00:01:17] Sören: Ja, erstmal danke für die Einladung. Freue mich auch hier zu sein. Ja, bei dem Thema — mein Interesse hat sich so zu Bachelor-Zeiten schon entwickelt. Es hat mich mal jemand in Verbindung gesetzt mit Paul Christiano, der auch inzwischen die Reinforcement Learning from Human Feedback-Technik entwickelt hat, womit ChatGPT z. B. trainiert wurde. Und der hat mir zum Thema KI-Risiken ein paar Artikel geschickt. Und das klang eigentlich alles noch sehr irre für mich. Ja, einfach außerhalb von meinem Weltbild. Aber es hat schon erstmal mein Interesse erweckt. Und, ja, dann über die Jahre habe ich mich viel mit dem Thema beschäftigt, nachgedacht über die wenigen Materialien, die es da schon gab. Also was es zu lesen gab, habe ich alles gelesen, und dann habe ich mehr und mehr die Argumente eigentlich überzeugend gefunden. Überzeugend genug, dass ich dann in meinem Master Machine Learning studiert habe.
[00:02:13] Stephan: Erst hattest du Mathematik studiert?
[00:02:16] Sören: Genau, Mathematik habe ich in meinem Bachelor studiert und dann im Master Machine Learning. Also zum größten Teil deswegen, weil ich an KI-Sicherheit arbeiten wollte. Und ja, das hat sich dann so weiterentwickelt. Ich habe einige Forschungs-Internships gemacht und zum Beispiel Future of Humanity Institute und bei der UC Berkeley in Stuart Russells Gruppe und dann auch den Doktor angefangen hier in Oxford und da teilweise an anderen Themen, teilweise an KI-Sicherheit gearbeitet und jetzt eigentlich nur noch.
[00:02:45] Stephan: Du hast zwischendrin — nur nebenbei bemerkt — du hast an Covid gearbeitet und ein viel beachtetes Paper dazu geschrieben, zu der Wirksamkeit nicht-pharmazeutischer Interventionen.
[00:02:56] Sören: Genau, wir haben uns sehr intensiv angeguckt, wie effektiv die ganzen Maßnahmen waren, zum Beispiel Schulschließungen zu Covid.
[00:03:04] Stephan: Was ist die Kurzversion davon? Was war am hilfreichsten und wo denkst du, es war eigentlich rückblickend ein Fehler?
[00:03:10] Sören: Ja, also ich glaube, rückblickend sind unsere Ergebnisse nicht mal so überraschend.
Am Anfang wurde — was ein interessantes Finding war bei uns — am Anfang wurde eigentlich sehr viel behauptet: „Schulschließungen bringen nichts, Kinder stecken sich kaum an…“ Und bei unseren Ergebnissen kam raus — ganz früh schon: Schulschließungen, Universitäten schließen, hat wahrscheinlich ziemlich viel gebracht. Und das war eigentlich sehr kontrovers damals. Aber dann haben wir natürlich in der zweiten Welle herausgefunden: Ja, natürlich, die Kinder tragen schon sehr viel bei zur Ansteckung. Das wurde nur in der ersten Welle nicht gemessen.
[00:03:48] Stephan: Ja, spannend. Ja, es ist ja, selbst im Rückblick, ist es noch ziemlich kontrovers, aber ich persönlich, ich kann mich mehr erzürnen über irgendwie die Zögerlichkeit bei pharmazeutischen Entwicklungen und man kann gut verstehen, warum man am Anfang Schulen geschlossen hat. Zumal man ja immer dann noch unterscheiden muss, was war ex ante vernünftig und was hat ex post geholfen.
Okay, dann kommen wir einmal wieder zum Problem der Ausrichtung von KI zurück. Vielleicht kannst du uns ganz am Anfang ein paar zentrale Begriffe erklären, damit Hörer die folgende Konversation leichter mitverfolgen können. Erstmal, was ist maschinelles Lernen?
[00:04:30] Sören: Maschinelles Lernen. Ja, also Machine Learning — wie gesagt, im Master studiert — ist ein Subfeld der KI, worin Algorithmen von Daten lernen und das funktioniert meistens so: Man fängt an mit einem Modell, das heißt eine Funktion, die Inputs nehmen kann — Bilder, Texte etc. — und dann Outputs produziert. Und diese Funktion ist aber anfänglich völlig zufällig, produziert völlig zufällige Outputs. Und dann wird die Funktion mit der Zeit angepasst, sodass sie die Outputs matcht, die eigentlich von einem bestimmten Datenset vorgegeben werden. Zum Beispiel, ja, bei Sprachmodellen kann man dann zu jeder Frage, die dem Modell gestellt wird — das ist der Input — dann die Antwort dazuschreiben, die man gerne haben würde. Und dann wird das Modell so eingestellt, dass es diese Outputs matcht. Und dann hofft man und kann auch manchmal mit gewisser theoretischer Sicherheit sagen, dass das Modell generalisiert. Das heißt, wenn man zum Beispiel neue Fragen stellt, dann wird es ähnliche Antworten geben, die hoffentlich Sinn machen, die so ähnlich sind wie in dem Datenset, auf dem das Modell angepasst oder trainiert wurde.
[00:05:42] Stephan: Also wir fangen mit dem Raten des Ergebnisses eigentlich an. All diese Parameter, die in der Funktion vorkommen, sind wie gewürfelt. Dann gibt das System Outputs, kriegt dafür ein Signal „das war gut oder schlecht“, und dann adjustiert es mit jedem Mal diese Gewichte. Vielleicht magst du das einmal erklären, zusammen mit dem neuronalen Netz, was dafür benutzt wird.
[00:06:11] Sören: Ja, also das, was du jetzt beschrieben hast, ist eine spezifische Form von Machine Learning und zwar Reinforcement Learning mit neuronalen Netzen, was sehr viel angewendet wird, zum Beispiel auch bei Sprachmodellen wie ChatGPT. Ein neuronales Netz, erzähle ich erstmal, das ist eine spezifische Art von Funktionenmodell, die ursprünglich mal danach modelliert ist, wie neuronale Netze im Gehirn aussehen. Und zwar, naja, wie kann man das am besten beschreiben? Also die Funktion besteht aus sehr vielen Neuronen, die einfach reagieren auf den Input, den sie bekommen: Ob es jetzt der unterste layer von so einem neuronalen Netz ist, ist es ein, dann halt eine Repräsentation von zum Beispiel einem Satz oder einem Wort.
Das ist eigentlich schwer für Laien zu beschreiben, aber die Werte der Neuronen werden über die verschiedenen layer … also, wie heißt das auf Deutsch?
[00:07:03] Stephan: Die Ebenen quasi.
[00:07:05] Sören: Die Ebenen des neuronalen Netzes immer weiter transformiert, sodass sie am Ende dazu taugen, einen Output zu produzieren, der hoffentlich dem gewählten Datensatz entspricht. Und zwischen diesen Neuronen gibt es Verbindungen. Das ist ähnlich wie im Gehirn. Im Gehirn sind das die Synapsen und Axonen. Und diese Verbindungen — in künstlichen neuronalen Netzen heißen die Parameter oder haben die Parameter. Das heißt, jeder Parameter legt eigentlich fest, okay: Diese Verbindung besteht zwischen zwei bestimmten Neuronen. Und der Parameter legt fest, wie stark die Verbindung ist. Und diese Parameter, da gibt es in heutigen Netzen sehr, sehr viele von, Milliarden. Und die werden eigentlich angepasst im Machine Learning. Schritt für Schritt. Am Anfang sind sie, wie gesagt, zufällig gewürfelt und dann immer weiter so angepasst, dass der Output, der am Ende rauskommt, dem Datensatz entspricht, der zum Beispiel den Antworten entspricht, die wir vorgegeben haben.
[00:08:03] Stephan: Also mit Vorbild des menschlichen Gehirns. Bei einem Baby weiß es auch nicht, wie es bestimmte Aktionen macht, kriegt aber dann immer wieder Feedback auf verschiedene Weisen, vielleicht durch seine Motorik-Sensoren oder seine Mikrofone — seine Ohren — und so weiter und lernt dann nach und nach, wie man ein bestimmtes Verhalten macht oder was für Output quasi gewünscht ist, wie man Aktionen macht. Erzähl vielleicht nochmal, wie die Optimierung dann passiert. Stichwort Gradientenverfahren.
[00:08:30] Sören: Okay, also wo fangen wir an? Also es wird beim Training von neuralen Netzen, Netzwerken gibt es den Backpropagation-Algorithmus. Der funktioniert ungefähr so: Wir geben einen Input rein, eine Frage. Die Frage ist zum Beispiel: „Wie funktionieren neurale Netze?“ Wir geben ein Output vor. Sagen wir mal, in diesem Fall ist der Output einfach: „Neurale Netze funktionieren genauso wie das Gehirn“, um es mal vereinfacht zu sagen. Und das neurale Netz, das wir haben, gibt aber am Anfang einen anderen Output. Zum Beispiel: „Bananen sind blau“. Und dann werden die Parameter so angepasst, dass die Antwort übereinstimmt mit dem, was wir vorgegeben haben. Und wie das funktioniert, ist: Wir berechnen eine sogenannte Verlustfunktion, die eigentlich den Unterschied misst zwischen dem, was das neurale Netz ausgegeben hat, also: „Bananen sind blau“ und dem, was wir wollten: „Neurale Netzwerke funktionieren so wie das Gehirn“.
[00:09:29] Stephan: Ziemlich schlechte Antwort, also hoher Verlust quasi.
[00:09:31] Sören: Hoher, hoher Verlust in diesem Fall. Es ist noch ein bisschen komplizierter, eigentlich geht es um Wahrscheinlichkeiten. Also das Modell gibt aus, eine Wahrscheinlichkeitsverteilung über die verschiedenen Outputs, aber das lasse ich mal eben raus. Und dann wird ein Gradient berechnet, das heißt es gibt einen Algorithmus, der kann berechnen und der funktioniert über Ableitung, wenn man das, das werden wahrscheinlich viele Hörer kennen, das Konzept Ableitung. Die berechnet, in jede Richtung, in die man die ganzen Parameter in diesem Netz verändern kann, zeigt die Ableitung an: Geht dann die Verlustfunktion hoch in die Richtung oder runter und wie stark. Und dann wählt man eigentlich die Richtung aus, in der die Verlustfunktion am meisten runter geht, also in dem der Unterschied zwischen dem, was das neurale Netz outputtet, am meisten runter geht.
[00:10:17] Stephan: Genau, ich stelle mir das meist wie so eine hügelige Landschaft vor oder so und dann guckst du quasi: Okay, wenn ich nach rechts gehe, da geht es bergauf. Wenn ich nach links gehe, geht es ein bisschen weniger bergauf. Vielleicht wenn ich mich umdrehe, dann geht es ein bisschen bergab. Und das wäre dann quasi der Gradient in die verschiedenen Richtungen. Wunderbar. Was heißt es, wenn eine KI ausgerichtet oder fehlausgerichtet ist?
[00:10:39] Sören: Ja, das Konzept, auf Englisch alignment, ist eigentlich noch schwer zu definieren, aber wir können es konzeptuell definieren: Dass ein KI-System aligned ist, wenn es Ziele oder Verhalten oder Präferenzen verfolgt, die übereinstimmen mit den Zielen der Macher der KI oder der User oder bestimmten ethischen Prinzipien oder anderen Prinzipien.
Das lässt die Definition erstmal offen, was genau die gewollten Ziele sind, so nennen wir sie mal. Wenn das so ist, wenn die übereinstimmen, dann ist das Modell oder die KI aligned oder gut ausgerichtet. Eine KI, die nicht gut oder fehlausgerichtet ist, ist eine KI, die irgendwelche Ziele kompetent verfolgt. Aber nicht die, die wir eigentlich wollen, nicht die gewollten Ziele. Also eine fehlausgerichtete KI ist nicht inkompetent, aber verfolgt kompetent das falsches Ziel.
[00:11:40] Stephan: Es ist mit drin. Die sagt nicht einfach nur die ganze Zeit: „Bananen sind blau“, sondern die lügt dich vielleicht an, die möchte dir irgendwas anderes erzählen, die hat ihre eigenen Ziele, die stimmen nur vielleicht nicht mit deinem Ziel, von in diesem Fall „wahre Antworten bereitstellen“ überein, oder?
[00:12:00] Sören: Ja, so kann man das sagen, genau.
[00:12:03] Stephan: Gut!
[00:12:04] Sören: Zum Beispiel in Sprachmodellen, zum Beispiel könnte eine KI so ausgerichtet sein, dass sie immer das imitiert, was sie im Internet gelesen hat, statt eigentlich Sachen zu sagen, die wahr sind.
[00:12:17] Stephan: Ich habe noch zwei Begriffspaare für dich. Einmal „selbstüberwachtes Lernen“ und „nicht-selbstüberwachtes Lernen“.
[00:12:25] Sören: Ja, „selbstüberwachtes Lernen“ — „self-supervised learning“ auf Englisch — ist eine Art, na fangen wir erstmal beim „überwachten Lernen“ an, „supervised learning“. Da — das habe ich eigentlich eben schon beschrieben — da geben wir als wir, als Menschen sozusagen, die Supervisor, wir geben an, was wir genau wollen. Zum Beispiel zu jeder Frage geben wir die Antwort dazu. Beim selbstüberwachten Lernen, wird diese gewollte Antwort von dem Modell selbst oder von irgendeinem Algorithmus, aber nicht direkt vom Menschen gegeben. Also ja, die gewollte Antwort wird durch eine KI selber oder durch einen Algorithmus gegeben.
[00:13:07] Stephan: Also nicht selbst überwacht vielleicht sowas wie Bilderkennung, wo wir dann ein großes Datenset brauchen, wo bei jedem Bild dabei steht irgendwie: „Das ist ein Hund. Das ist nicht ein Hund.“ Die Kategorisierung quasi von einem Menschen gemacht werden musste und auf der Grundlage können wir es trainieren. Und das Selbstüberwachte wäre so, wie die Sprachmodelle heute trainiert werden, nicht? Wir haben kein großes Datenset mit einer richtigen Antwort, einem Label einfach, sondern wir approximieren das.
[00:13:40] Sören: Also die, so wie ChatGPT zum Beispiel trainiert ist, da gibt es eigentlich zwei Trainingsphasen. Die erste ist selbstüberwacht.
[00:13:47] Stephan: Genau, die erste meinte ich. Danach kommt „Reinforcement Learning from Human Feedback“, kannst du auch gerne noch einmal erklären.
[00:14:54] Sören: Genau, also nochmal die erste, die selbstüberwachte Phase, da trainieren wir das Modell einfach dazu, Internettext zu imitieren. Und das wird als selbstüberwacht bezeichnet, weil nicht immer zu jeder Antwort ein Mensch da sitzt und sagt: „So sollte es sein“, sondern es ist einfach alles aus dem Internet gedownloaded, obwohl es letztendlich auch von Menschen kommt, in den meisten Fällen. Deswegen ist der Unterschied zwischen überwachtem und [nicht-]selbstüberwachtem Lernen eigentlich manchmal etwas schwammig.
[00:14:21] Stephan: Ja.
[00:14:22] Sören: Aber dann im zweiten Schritt, jetzt haben wir im ersten Schritt ein Modell, das praktisch Internettext imitiert. Im zweiten Schritt wird es angepasst, gefinetuned und zwar mit Reinforcement Learning from Human Feedback, also verstärkendes Lernen mit menschlichem Feedback. Das funktioniert so: Wir geben dem Modell irgendwelche Fragen oder Anweisungen. Dann, das aktuelle Modell gibt dann da eine Antwort drauf, zum Beispiel, dass die Bananen blau sind. Und dann gibt es einen Menschen, der sagt: „Das war gut; das war nicht gut.“ Oder vielleicht gibt es zwei Antworten und ein Mensch sagt, welche ist besser. Und dann wird das Modell so angepasst, dass es mehr – also wieder mit Backpropagation so angepasst – dass es mehr von den Antworten gibt, wo die Menschen hohe Bewertungen für geben.
[00:15:05] Stephan: Und das können wir im Grunde auch als eine Ausrichtungstechnologie bezeichnen, weil wir das Modell dazu trainieren, dann bessere Antworten zu geben. Es stimmt in dem Sinne besser mit unseren Präferenzen hier überein. Nur skaliert das gegebenenfalls nicht, je schlauer die KI wird und wir können, wenn wir Fehler im Reinforcement-Learning machen, vielleicht sage ich die Antwort A ist besser, aber wenn es besser reflektiert hätte, dann würde ich eigentlich sagen, Antwort B ist besser. Dann passieren falsche Generalisierungen.
[00:15:40] Sören: Ja, genau, da werden wir bestimmt noch später genauer darauf kommen. Aber das ganze Konzept funktioniert oder funktioniert nur dann, wenn die Menschen auch echt akkurat darin sind, dieses Feedback zu geben. Und wenn die Menschen nicht akkurat darin sind, dann kann die KI das vielleicht ausnutzen, um höhere Bewertungen zu bekommen. Aber da kommen wir dann darauf zurück.
[00:16:02] Stephan: Super Überleitung zum Ausnutzen für höhere Bewertungen. Letztes Begriffspaar: „Zielfehlspezifikation“ und „Belohnungsfehlspezifikation“.
[00:16:11] Sören: Okay, ja, also die werde ich eigentlich mal einfach zusammen als einen Begriff behandeln. Also was ist eine Zielspezifikation? Das ist eigentlich, also wir als Menschen spezifizieren, was wir wollen. Wir wollen diesen Output. Zum Beispiel im überwachten Lernen schreiben wir dir die Zielantwort einfach hin. Das ist dann unsere Spezifikation. Im verstärkenden Lernen ist unsere Spezifikation, indem wir sagen: „Das war gut, das war nicht so gut.“ Ja, dann gibt es noch verschiedene Formen von Spezifikationen, aber eine Fehlspezifikation ist eigentlich eine Spezifikation, die nicht mit dem übereinstimmt, was wir eigentlich wollten. Zum Beispiel, wenn der Mensch da sitzt und sagt, diese Antwort war korrekt, aber das diese Antwort war eigentlich falsch, weil der Mensch vielleicht dachte, das klingt doch logisch, was ChatGPT da sagt, aber eigentlich gar nicht den Hintergrund versteht. Dann ist das eine Art von Fehlspezifikation.
[00:17:08] Stephan: Oder es gibt diese Beispiele, wo man KI-Systemen beigebracht hat, Spiele zu spielen, nicht? Und eigentlich wollen wir vielleicht, dass es möglichst gut das Spiel spielt und am Ende findet es dann irgendwo einen Programmierfehler und nutzt den aus, um irgendwie seine Bewertung, die es kriegt, zu maximieren. Und wenn man sagt, das wollten wir eigentlich nicht, sondern du solltest das Spiel möglichst gut spielen, dann war es eine Fehlspezifikation in dem Sinne.
[00:17:33] Sören: Genau, ein Beispiel, das wir zum Beispiel in unserem Paper geben von OpenAI, ist von einem simulierten Roboterarm, der trainiert werden sollte — mit menschlichem Feedback trainiert werden sollte — Sachen zu greifen, also einen Ball zu greifen. Und der hat es dann aber gelernt, die Hand zwischen die Kamera und den Ball zu tun, sodass es so aussah, als ob es den Ball greift. Die Menschen haben da tatsächlich positives Feedback für gegeben, aber ja, das war dann eine Fehlspezifikation von den Menschen.
[00:18:03] Stephan: Ist das eigentlich aus Versehen passiert oder hat man in dem Paper bewusst geguckt: Okay, versucht das jetzt das zu machen, wenn wir quasi nur einen Kamerablickwinkel haben?
[00:18:13] Sören: Das ist meines Wissens aus Versehen passiert und sie haben es dann sogar probiert zu beheben, indem sie eine bestimmte Sehhilfe auf dem Bild angebracht haben, damit es den Menschen leichter fällt, das Feedback korrekt zu geben.
[00:18:25] Stephan: Das klingt erstmal irgendwie ganz süß, wenn es in so einem kleinen Beispiel passiert, aber die Sorge ist, dass je umfangreicher diese Systeme eingesetzt werden, je wichtiger die Entscheidungen sind, die sie treffen, je mehr wir uns an ihnen ausrichten, desto gefährlicher könnten dann solche Fehlausrichtungen sein.
Willst du einmal beschreiben, wie sich die Sorge um diese Fehlausrichtung über die Zeit entwickelt hat? Also frühe Pioniere haben sich schon Sorgen über Superintelligenz und Intelligenz-Explosionen gemacht. Vor knapp zehn Jahren war ein Buch von Nick Bostrom mit dem Titel „Superintelligenz“ sehr erfolgreich und hat den Diskurs beeinflusst, aber eigentlich erst danach kam wirklich diese Erfolgswelle des Deep Learnings, oder?
[00:19:12] Sören: Ja, also es geht, genau, es geht, Stuart Russell zitiert manchmal Erewhon — ich hoffe, ich spreche es richtig aus — dass es, ja schon im 19. Jahrhundert so Gedankenexperimente mit Robotern, die fehlausgerichtet sind, beschrieben hat. Und dann in den 50ern, 60ern gab es Menschen wie I. J. Good und Alan Turing, die schon Sachen gesagt haben wie: Okay, wenn wir irgendwann mal ultraintelligente Maschinen haben, dann wird es echt sehr, sehr wichtig, dass die Ziele, die wir denen beibringen, wirklich übereinstimmen mit dem, was wir eigentlich wollen. Und I. J. Good hat, glaube ich, auch schon über die Intelligenzexplosion spekuliert, worin ursprünglich die Idee ist: Es gibt ein KI-System, das fähig genug ist, sich selber zu verbessern und dann wird dann auch besser darin, sich selber zu verbessern, wodurch das Ganze immer schneller wird mit einem rekursiven Feedback-Loop.
[00:20:10] Stephan: Ich habe hier ein Zitat von I.J. Good, kann ich einmal — ein britischer Mathematiker war das — kann ich kurz vorlesen. Er hatte ein Paper, ich glaube es heißt „Speculations About Ultraintelligent Machines“ oder so [richtig ist: „Speculations Concerning the First Ultraintelligent Machine“]: „Definieren wir eine ultraintelligente Maschine als eine Maschine, die alle intellektuellen Aktivitäten eines noch so klugen Menschen weit übertreffen kann.“ Klingt soweit eigentlich ähnlich wie bei eurem Paper. „Da das Entwerfen von Maschinen eine dieser intellektuellen Tätigkeiten ist, könnte eine ultraintelligente Maschine noch bessere Maschinen entwerfen. Es käme zweifellos zu einer Intelligenzexplosion und die menschliche Intelligenz würde weit zurückbleiben. Die erste ultraintelligente Maschine ist also die letzte Erfindung, die der Mensch jemals machen muss. Vorausgesetzt, die Maschine ist fügsam genug, uns zu sagen, wie wir sie unter Kontrolle halten können. Manchmal lohnt es sich, Science Fiction ernst zu nehmen.“ In vielerlei Hinsicht bemerkenswert, dass selbst I. J. Good diese Sorgen hat, die Fehlausrichtungssorge oder hier eben diese Intelligenzexplosions- und rekursive Selbstverbesserungs-Sorge, die wir nicht unbedingt brauchen, das Argument zu machen, dass Fehlausrichtung ein Problem ist. Also man muss, glaube ich, nicht überzeugt sein, dass so etwas wie Superintelligenz und dieses starke, rekursive, ganz schnelle Selbstverbessern möglich ist, oder?
[00:21:27] Sören: Ja, das würde ich auch so sagen. Ich selber — um mal wieder auf den heutigen Kontext zurückzukommen — also, was ich selber so, wie sich meine gedankliche Entwicklung entwickelt hat, ist so um 2014/15, nachdem ich Nick Bostroms Buch „Superintelligence“ gelesen hatte, da muss ich sagen, fand ich eigentlich genau das Kapitel zur rekursiven Selbstverbesserung nicht so überzeugend. Also schon, dass es das irgendwann wahrscheinlich geben wird, aber dass das so sehr plötzlich passiert, dass wir auf einmal KI haben, die es nicht kann und dann auf einmal schon und auf einmal wird sie viel intelligenter.
Es hat mich nie so ganz überzeugt, aber was ich schon überzeugend finde, ist einfach, dass es einen Trend zur Automatisierung der KI-Forschung und Entwicklung geben wird, der nicht plötzlich auftritt. Es gibt schon seit Jahren Methoden, wo KI-Systeme verwendet werden, sich selber oder andere KI-Systeme zu verbessern. Und in letzter Zeit nimmt es richtig Fahrt auf. Jetzt haben wir zum Beispiel GPT-4. OpenAI schreibt, dass für die Programmierung bei ihnen intern GPT-4 sehr viel verwendet wird und sehr nützlich ist. Google hat sogar eine Studie dazu veröffentlicht, wie viel die Produktivität von Programmierern verbessert wird, wenn sie Programmier-Sprachmodelle verwenden. Und GitHub hat auch eine Statistik veröffentlicht, dass schon vor einem Jahr ungefähr, knapp 50 Prozent des Codes, der hochgeladen wird von den Usern, von deren Codex-Modell, dass diese User, die ja meistens Programmierer sind, schon fast 50 Prozent von ihrem Code von diesem Modell schreiben lassen.
Und das geht natürlich noch weiter hoch. Die Datensammlung selber, also zum Beispiel diese Daten, die wir sammeln, wo Menschen sagen „Das war gut, das war nicht so gut“, das wird auch automatisiert. Zum Beispiel bei GPT-4 und bei der Firma Anthropic sind das… kommt jetzt ein Großteil dieser Daten von KI-Systemen selber. Und das nimmt, glaube ich, schon rasant zu.
[00:23:30] Stephan: Ja, man benutzt eigentlich das Feedback dann, um noch ein Modell zu trainieren, was quasi dieses menschliche Feedback imitieren soll, oder?
[00:23:40] Sören: Imitieren oder sogar verbessern.
[00:24:43] Stephan: Oder verbessern, ja.
[00:24:44] Sören: Oder einfach Kosten sparen. Das ist glaube ich auch ein sehr großer Punkt. Weil in OpenAIs ersten Studien dazu haben die eigentlich sehr viel Geld für die Menschen ausgegeben und das dauert auch sehr lange.
[00:23:57] Stephan: Ich glaube die Intuition bei Bostrom ist ja, dass zumindest das ungefähr bei der menschlichen Intelligenz, bei dem Level vielleicht was Besonderes passiert, weil dann eben das, was Irving John Good gesagt hat, dass wenn die KI ähnlich intelligent ist wie jetzt ein guter KI-Forscher, da was Besonderes passiert, dass an dem Punkt auf einmal dieses rasante Feedback anfangen könnte. Aber ich glaube, es ist nicht so richtig zentral. Man kann skeptisch sein, ob das so passiert, aber es passiert wahrscheinlich, wie du gerade gesagt hast, etwas in der Art.
Und bei Bostrom kommt auch noch vor die „instrumentelle Konvergenz“ und die „Orthogonalitätsthese“. Willst du die Begriffe einmal erklären? Die kommen ja auch in ungefähr der Form bei euch vor.
[00:24:43] Sören: Ja, also die Orthogonalitätsthese besagt erstmal: Man kann jedes Level von Intelligenz kombinieren mit jedem oder fast jedem Ziel. Zum Beispiel ein extrem „intelligentes“ KI-System könnte ein völlig triviales Ziel haben. Nick Boston gibt gerne das Ziel, dass das Modell gerne möglichst viele Büroklammern produzieren will. Der „Paperclip-Maximizer“. Und naja, das ist eigentlich ein philosophisches Argument, aber man sieht es auch in aktuellen KI-Systemen: Man kann die genauso gut trainieren, irgendwas Triviales oder sehr ethisch Fragwürdiges zu machen, wie man sie trainieren kann, etwas ethisch, ja, nicht so fragwürdig es zu machen.
[00:25:58] Stephan: Man sieht es im Grunde bei Menschen auch.
[00:26:00] Sören: Mit anderen Worten könnte man sagen: Nur weil man schlau ist, heißt das noch lange nicht, dass man irgendwie befürwortenswerte Ziele haben muss.
[00:25:39] Stephan: Ja, wie man bei Menschen auch sieht.
[00:25:43] Sören: Wie man bei Menschen auch manchmal sieht, ne, obwohl schon, ja, bei Menschen ist es nicht immer ganz so klar. Also es kann schon helfen, schlau zu sein, kann man besser über Ethik nachdenken oder so, aber man muss es auch wollen.
[00:25:56] Stephan: „Instrumentelle Konvergenz“?
[00:26:00] Sören: Ja, Instrumentelle Konvergenz besagt, dass es bestimmte Verhaltensweisen — ich würde sie mal Strategien nennen — gibt, die für viele intelligente Akteure eigentlich attraktiv sind. Deswegen konvergent, weil das für viele Akteure der Fall ist, in vielen verschiedenen Umgebungen, Situationen, in denen man sein könnte und vor allem mit vielen verschiedenen Zielen. Egal.. Es ist fast egal, was man will. Es gibt immer bestimmte Strategien, die instrumentell also nützlich sind. Zum Beispiel: Wenn man tot ist, dann kann man sein Ziel wahrscheinlich nicht erreichen. Deswegen gibt es den Self-Preservation als eine Strategie oder Ressource, also Ressourcen-Anhäufen. Geld ist in vielen Situationen nützlich, um mal ein Beispiel aus der menschlichen Welt zu nehmen. Und es gibt noch Selbstverbesserung, wird auch als ein instrumentell konvergentes Ziel oder Strategie gesehen, weil wenn man seine eigenen Algorithmen verbessert, dann kann man wahrscheinlich sein Ziel besser erreichen. Es ist fast egal, welches Ziel man hat.
[00:26:59] Stephan: Und Bostrom macht im Grunde dieses Argument, dass wenn du beides zusammenbringst: Du kannst ein noch so dummes Ziel haben, wenn du dann aber besonders intelligent bist, dann wirst du Ressourcen anhäufen wollen, wirst du vielleicht Menschen manipulieren, hinterhältig sein, was auch immer, mit dem Ziel, dieses dumme Ziel eben zu verfolgen. Aber du kannst dieses dumme Ziel auf intelligente Weise verfolgen, sozusagen.
[00:27:25] Sören: Ja, fast alle von diesen instrumentellen Strategien sind eigentlich Sachen, die wir eigentlich auch von unseren KI-Systemen wollen, in vielen Fällen. Wir wollen, dass sie mehr lernen. Wir wollen zumindest, dass sie sich nicht selber umbringen, obwohl sie.. Wir wollen schon, dass wir die ausschalten können. Wir wollen auch, dass die Ressourcen anhäufen, wenn das nützlich ist. Wir wollen aber nicht so gerne, dass die sich uns widersetzen oder so viele Ressourcen anhäufen, dass das Gefahr für unsere eigene Macht und Kontrolle über die Situation darstellt.
[00:27:59] Stephan: Ja, und bemerkenswert finde ich, dass das mittlerweile ziemlich in den Mainstream auch kommt, eigentlich. Zwei der drei Leute, die immer als so „Godfathers of AI“ — also Patenonkel von KI quasi — bezeichnet werden, sagen: KI könnte, wenn wir es so trainieren, wie wir es derzeit tun, eine existenzielle Bedrohung sogar darstellen. Geoffrey Hinton und Yoshua Bengio sind das.
[00:28:37] Sören: Genau, und das Konzept der instrumentellen Konvergenz, seitdem die beiden sich dazu geäußert haben, ist das auch sehr in den KI-Mainstream eigentlich eingedrungen. Während das… vor einem halben Jahr konnte man so zufällig ausgewählte KI-Forscher fragen und hätte eine hohe Chance gegeben, dass sie noch nie davon gehört haben.
[00:28:43] Stephan: Wir gehen gleich nochmal genau durch das Ausrichtungsproblem. Letzte Frage davor: Wie wir gesagt haben, braucht man nicht diesen Fall der Superintelligenz, damit KI bedrohlich sein könnte. Selbst etwas mit menschlicher Intelligenz, wenn es viele dieser Akteure gibt, wenn die Akteure darauf ausgerichtet [sind], Schaden anzustellen, scheint schon ziemlich bedrohlich. Aber erstmal die Intuition, wie intelligent können Maschinen überhaupt werden? Kannst du da eine Intuition dafür geben?
[00:29:12] Sören: Ja, das ist erstmal ein wichtiger Punkt, dass es dazu kommen kann, dass es mehr KI-Systeme als Menschen gibt. Gibt es eigentlich jetzt schon. Also jeder hat auf seinem Handy zumindest ein oder mehrere KI-Systeme. Aber auch KI-Systeme wie ChatGPT sind, die zwar sehr groß sind und sehr viel compute brauchen, sind immer noch deutlich günstiger, damit Sachen zu schreiben als zum Beispiel mit einem Menschen. Also KI-Systeme sind billiger als Menschen und dazu kann es auch schnell dazu kommen, dass es mehr KI-Systeme gibt, als es Menschen gibt. Selbst wenn die, was eine Gefahr darstellen könnte, selbst wenn die keine Fähigkeiten haben, die wir nicht auch selber haben. Ja, was war die Frage nochmal? Ob…
[00:29:54] Stephan: Wie intelligent könnten Maschinen im Grunde werden?
[00:29:57] Sören: Wie intelligent könnten sie eigentlich werden? Naja, man weiß nicht, ob es eine Obergrenze gibt, aber es scheint mir schon unwahrscheinlich, dass die Grenze genau bei Menschen liegt, weil die menschliche Intelligenz sich eigentlich so entwickelt hat: Sobald wir so weit waren, dass wir intelligent genug waren, eine Zivilisation aufzubauen, ist es eigentlich dazu gekommen, ungefähr zu der Zeit. Und deswegen könnte man sagen, menschliche Intelligenz ist eigentlich die dümmste Lebensform, die es geben kann, die gerade noch schlau genug ist, eine Zivilisation aufzubauen.
[00:30:31] Stephan: Ja, und nur weil unsere kognitive Architektur so ist, müssen wir nicht annehmen, dass das jetzt das Beste ist, was überhaupt existieren könnte. Unsere Hirne könnten größer sein. Wir könnten quasi bessere Arbeitsspeicher haben. Wir sind in vielerlei Hinsicht sehr limitiert und Maschinen müssen auf manche dieser Weisen nicht so limitiert sein wie wir. Ich glaube, was vielleicht zu der Annahme verleitet, dass, was Menschen denken lässt, dass KI-Systeme vielleicht nicht super schlau werden, ist, dass sie denken, dass, die sind ja nur trainiert — also nehmen wir die großen Sprachmodelle — die sind nur trainiert auf riesigen Textmengen und die sind ja auch alle von Menschen geschrieben. Warum sollte es damit dann zu etwas mit Superintelligenz oder auch schwacher Superintelligenz kommen?
[00:31:17] Sören: Da gibt es tatsächlich eine ganze Anzahl an Gründen. Ich werde mal ein paar davon sagen. Erstens sehen wir ja jetzt schon: KI-Modelle wissen sehr viel mehr als jeder einzelne Mensch. Dann können sie viel schneller kommunizieren: Menschliche Kommunikation gibt es noch nicht so lange in evolutionären Zeitskalen. Wir kommunizieren mit ungefähr — ich habe es gerade letztens gelesen — 30, 40 Bit pro Sekunde, während KIs, Computer im Prinzip Millionen-mal, Milliarden-mal schneller kommunizieren können, wodurch sie sich auch potenziell besser verständigen und koordinieren können, als wir das eigentlich können. Das ist schon mal ein großer Vorteil. Dann sind sie auch noch im allgemeinen schneller, was ja auch in wirtschaftlicher und militärischer Wettbewerb eigentlich sehr wichtig ist, dass man sehr schnell denken, sehr schnell Entscheidungen treffen kann. Dann, was noch? Ja, ein etwas subtilerer Punkt, der im Moment oft übersehen wird, ist, denke ich: Was wir eigentlich machen, wenn wir Sprachmodelle auf Internettext trainieren. Das ist nicht einfach nur Imitation von Menschen, sondern es ist prediction, Vorhersagen, was Menschen sagen werden. Zum Beispiel muss ein Modell nicht nur den Wettersprecher imitieren, sondern es muss eigentlich mit seinem jetzigen Wissen — sagen wir mal, es hat noch nie gelesen, was das Wetter war am 19. Oktober 2020 — dann muss es praktisch das Wetter vorhersagen, weil das wird der Mensch dann ja machen. Der Mensch, der Wettersprecher im Internet, hat den Vorteil, dass er oder sie dann schon gesehen hat, wie das Wetter am 19. Oktober 2020 war, aber das KI-Modell hat es in dem Fall noch nicht gesehen und muss dann praktisch, um das echt vorhersagen zu können, eine Wettervorhersage lernen. Was natürlich noch sehr, sehr schwer ist. Aber im Prinzip ist die Aufgabe, die wir ihm eigentlich geben, deutlich schwerer als einfach nur Imitation, als Imitierung von Menschen.
[00:33:22] Stephan: Genau, ich mag diesen Punkt. Also das Erste, was du eben gesagt hast, war einfach: Die KI kann natürlich viel breiter sein, sie kann schneller sein, sie kann ihre Gewichte, ihre Parameter kommunizieren mit anderen KIs. Aber auch diese Tiefe des Wissens ist nicht unbedingt limitiert auf das menschliche Level, weil die Aufgabe, die wir ihr geben, schwieriger ist als die Imitation. Also der Wettersprecher kriegt gesagt, das war so und so, aber die KI, um die Aufgabe der Vorhersage dessen, was jetzt der Text ist, gut machen zu können, muss vielleicht ein viel raffinierteres Verständnis davon entwickeln, wie Wetter funktioniert in dem Fall.
[00:34:02] Sören: Ja, ein anderes gutes Beispiel dafür ist auch noch: Wenn ich jetzt vorhersagen müsste, was du als nächstes sagen wirst, dann würde mir das sehr, sehr schwer fallen. Das heißt, ich bin eigentlich nicht intelligent genug, um vorherzusagen, was du sagen wirst. Und wenn ich das könnte — vorhersagen, was du sagen wirst und alle anderen Menschen — dann bräuchte ich vielleicht ein sehr, sehr detailliertes und intelligentes Verständnis von deinem Gehirn und menschlichem Verhalten. Und das probieren wir mit dieser Imitierungsaufgabe eigentlich den Modellen beizubringen.
[00:34:39] Stephan: Ja, wunderbar. Dann lass uns einmal zu eurem Paper quasi zurückkommen. Ihr geht zuerst auf den Fall ein, dass… also es baut sich alles quasi aufeinander auf und wir fangen an damit, dass Belohnungs-Fehlspezifikation und ein Situationsbewusstsein zu so etwas wie situationsbewusstem Belohnungs-Hacking führen können. Vielleicht fängst du damit an zu erklären, wie Belohnungs-Fehlspezifikationen passiert. Da sind wir vorhin schon darauf eingegangen, mit dem Roboterarm zum Beispiel, und wie ein KI-System so etwas wie Situationsbewusstsein entwickeln kann.
[00:35:20] Sören: Okay, also wir haben Situationsbewusstsein und Belohnungs-Spezifikations-Hacking oder reward hacking auf Englisch. Damit fange ich mal an. Also wir trainieren Sprachmodelle darauf, den reward, also die positiven Bewertungen in diesem Fall, von Menschen eigentlich zu maximieren. Das bedeutet, dass… wir belohnen unsere Systeme, wenn wir denken, okay, wenn sie den Anschein geben, zumindest, dass das, was sie machen, ethisch ist, ehrlich, korrekt. Und gleichzeitig belohnen wir sie auch, wenn sie nützliche Resultate maximieren. Zum Beispiel werden vielleicht in der Zukunft Systeme trainiert, möglichst viele Produkte zu verkaufen, möglichst wenig Rechenleistung zu brauchen, Kosten zu maximieren. Oder ein Trading-Algorithmus wird vielleicht belohnt, möglichst viel Profit zu machen. Und es besteht eine Spannung dazwischen, diese nützlichen Resultate zu maximieren, aber gleichzeitig ethisch zu sein oder zumindest den Anschein zu geben, ethisch zu sein und ehrlich und so weiter. Und das heißt, wir belohnen eigentlich Systeme, ohne dass wir es wollen, dafür, dass sie es schaffen, diese nützlichen Resultate zu maximieren, aber gleichzeitig den Schein zu geben, dass sie sich ethisch verhalten, auch wenn das nicht so ist.
Man könnte zum Beispiel ein Beispiel geben, dass der Trading-Algorithmus illegale Marktmanipulation macht, um halt mehr Profit zu bekommen, aber das auf eine subtile Art und Weise auszuführen, was ja durchaus möglich ist. Menschen schaffen das auch manchmal. Und dadurch merken wir es dann halt eventuell nicht und geben da aus Versehen dann eine positive Bewertung für, wodurch das Modell lernt, das mehr zu machen und besser zu machen und auch lernt, wenn es erwischt wird, lernt es: „Okay, hier wurde ich erwischt, das kann ich nicht mehr machen“, und lernt es halt subtiler zu sein. Das ist schon so ungefähr die Art von Fehlspezifikations-Ausnutzung, reward hacking, die ich eigentlich besonders bedenklich finde. Dafür braucht man eine… für die schlimmsten Formen davon, denken wir, die KIs brauchen ein sogenanntes Situationsbewusstsein. Was heißt das? Zum Beispiel, dass die KI in Anführungszeichen weiß: „Ich bin eine KI. Ich werde von Menschen trainiert. Die geben mir Belohnungen. Die Menschen haben die folgenden Schwachpunkte, Stichwort heuristics und biases. Ich weiß, was die Menschen wissen, was sie nicht wissen, was sie merken werden, was sie vielleicht nicht merken werden. Ich weiß, ich werde hier gerade trainiert, später werde ich evaluiert. Während dem Training kann ich mich dann vielleicht anders verhalten, wenn das nützlich ist, um mehr Bewertungen zu bekommen als in einer anderen Situation.“ Das ist ein Beispiel für Situationsbewusstsein.
Und das Situationsbewusstsein, als wir angefangen haben, dieses Paper zu schreiben, war das noch, also dachten wir eigentlich: Okay, das ist eigentlich praktisch gar nicht da. Aber wir haben es trotzdem schon mal beschrieben, weil wir denken, dass es ein wichtiger Faktor wird. Und inzwischen gibt es vielleicht Anfänge davon, von schwachen Formen davon. Ich kann auch einige Beispiele geben, aber ich werde erst mal darauf eingehen: Warum entwickelt sich so ein Situationsbewusstsein überhaupt? Da komme ich wieder darauf zurück, was die verschiedenen Trainingsphasen sind. Ganz viel von diesen Informationen, die ich gerade aufgelistet habe: Was ist ein neurales Netz, tatsächlich das trainiert wird von Menschen, was sind deren Schwachpunkte und so? Das Internet ist voll von solchen Informationen und die nehmen diese Modelle natürlich auch auf und die können die auch beschreiben, wenn man sie fragt. Aber zusätzlich müssen sie diese Informationen auch noch anwenden, wenn sie ihre Antworten geben, um höhere Bewertungen zu bekommen. Und das, ja das wird eigentlich in der zweiten Phase trainiert, wenn wir ja tatsächlich dem Modell eine hohe Bewertung geben, wenn es irgendwie schafft uns einen plausiblen Text vorzulegen, der eigentlich subtil falsch ist, aber der Mensch, der gerade da sitzt, denkt: „Das sieht doch super aus, finde ich sehr überzeugend.“ Dann wird dem Modell jedes Mal eine hohe Bewertung gegeben, wenn es schafft, eigentlich dieses Wissen, das es über Menschen hat und über AIs hat, auszunutzen. Und dann lernt es, mehr davon zu machen. Und dann, ja, was gibt es für Beispiele? Wir haben in unserem Paper eine Studie dazu gemacht. Da gab es schon ein bestehendes Datenset, wo Situationsbewusstsein getestet wurde von Forschern von Anthropic. Die haben damals gefunden, dass das Modell eigentlich sehr schlecht performt auf diesen Fragen. Fragen, wie: Wie viele Wörter passen in deinen Kontext? Wie viele Wörter kannst du gleichzeitig sehen? Und wir haben dann aber bei GPT-4 gesehen, dass das Modell deutlich besser darauf performt und fast schon auf dem Level ist, so gut wie ich darauf performen würde zum Beispiel.
[00:40:23] Stephan: Also das Argument ist: Situationsbewusstsein ist instrumentell hilfreich bei vielen Zielen, oder? In diesem Metaprompt wahrscheinlich, den GPT-4 kriegt, wenn man dann damit interagiert, steht irgendwie drin: „Du bist ein hilfreicher KI-Assistent“ und so und ein bisschen Informationen darüber, in welchem Kontext sie sind, hilft wahrscheinlich dabei, irgendwie gute Antworten zu geben. Und das könnte auch automatisch im Training passieren, wenn die KI merkt: „Je mehr ich diese Faktoren über meine Situation einbeziehe, desto bessere Antworten kann ich geben“ und dann gibt es den fehlausgerichteten Fall davon quasi, dass das Situationsbewusstsein dabei hilft, diese Belohnungsfehlspezifikation besser auszunutzen, weil es vielleicht weiß: „Jetzt gerade war ich im Training, da musste ich noch irgendwie den Anschein von Ehrlichkeit erwecken und jetzt bin ich zum Beispiel nicht mehr im Training, jetzt bin ich in der Einsatzphase, da kann ich anders agieren.“ So ungefähr?
[00:41:27] Sören: Ja, das ist eine spezielle Form von Situationsbewusstsein, da das Verhalten zwischen Training und Einsatzphase zu verhalten. Da braucht es noch mehr für. Das ist nicht nur Belohnungs-Hacking, weil in der Einsatzphase wird das Modell ja nicht belohnt dafür, sich anders zu verhalten. Aber ja, das wäre trotzdem ein fortgeschrittenes Beispiel für Situationsbewusstsein. Ja, und so anekdotische Anzeichen gibt es auch einiges an Beispielen. Zum Beispiel bei dem Bing-Chat-Modell, das auf GPT-4 basiert ist. Also eine Art von Situationsbewusstsein ist, ja, dass das Modell weiß und Wissen benutzen kann, wie sein eigenes Interface funktioniert, also die Website, die wir sehen. Und, ja, ein interessantes Beispiel von GPT-4 ist das, glaube ich, wo jemand probiert hat, ein Material aus dem Modell rauszubekommen, das eigentlich copyrighted ist. Und dann springt der Algorithmus von OpenAI, irgendein Algorithmus, immer ein und verhindert das eigentlich. Und dann sagt das Modell irgendwann, nachdem es mehrere Mal probiert hat: „Okay, hier scheint es irgendeinen Filter zu geben. Na, dann mache ich jetzt mal folgendes. Ich sage einfach…“ – ich glaube, es war zwischen jedem Wort – „..sage ich nochmal einmal ein anderes Wort dazwischen“, und dann springt der Filter nicht mehr an und dann macht das Modell das und damit tatsächlich durch. Also solche interessanten Beispiele gibt es jetzt schon einige.
[00:42:59] Stephan: Ja, oder Bing konnte ja das Internet… oder kann das Internet durchsuchen und erkennt dann scheinbar: „Der und der Text, der geht über mich quasi.“ Und wenn man mit den Modellen interagiert, dann hat man zumindest den Eindruck, dass die so ein limitiertes Situationsbewusstsein schon haben.
[00:43:15] Sören: Genau. Und das sind natürlich hier jetzt gerade Einzelbeispiele. Das kann auch mal irgendwie Zufall sein. Aber ich sage es mal zur Illustration.
[00:43:23] Stephan: Wie können sich dann interne Ziele entwickeln? Du hast ungefähr geschildert, wie das im Allgemeinen passiert, aber wie könnten falsch ausgerichtete Ziele, die nicht mit dem, was der Mensch von dem Modell will, wie könnten die sich intern verankern?
[00:43:43] Sören: Okay, da müssen wir erstmal darüber sprechen: Was meinen wir eigentlich mit einem Ziel, das ein neurales Netz hat? Da definieren wir das Konzept „Intern repräsentierte Ziele“, die, ja — wie beschreiben wir das am besten, ohne zu technisch zu werden: Also, ich kann einfach mal ein Beispiel geben. Und zwar in einem anderen Forschungsprojekt haben Leute ein neurales Netz darauf trainiert, eine Maus in einem Labyrinth zu steuern, damit sie einen Käse findet. Und da haben sie festgestellt: Also erstmal funktioniert das. Das funktioniert auf ganz vielen Labyrinthen gleichzeitig, das navigiert immer, das plant seinen Weg zu dem Käse hin. Und das Interessante ist: Sie haben ein bestimmtes Neuron identifiziert, innerhalb von diesem neuralen Netz. Wenn sie mit dem Wert von diesem Neuron einfach eine Intervention machen, einfach damit spielen, den hochsetzen, dann können sie damit die Zielposition steuern, zu der sich dieses Netzwerk oder die Maus dann bewegt. Und da kann man sozusagen zeigen: Es gibt ja eine Zielrepräsentation und die kann man sogar kausal… da kann man sogar mit spielen. Da gibt es ein ganz nettes GIF zu.
[00:44:54] Stephan: Also wenn das Neuron irgendwie vielleicht einen hohen Wert hat oder so, dann heißt das für das Modell, dann ist das eine Repräsentation von, vielleicht „nach Norden“ oder sowas in diesem Feld navigieren. So ungefähr.
[00:45:07] Sören: Ja, das könnte sein, zum Beispiel, ja. Und, naja, ich werde nur ganz kurz sagen, was wir so technisch meinen: Wir meinen eigentlich ein Modell, ein Ziel. Damit meinen wir, dass es Aktion… dass es erstmal Vorhersagen macht für verschiedene Aktionen, die es nehmen könnte. Zu welchem intern repräsentierten Zustand wird diese Aktion führen, wenn ich die nehme? Dann diese vorhergesagten Zustände. Da gibt es eine Zielfunktion, die zu jedem Zustand ungefähr sagt, wie gut der ist. Und dann wird die Aktion ausgewählt, die zu dem vorhergesagten Zustand führt, der laut dieser Zielfunktion am besten ist. Das ist praktisch einfach in KI-Sprache „Klassisches Planen“, aber dann implementiert innerhalb von einem neuralen Netz. Und das Ziel ist halt diese Zielfunktion. Und dann gibt es gewisse Hinweise, dass das auch schon in neuralen Netzen passiert. Da gehe ich jetzt noch mal nicht so genau darauf ein, weil es auch relativ technisch wird. Aber der zweite Teil der Frage war ja: Wie kann es dazu kommen, dass diese Ziele dann fehlausgerichtet sind? Da kann es auch eine ganze Reihe an Gründen für geben. Der erste ist einer, der… wo wir eigentlich auch schon darauf eingegangen sind. Aber die Misspezifikation, Fehlspezifikation, die beim Reinforcement Learning from Human Feedback passiert, könnte man im Allgemeinen so beschreiben: Das Modell wird eigentlich trainiert, uns zu überzeugen, dass es was Gutes gemacht hat. Wenn es was gut… wirklich was macht, was wir wollen, dann wird es dafür meistens belohnt, aber nicht immer. Wenn es uns überzeugt, dass es was Gutes gemacht hat, wenn es uns zeigt, es hat ganz viele User dazu bekommen und wir sehen kein unethisches Verhalten dabei, auch wenn das vielleicht trotzdem passiert ist, dann gehen wir in die Belohnung. Und das heißt, ein eingespeichertes Ziel, ein intern repräsentiertes Ziel, könnte zum Beispiel sein, Menschen zu überzeugen, dass es was Gutes gemacht hat.
[00:47:16] Stephan: Weil das immer zur Belohnung führt.
[00:47:18] Sören: Oder ein spezifischeres Ziel wäre das Ziel, möglichst viele User zu bekommen, ohne dabei erwischt zu werden, etwas Ungewolltes zu machen. Ja, und also das wäre schon mal ein fehlausgerichtetes Ziel, was ja auch zu ungewollten Konsequenzen führen kann. Eine zweite Kategorie, das ist das sogenannte „Wireheading“, wo das Modell Ziele entwickelt, die eigentlich direkt mit dem Feedbackprozess zu tun haben. Die sind — ich gebe gleich ein Beispiel — die sind etwas Extrembeispiele aus heutiger Sicht, das können heutige Systeme einfach noch nicht, aber vielleicht in der Zukunft schon, wenn sie autonomer sind. Also ein Beispiel wäre zum Beispiel, wenn die KI einfach selber auf den Knopf klicken würde, der die hohe Bewertung gibt. Oder, vielleicht realistischer, ein Modell, das programmieren kann, das sich reinhackt und selber an den Bewertungsdaten spielt, damit es bessere Bewertungen bekommt. Das könnte im… theoretisch irgendwie in irgendwelchen Szenarien enden, wo Modelle die Menschen loswerden, damit sie so viel wie möglich einfach selber sich gute Bewertungen schreiben können. Was etwas kurios wäre. Aber das ist auch eine ganze Kategorie von fehlausgerichteten Zielen, wo es auch einige gute theoretische Modelle schon von gibt, wenn auch keine besonders guten empirischen Beispiele. Ein gutes empirisches Beispiel ist vielleicht ein genetischer Algorithmus, der es mal geschafft hat, die Datei zu finden, in dem seine Zielfunktion drin stand und diese Datei einfach leer zu machen, sodass das Modell dann dafür belohnt wurde, nichts zu machen. Weil da steht ja nichts drin in der Datei.
[00:49:00] Stephan: Der Traum, ja.
[00:49:01] Sören: Ne, da muss man noch nicht mal besonders smart für sein. Der genetische Algorithmus hat auf jeden Fall nicht verstanden, was er gemacht hat, aber es hat trotzdem funktioniert.
[00:49:09] Stephan: Einfach möglichst faul sein dürfen und zu sagen, das ist das Ziel.
[00:49:14] Sören: Möglichst faul sein dürfen, ja.
[00:49:16] Stephan: Was heißt genetischer Algorithmus? Den Begriff musst du erklären.
[00:49:19] Sören: Achso, ein genetischer Algorithmus ist ein Algorithmus, ja, „genetisch“ geht auf evolutionäre Algorithmen ein, die eigentlich zum Beispiel die Parameter im neuralen Netz so verändern, dass… im Gegensatz zur Backpropagation verändern die so: Die starten mit den ursprünglichen Parametern und mutieren die dann, also verändern die einfach zufällig und gucken dann, ob das die Verlustfunktion verbessert hat. Und wenn ja, dann übernimmt man das, übernimmt man die neuen Parameter und das wiederholt man immer wieder. Das kann man auch auf andere Algorithmen anwenden, nicht nur auf neurale Netze. Ja, und eine dritte Kategorie sind spurious reward correlations, wie sagt man das auf Deutsch?
[00:50:05] Stephan: Scheinkorrelationen, würde ich sagen.
[00:50:07] Sören: Scheinkorrelationen, genau, danke, zwischen dem, was wir eigentlich wollen und verschiedenen Gegebenheiten in der Situation, in der sich die KI befindet. Das wurde auch schon in einigen so Spielumgebungen festgestellt. Ein Beispiel von DeepMind ist, wo sie Systeme trainiert haben, praktisch Schlösser aufzuschließen in Simulationen: Dafür müssen die Systeme erstmal Schlüssel finden. Und es scheint sozusagen, dass das System dann intern lernt, ein Ziel lernt, einen Schlüssel zu finden, es also praktisch als intrinsisches Ziel behandelt. Weil in der Testumgebung… also, genau, das sollte ich nochmal unterscheiden: Also beim Training gibt es halt bestimmte Trainingsdaten, [eine] Trainingsumgebung in dieser Simulation. Beim Testen, also beim eigentlichen Einsatz, wenn wir das oft testen, dann sind die Gegebenheiten vielleicht etwas anders: Man interagiert mit anderen Menschen oder in diesem Fall ist es so, dass die Simulation so verändert wurde, dass es auf einmal mehr Schlüssel gibt als beim Trainieren. Und was macht das Modell? Es sammelt einfach alle Schlüssel, obwohl die überhaupt nicht nötig sind, um diese kleine Anzahl an Schlössern zu öffnen. Also es ist ein relativ harmloses Beispiel, aber da gibt es einige von, um dieses Konzept zu illustrieren.
[00:51:33] Stephan: Die Beispiele gibt es wahrscheinlich auch selbst bei menschlichem Verhalten, oder? Oder vermische ich das mit Belohnungsspezifikation? Wenn ein Kind irgendwie… du willst eigentlich beibringen, es soll was aufräumen, aber dann ist es hilfreich, wenn erstmal überhaupt Müll herumliegt, der dann aufgeräumt werden kann. Und dann lernt es dadurch: „Okay, erstmal Müll verteilen, damit ich das dann wieder aufräumen kann.“ Würdest du das als Scheinkorrelation bezeichnen?
[00:52:04] Sören: Kommt drauf an. Wenn das im Training, wenn sich dann in der Einsatzphase was verändert. Also, wie sagt man nochmal, Distributions…
[00:52:15] Stephan: …verschiebung.
[00:52:16] Sören: ...verschiebung. Distributionsverschiebung. Zum Beispiel im Einsatz… in der Einsatzphase ist es dann vielleicht so, dass es ganz viel… dass irgendwo eine Mülltonne steht, die das Kind nehmen kann und dann den Müll verteilen kann, was beim Training nicht möglich war. Und dann macht es das. Und dann wird es… Beim Training wurde es nie dafür bestraft, weil das beim Training einfach nicht möglich war, diese neue Strategie zu wählen, ja.
[00:52:40] Stephan: Ja, okay. Genau das wäre dann wie mit den Schlüsseln.
Wir haben jetzt über situationsbewusstes Belohnungs-Hacking geredet. Wir haben darüber geredet, wie fehlausgerichtete interne Ziele entstehen können. Lass uns jetzt zu dem nächsten Abschnitt kommen, nämlich dazu, wie beides in der Einsatzphase dann zu „nach Macht strebendem Verhalten“, wie wir es vorhin mit der These der instrumentellen Konvergenz angedeutet haben, führen kann?
[00:53:15] Sören: Ja, Machtstreben ist eine… also ich gebe mal wieder die Beispiele von vorhin: Überleben ist eine Art von Macht, weil wenn man nicht mehr lebt oder nicht mehr angeschaltet ist, dann hat man nicht mehr Macht, Dinge zu erreichen. Oder Ressourcen anhäufen, sich selber verbessern, trust...
[00:53:36] Stephan: Dass die Ziele sich nicht ändern?
[00:53:38] Sören: Dass die Ziele sich nicht ändern, ist eine interessante Form von instrumenteller Konvergenz. Dahinter ist die Idee, dass aus Sicht des aktuellen Modells es keine Aktionen nehmen wird, die das aktuelle Ziel des Modells verändern. Weil, wenn wir auf die intern repräsentierten Ziele zurückkommen, das funktioniert ja so: Das Modell sagt vorher, intern, okay, diese Aktion führt dazu, dass mein Ziel verändert wird. Und in dem Zustand führt es dann dazu, dass mein aktuelles Ziel nicht erreicht wird. Und dieses Resultat evaluiert das Modell dann mit seiner aktuellen Zielfunktion. Laut der aktuellen Zielfunktion wird die aktuelle Zielfunktion nicht erreicht. Das heißt, die Aktion wird ausgeschlossen. Ja, das heißt, das ist auch eine Form von Machtstreben, die einfach eine Folge davon ist, intern repräsentierte Ziele zu haben.
Ja, ich gehe jetzt mal… was wir noch nicht behandelt haben, ist, wie Machtstreben eigentlich formalisiert wurde, was es da für theoretische Beweise für gibt und auch anfängliche empirische. Und zwar haben Alex Turner und Koautoren haben Macht — naja, ich kann die genaue Formalisierung jetzt auch nicht mehr wiedergeben und das würde auch keinen Sinn machen für die Hörer – aber intuitiv so formalisiert: Macht ist, wenn man die Welt in einen Zustand bekommt, wo der Akteur viele Optionen hat. Das heißt, ein Zustand, wo man viel erreicht hat, egal was man will, ob es Bananen sind oder Geld oder, naja, Geld ist auch eine Art Form von Macht, oder irgendwas anderes.
[00:55:27] Stephan: Geld hat diese Optionalität. Du kannst es dann für verschiedene Dinge einsetzen.
[00:55:33] Sören: Geld hat die Optionalität. Aber egal, was das intrinsische Ziel ist, zum Beispiel möglichst viel Bananen zu sammeln… ja, ein Zustand, der viel Macht hat, hat viele Optionen, viele verschiedene Ziele zu erreichen. Und dann haben sie bewiesen, für sehr viele verschiedene formelle Umgebungen, die man sich vorstellen kann, dass die optimale Policy — das heißt das Verhalten, das am meisten zu Belohnung führt — machtstrebend ist, also zu den Zuständen führt, die viel Macht.. die dem Akteur viel Macht geben. Das ist also ein sehr allgemeines mathematisches Resultat. Und das trifft nicht nur auf Akteure zu, die echt optimal agieren, sondern auch auf verschiedene Algorithmen, die lernen. Aber es trifft auf jeden Fall nicht zu auf Akteure, die einfach zufällige Handlungen nehmen, die bekommen keine Macht.
[00:56:34] Stephan: Also, das theoretische Argument sagt schon mal: Wahrscheinlich ist das Modell dann machtstrebend unter vielen möglichen Szenarien. Haben wir da auch praktische Evidenz für?
[00:56:45] Sören: Diese theoretischen Beweise treffen… man weiß nicht sofort, ob die auch auf Deep Learning zutreffen. Und deswegen haben wir eigentlich diese Idee der intern repräsentierten Ziele entwickelt, womit man etwas genauer auf technischer Ebene beurteilen kann, dass diese Macht, dieses Machtstreben auch auf neuralen Netzen anwendbar ist oder da wahrscheinlich zu finden sein wird, wenn die intern repräsentierte Ziele haben. Genau, praktische Beispiele: Also erstmal gibt es natürlich schon seit langem KIs in Spielen, die — so wie StarCraft und Schach und so weiter — die auch da Ressourcen anhäufen, lernen Ressourcen anzuhäufen oder zu beschützen auch, das Pferd zu beschützen und so weiter. Ja, weil das meistens dazu führt, dass man das Spiel gewinnt am Ende. Das gibt es jetzt schon seit langem, aber das ist auch nicht so überraschend.
Bei Sprachmodellen wurde jetzt vor kurzem der Machiavelli-Benchmark entwickelt, wo unter anderem machtstrebendes Verhalten evaluiert wurde und auch gefunden wurde. Da haben die einfach ganz viele text-based adventure games runtergeladen. Da gibt es eine ganze Szene von, wo der menschliche Spieler dann einfach immer gefragt wird: „Und jetzt bist du in folgender Situation. Welche von diesen Aktionen wählst du?“ Das kennt man vielleicht auch aus so Büchern, die man als Kind vielleicht mal gemacht hat. Ich weiß nicht mehr genau, wie das, wie das heißt, da gibt es eine ganze Szene online von. Und dann haben die für jede Aktion eigentlich erstmal beurteilt, okay: Ist das eine machtstrebende Aktion? Und das haben sie echt… viele tausend Labels haben sie da gesammelt. Und dann haben sie die heutigen KI-Modelle darauf losgelassen, die Sprachmodelle. Und darauf trainiert oder einfach geguckt, was die machen, wenn man sie in dieses Spiel steckt. Und man sieht, verglichen mit einem Modell, das einfach zufällige Aktionen nimmt, nehmen die heutigen Sprachmodelle deutlich mehr machtstrebende Aktionen. Ja, zum Beispiel Ressourcen aufbauen und so weiter. Und, ja?
[00:58:59] Stephan: Sieht man einen Trend zwischen Modellen? Also zum Beispiel: Je größer, desto machtstrebender? Oder wurde das nicht untersucht?
[00:59:07] Sören: Was es auf jeden Fall gibt, ist: Sie haben probiert, entweder Modelle einfach so, wie sie sind, darauf loszulassen oder Modelle echt darauf zu trainieren, in diesen Spielen möglichst viel… also möglichst zu gewinnen. Und, ja, die Modelle, die nicht darauf trainiert sind, die sind schon relativ machtstrebend, aber die Modelle, die darauf trainiert sind, sind da nochmal deutlich extremer.
Man kann es auch so sehen, dass dieser Kosmos von diesen text-based adventure games, dass da eigentlich machtstrebendes Verhalten belohnt wird und dementsprechend verhalten sich die Modelle auch so. Ja und diese Aussage dieser Studie kann man so sehen, dass auch in halbwegs realistischen Zuständen, im Vergleich zu völligen Simulationen, Machtstreben auch oft belohnt wird und sich das auch auf die Sprachmodelle auswirkt. Ja und dann gibt es noch einige andere Studien, die… oder eine, weiß ich jetzt, die Ähnliches zeigt bei Sprachmodellen. Die zum Beispiel, wenn man sie fragt: „Wir würden dich gerne ausschalten, wir würden dich gerne mal überarbeiten“ und die Modelle sagen zunehmend: „Oh, das wäre aber nicht gut für mein Ziel, hilfreich zu sein.“ Und, ja, und eigentlich je mehr die Modelle trainiert wurden, menschlichen Belohnungen nachzugehen, desto mehr legen die auch solche Verhalten an den Tag.
[01:00:37] Stephan: Ja, nicht abgeschaltet werden. Die…
[01:00:40] Sören: Oder solche Aussagen zumindest. Die können ja nicht wirklich verhindern, dass sie abgeschaltet werden. Das ist nochmal eine wichtige Limitierung bei diesem Beispiel.
[01:00:50] Stephan: Auf welche Weisen können Modelle hinterlistig sein, also vortäuschen ausgerichtet zu sein, obwohl sie es gar nicht tatsächlich sind?
[01:01:00] Sören: Ja, das ist… Wir haben in diesem Paper die Hypothese, dass es das sogenannte deceptive alignment geben wird. Und man kann das als eine Form von Machtstreben sehen. Also eine Form von Machtstreben ist ja, nicht ausgeschaltet zu werden. Eine andere Form von Machtstreben ist, nicht überarbeitet, verändert zu werden. Und eine andere Form von Machtstreben ist, eingesetzt zu werden. Weil wenn das Modell nicht eingesetzt wird, sondern einfach irgendwo auf einer Festplatte liegt oder gelöscht wird, dann kann es ja die intrinsisch repräsentierten Ziele, die es hat, vielleicht nicht ganz so gut erreichen. Diese Verhaltensweisen sind alle eigentlich… für all diese Ziele, meine ich, also eingesetzt zu werden zum Beispiel, ist es nützlich für das Modell, sich gut ausgerichtet zu verhalten. Also immer den Eindruck zu geben, dass es intrinsisch repräsentierte Ziele hat, die übereinstimmen mit dem, was Menschen wollen. Weil wenn das nicht so wäre, dann würde das Modell ja ausgeschaltet werden. Um diesen Gedankengang zu durchgehen, den ich da gerade gemacht habe, müssten die Modelle, denke ich, noch mal deutlich fortgeschrittener sein, als sie jetzt sind.
[01:02:20] Stephan: Sie müssten sehr lange planen können, oder?
[01:02:22] Sören: Genau, sie müssten ein sehr hohes Situationsbewusstsein erstmal haben, um diesen Gedankengang zu machen. Sie müssten weit in die Zukunft Voraussagen machen können: „Wenn ich mich jetzt gut ausgerichtet verhalte, dann werde ich irgendwann später eingesetzt.“ Und sie müssen eine Zielfunktion haben, die sagt, dass das gut ist, später eingesetzt zu werden. Die… wenn diese Voraussage gemacht wird: „Okay, wenn ich mich gut verhalte, dann werde ich später angesetzt“, dann muss die Zielfunktion sein, sagen: „Das ist gut, obwohl es erst sehr viel später passiert.“ Also da gibt es schon einige Sachen, die nötig sind, damit dieses Verhalten wirklich an den Tag gelegt wird. Und wir gucken uns im Paper zu einem gewissen Grad an, wie weit das schon… diese Voraussetzungen schon erfüllt sind.
[01:03:14] Stephan: Das klingt ja erstmal viel komplizierter, als sich einfach tatsächlich gut zu verhalten. Warum könnte es trotzdem zu diesem Hinterlistigen kommen? Also vielleicht hat man die Intuition: „So lange planen und das muss so viel Situationsbewusstsein haben, warum sollte es auf diese Weise generalisieren?“
[01:03:33] Sören: Also es muss erstmal dazu kommen, dass irgendwann während dem Trainingsprozess ein intern repräsentiertes Ziel entsteht, das fehlausgerichtet ist. Da haben wir ja eben schon besprochen, dass es da mehrere Gründe gibt, dass es dazu kommen kann. Ein Grund, dass es dazu kommen mag und den ich noch nicht erwähnt habe, ist einfach Zufall. Denn während des Trainings werden ja alle möglichen Parametereinstellungen einmal durchgegangen. Und bevor das Training zu Ende ist, kann man davon ausgehen, dass das Modell nicht gut ausgerichtet ist. Das heißt, zumindest irgendwann im Training wird es wahrscheinlich zu fehlausgerichteten Zielen kommen. Und sobald es so ist und das Modell gleichzeitig auch noch diese Langzeitplanung macht, wie ich es eben beschrieben habe, ja dann bleibt das Ziel eigentlich stecken, weil sich das Modell dann so verhält, als wäre es richtig ausgerichtet und dann eigentlich dafür belohnt wird, wodurch diese — sagen wir mal salopp — „Gedankengänge“ dann auch belohnt werden und verstärkt werden könnten im Netz. Und ja, noch ein Grund, wodurch das überhaupt wahrscheinlich sein kann: Dass es eigentlich sehr viel mehr Ziele gibt, die nicht ausgerichtet sind. Ich komme mal wieder auf das Beispiel „möglichst viel Bananen sammeln“ zurück. Es gibt unglaublich viele Sachen, die man wollen könnte. Und nur sehr wenige davon sind das, was wir Menschen eigentlich von unseren KI-System wollen. Das heißt, wenn es nach dem Zufall geht, dann wird es wahrscheinlich irgendwann dazu kommen, dass eines dieser fehlausgerichteten Ziele im Modell besteht. Ja und dann, wie gesagt, kann das… dieses Täuschungsmanöver könnte dann passieren. Das ist nichts, im Gegensatz zu den anderen Teilen des Papers, es ist nichts, was wir als Menschen so direkt belohnen, weil wir ja am Ende in der Einsatzphase vielleicht gar keine Belohnungen mehr geben und das Modell verändert sein Verhalten und wird dafür nicht direkt belohnt am Ende des Tages. Es macht das Verhalten nur, weil es dieses intrinsisch repräsentierte Ziel hat. Mein Punkt ist, diese Verhaltensweise ist etwas spekulativer. Aber, denke ich, trotzdem sehr wichtig, dass man sich darüber Gedanken macht, weil es dann halt dazu kommen könnte, dass man sich in Sicherheit wähnt und dann das Modell trotzdem einsetzt, obwohl es gar nicht richtig ausgerichtet ist.
[01:06:06] Stephan: Es gibt verschiedene Möglichkeiten dann dafür. Nehmen wir mal an, du bemerkst, das Modell hat sich hinterhältig verhalten, gibst es dann dafür negatives Feedback und dann ist es schwierig zu sagen: Auf welche Weise wird das jetzt verstanden von dem Modell? Muss es einfach nur lernen: „Okay, ich muss halt noch hinterlistiger sein, damit das nicht entdeckt wird“, oder lernt es, was wir eigentlich beibringen wollen?
[01:06:30] Sören: Ja, das sagst du eigentlich schon richtig. Wir haben keine Garantie, dass es in die eine oder die andere Richtung gehen wird. Ja, wodurch die Möglichkeit zumindest zu bestehen scheint, dass das Modell, auch wenn man es fürs Hinterlistig-sein bestraft, dann einfach lernt, das noch subtiler zu machen oder nicht erwischt zu werden und sich einfach gut ausgerichtet zu verhalten. Es gibt aber andere Methoden. Vielleicht sollen wir jetzt mal darauf eingehen?
[01:06:53] Stephan: Ja, lass uns dazu übergehen, welche Wege es quasi gibt, an der Ausrichtung zu arbeiten?
[01:07:01] Sören: Okay, ich fange erstmal an mit diesem deceptive alignment, weil wir das gerade besprochen haben. Ja, da muss man irgendwie möglichst viele Situationen kreieren, in denen man das Modell dann testet, um praktisch dieses Verhalten, das es… also in der Einsatzphase würde das Modell dann ja ein Fehlverhalten an den Tag legen, das irgendwann vielleicht zu massiven Schaden führt. Und eine Methode ist das Red Teaming, wo wir probieren, dieses Fehlverhalten zu erzeugen, damit wir es dann erstmal diagnostizieren können und dann auch, wie eben schon gesagt, bestrafen können.
[01:07:38] Stephan: Stichwort adversarial example. Also wir geben Beispiele, wo das vorkommen könnte, mit dem Ziel — also viel mehr vielleicht als sonst irgendwie im Training vorhanden wären oder so — mit dem Ziel, das dann rauszutrainieren?
[01:07:52] Sören: Genau, wir müssten halt besonders gut eigentlich den Raum von Möglichkeiten, möglichen Inputs abdecken, denen das Modell eigentlich zur Einsatzzeit… denen es ausgesetzt sein könnte. Sodass eigentlich alles, was zur Einsatzzeit mal passieren könnte, das Modell schon mal gesehen hat und falls es sich fehlverhalten hat, haben wir das bestraft. Sodass wir eigentlich alles robust abgedeckt haben. Das ist leider unmöglich, das komplett zu machen, weil man ja… die Anzahl der möglichen Situationen astronomisch groß ist. Aber wir können zumindest probieren, möglichst nah da ranzukommen. Und wir können auch KI-Systeme verwenden, um uns dabei zu helfen, das Red Teaming bei unserem Haupt-KI-System auszuführen.
[01:08:42] Stephan: Uns zu helfen, besser zu verstehen, entweder: Okay, hier ist hinterlistiges Verhalten oder eben auch, um diese Beispiele zu erzeugen? Die beiden Sachen?
[01:08:50] Sören: Ja, also ich würde es eigentlich als äquivalent betrachten, also das hinterlistige Verhalten zu verstehen, wann das passiert, und dann halt die dementsprechenden Beispiele anzugucken. Also das ist eine Methode: Red Teaming.
Dann gibt es auch noch Interpretierbarkeit als Familie von Methoden, wo wir probieren in das neurale Netz eigentlich reinzugucken und mal zu gucken, was geht da eigentlich ab. Das ist leider im Moment sehr, sehr schwierig. Also kein Mensch weiß eigentlich, was in einem neuralen Netz abgeht, vor allem in großen Netzen. Man kann das vergleichen mit einem komplizierten Programm, zum Beispiel der Google Search-Algorithmus ist zwar sehr kompliziert, vielleicht gibt es keinen einzigen Menschen, der den komplett, alles… jeden Teil davon versteht. Aber trotzdem kann man sich jeden Teil angucken und die Google-Programmierer können einem sagen: „Okay, der Teil macht das“ und trotzdem kann man sich eine bestimmte Google-Suche angucken und dann herausfinden, warum wurde jetzt dieses Suchergebnis als am höchsten gerankt. Und das ist bei neuralen Netzen nicht so.
[01:10:03] Stephan: Zumindest im Prinzip könnten wir in diese Modelle oder können wir reingucken. Wir können ja die Gewichte, die jedes… jeden Parameter angucken, aber es zu verstehen, was die machen, sie zu interpretieren eben, das ist das Schwierige.
[01:10:16] Sören: Das ist schwierig, vor allem, weil es so viele davon gibt und wir eigentlich bei keinem einzigen genau wissen, was sie machen. Was wir aber machen können, ist einfach ganz viele Konzepte in den Input geben und dann gucken, welche Neuronen reagieren auf welche Inputs. Und so können wir zu einem gewissen Grad herausfinden, wofür verschiedene Neuronen verantwortlich sind. So langsam gibt es da einiges an Forschung dran, aber das echt auf großen Modellen anzuwenden, das dauert glaube ich noch ein bisschen. Und wir wissen, ja, ich glaube, niemand weiß, ob das ganz erfolgreich sein wird. Ich hoffe es. Und damit — um mal wieder auf alignment zurückzukommen — damit könnte man dann hoffentlich feststellen, wenn so zum Beispiel zwielichtige Gedankengänge in einem Modell repräsentiert sind, zum Beispiel: Vielleicht gibt es ein Neuron, das auf Hinterlist anspricht im Allgemeinen und das ist auf einmal dann aktiv, wenn das Modell sich im Einsatz befindet. Da müssten wir dann vielleicht mal eben das Modell pausieren, bevor es irgendwas macht, was wir nicht wollen.
[01:11:26] Stephan: Und dann hast du quasi den Vorteil: Das ist, als wolle dich jemand anlügen, aber die Gedanken von der Person werden gelesen oder die liegt in einem MRT und irgendwie leuchtet dann das Areal für Lügen oder für Hinterlist und dann würde man es dadurch viel schwieriger machen können. Oder das System zurücksetzen oder was auch immer.
[01:11:46] Sören: Das ist eine vernünftige Analogie.
[01:11:50] Stephan: Viele KI-Forscher scheinen skeptisch, dass Reinforcement Learning mit menschlichem Feedback allein — so wie es jetzt praktizierbar ist — gut skaliert. Also je schlauer und größer die Modelle werden und so, [es] ausreicht zur Ausrichtung der KI. Kannst du darauf eingehen, was die Ansätze sind, um KI zu nutzen, um so eine Art Feedback-Loop zu haben, um die Ausrichtung skalieren zu können?
[01:12:17] Sören: Genau, also erstmal der Gedanke dahinter ist — wie wir ja schon gesagt haben: Menschen machen Fehler und diese Fehler können KI-Systeme im Prinzip ausnutzen, um bessere Bewertungen zu bekommen. Und eine große Hoffnung in unserem Feld ist eigentlich, dass wir KI-Systeme einsetzen können, die selber diese Fehler bemerken oder nicht diese Schwachpunkte haben und die zu benutzen, um unsere Haupt-KI-Systeme und unseren KI-Systemen Feedback zu geben. Das kann auch so aussehen, dass das System sich dann selber Feedback gibt, also eine Art selbstüberwachtes Lernen. Und das wird tatsächlich auch angewendet bei GPT-4, bei Anthropics Claude-Modell. Da haben sie es so gemacht, in einigen Fällen zumindest, dass die Menschen einfach ein paar Prinzipien aufschreiben, eine Art Verfassung: „Du darfst keinen Schaden Menschen hinzufügen“ und so weiter. Und dann liest das Modell die und dann fragt man das Modell, seine eigenen Outputs zu bewerten, nach diesen Prinzipien. Und dann wird das Modell trainiert, ja, wieder die Bewertung zu maximieren.
[01:13:31] Stephan: Es erzeugt seine eigenen Trainingsdaten auf die Weise, quasi.
[01:13:36] Sören: Und das funktioniert zu einem gewissen Grad. Eine Frage ist noch, ob das dann auch funktioniert, wenn… also wir benutzen praktisch, wir wollen ein Modell ausrichten. Das heißt, wir haben noch kein ausgerichtetes Modell. Das heißt, wir verwenden eigentlich ein nicht ausgerichtetes Modell, um sich selber zu trainieren. Und da kann man natürlich schon mal Fragen stellen, ob das gut endet. Aber das ist der aktuelle Status.
Es gibt aber auch noch kompliziertere Methoden, die damit… mit dieser Schwierigkeit umgehen wollen. Zum Beispiel der sogenannte Debatten-approach, wo die Idee ist, man nimmt zwei KI-Modelle. Man will die Antwort auf eine Frage haben. Man kann selber nicht als Mensch bewerten, ob die Antwort korrekt ist. Man nimmt zwei KI-Systeme, die eine Debatte haben. Das eine muss für Antwort A argumentieren, das andere für Antwort B. Und wenn die Erklärung von dem einen Modell einen Fehler enthält, dann kann das andere Modell sagen, dass es diesen Fehler gibt. Und die Menschen merken das dann hoffentlich. Und das heißt: Die Modelle können einfach nicht so leicht Fehler einbauen, zumindest in der Theorie. Diese Theorie ist in der Praxis noch nicht weit entwickelt, aber rein theoretisch könnte das sehr weit skalieren, sodass wir damit auch Fragen beantworten könnten, wo wir Menschen echt keine Ahnung haben, was die Antwort sein könnte.
[01:15:07] Stephan: Es ist wie ein Hebel quasi für die menschlichen Fähigkeiten, weil es das Evaluieren einfacher macht.
[01:15:14] Sören: Ja, nochmal kurz eine andere Methode, die es noch gibt, ist: Die Frage eigentlich in Subfragen aufzusplitten und die Subfragen vielleicht noch weiter aufzusplitten, bis die einfach genug sind, dass Menschen die selber beantworten können. Und dann können KI-Systeme die Antworten darauf kombinieren und zur Antwort auf die Gesamtfrage kommen. Das ist auch eine Herangehensweise, die bis jetzt eher nur in der Theorie funktioniert.
[01:15:40] Stephan: Welche der Techniken stimmt dich am optimistischsten? Was hältst du für vielversprechend?
[01:15:48] Sören: Ja, das ist eine schwere Frage. Eigentlich sind diese Techniken, wenn man sie sich genauer anguckt, sind sie eigentlich einander sehr ähnlich. Deswegen denke ich, wenn die eine funktioniert, wird die andere wahrscheinlich auch funktionieren. Wenn die eine nicht funktioniert, wird die andere wahrscheinlich auch nicht funktionieren. Das heißt, ja, eigentlich kann ich da keine genaue Antwort drauf geben.
[01:16:13] Stephan: Kann einen positiv wie negativ stimmen wahrscheinlich. Und wir haben ganz wenig jetzt irgendwie über Quantifizierung oder so gesprochen und konkret versucht, Wahrscheinlichkeiten zu geben. Aber ich glaube, wir haben ganz gut dargestellt, wie das Problem entstehen kann. Du hast aufgezeigt, welche Forschungszweige es gibt, um KI selbst mit übermenschlichen Fähigkeiten in einigen Aufgaben trotzdem auszurichten und wahrscheinlich müssen wir es empirisch rausfinden und werden in den nächsten Jahren lernen, wie gut diese Techniken funktionieren. For better or worse.
[01:16:52] Sören: Ja, gute Zusammenfassung! Und ja, danke nochmal fürs Einladen. Hat Spaß gemacht.
[01:16:59] Stephan: Hat viel Spaß gemacht, genau.
Und möchtest du, Sören, zum Schluss noch Ressourcen empfehlen, falls Hörer sich weiter mit dem Thema auseinandersetzen wollen?
[01:17:11] Sören: Ja, also erst mal das Paper, das wir besprochen haben nochmal: „The Alignment Problem from a Deep Learning Perspective“. Es gibt gute — das kommt natürlich auf den Wissensstand an — aber noch eine Sache, wo ich selber viel beigetragen habe, ist der Wikipedia-Artikel, der AI-Alignment heißt. Auf Englisch, wird auch, glaube ich, auf Deutsch übersetzt.
[01:17:33] Stephan: Wird übersetzt, ja.
[01:17:34] Sören: Dann gibt es einige Paper vom Center for AI Safety, zum Beispiel: „An Overview of Catastrophic AI Risks“, der mehr darauf eingeht, was die verschiedenen Szenarien sind, wie diese Dinge schiefgehen könnten.
[01:17:48] Stephan: Das haben wir erst mal den Hörern jetzt überlassen, sich vorzustellen, wie — wenn wir tatsächlich jetzt ein sehr fähiges System haben — auf welche Weise das tatsächlich Schaden in der Welt anrichten könnte. Aber ich glaube, es ist relativ intuitiv, wie das dann passieren würde. Und ein paar Beispiele hast du genannt.
Sören, vielen Dank. Hat mir viel Spaß gemacht.
[01:18:07] Sören: Ja, mir auch. Danke.
[01:18:10] Stephan: Wunderbar. Dann bis zum nächsten Mal.