Ist Deepseek wirklich ein Durchbruch, Herr Krüger?
Alles deutet darauf hin, dass die Ergebnisse, die in einer Fachveröffentlichung genau beschrieben werden, Hand und Fuß haben – zumindest, was die Leistung angeht und auch die Größe des Modells. Ob tatsächlich nur 6 Millionen Dollar eingesetzt wurden, wie es kolportiert wurde, um das Basismodell zu trainieren, da kann man vielleicht noch ein kleines Fragezeichen dahinter stellen.
Die Chinesen hatten zudem wohl nur ältere Technik verfügbar, nicht die besten Chips. Wie haben sie das gemacht?
Einschränkungen führen oft zu einer gewissen Kreativität, das scheint auch hier der Fall gewesen zu sein. Die chinesischen Entwickler konnten nicht auf die neuste Hardware zurückgreifen, sie mussten sich etwas anderes ausdenken, haben besser optimiert und kombiniert und sind durch verschiedene Kniffe auch effizienter vorgegangen, als sie ihr Modell trainiert haben.
Sie haben aber nicht nur das Training verbessert.
Richtig. Darüber hinaus haben sie vor allem verändert, wie Anfragen an die KI von dieser bearbeitet werden. Sie haben Verfahren eingesetzt und miteinander verbunden, die stark auch auf Regeln setzen, die durch traditionelle Informatikmethoden bewertet werden. Hierdurch sparen sie großen Aufwand, der sonst auch in diesem Bereich beispielsweise durch neuronale Netze abgedeckt werden müsste.
Das habe ich immer noch nicht genau verstanden.
Das Modell verwendet sogenannte Policies, so etwas wie verschiedene Kochrezepte, wenn es Anfragen bearbeitet. Diese Kochrezepte lernt es während des Trainings über sogenanntes „Reinforcement Learning“, über bestärkendes Lernen. Beispielsweise lernt es unterschiedliche Rechenwege, um mathematische Probleme zu lösen. Während des Lernprozesses erhält der Algorithmus auf jede Aktion eine Rückmeldung und findet so selbständig heraus, wie sich eine Aufgabe am besten lösen lässt.

Was folgt daraus?
Infolgedessen ist die Deepseek-KI in der Lage, komplexe Probleme so aufzubereiten, dass es sich effizienter auf die Lösung zubewegt. Sie fängt eben nicht rein assoziativ zufällig mit dem Nächstwahrscheinlichen an, was manchmal ganz gut geht, aber häufig eben auch nicht. Kombiniert wird das mit einer anderen Methode, die wir „Chain of Thought“-Technik nennen.
Und was steckt dahinter?
Damit werden große Sprachmodelle angeregt, alle Schritte zu beschreiben, die für eine erfolgreiche Lösung notwendig sind. Die Methode verwendet auch Open AI. Die Modelle sollen durch all das nicht nur dazu gebracht werden, alle Zwischenergebnisse und Zwischenschritte zu verbalisieren, sondern dies auch auf dem möglichst besten Wege tun. Ähnliche Verfahren kennen wir übrigens auch aus der Psychologie, wo sogenannte Think-Aloud-Protokolle angewendet werden.
Laut nachdenken?
Ja, wir sagen die einzelnen Schritte laut auf, die es braucht, um eine komplexe Aufgabe zu lösen. Damit gelangen auch Menschen häufig schneller zur Lösung und erzielen bessere Ergebnisse. Und diese Idee machen sich inzwischen KI-Forscher zunutze.
Das KI-Modell spricht mit sich, hinterfragt sich immer wieder und plappert nicht einfach drauflos?
Genauso kann man sich das ungefähr vorstellen.
Ist das, was die Chinesen geschafft haben, ein wissenschaftlicher Durchbruch?
Es ist vor allem eine große Ingenieurleistung. In der Theorie entwickeln wir bestimmte Architekturen für künstliche neuronale Netze. Aber damit funktionieren sie nicht automatisch auch in der Praxis und dieselbe Architektur funktioniert wiederum nicht immer gleich gut. Es macht einen großen Unterscheid, in welcher Reihenfolge das Modell trainiert wird, es macht einen sehr großen Unterschied, wie gut auf- und vorbereitet die Daten sind. Und wie schon gesagt gibt es viele Möglichkeiten und Stellschrauben, um verschiedene Modellteile zu verändern, zu kombinieren, mitunter ältere, deutlich energiesparsamere KI-Verfahren zu integrieren. Das gut hinzubekommen ist eine klassische Ingenieursaufgabe, etwas für geübte Tüftler.
Darin sind die Chinesen gut?
Ja, die haben ein entsprechendes Ökosystem mit vielen solchen Leuten. Vergleichbar gibt es das nur in Amerika. Um es noch einmal zu betonen: Die von Deepseek verwendeten Modelle und Ideen sind augenscheinlich nicht wirklich neu – die haben aber diese ganz offenkundig erstmals geschickt kombiniert und ein Verfahren hinbekommen, dass das auch wirklich brauchbar funktioniert.
Soweit würde ich nicht gehen. Die Grundarchitektur, die Basisprinzipien, nach denen deren KI-System konstruiert ist, folgt dem gegenwärtig angesagten Ansatz. Sie sind aber eben deutlich effizienter, haben Wege gefunden, darin noch einmal merklich zu optimieren. Das ist für mich auch insofern interessant und ermutigend, weil unser Gehirn ja auch deutlich energieeffizienter ist – das ist eine entscheidende Eigenschaft seiner breiten Leistungsfähigkeit. Wir bewegen uns also hier in eine gute Richtung.
Das chinesische Modell ist „Open Source“ – im Gegensatz zu den Modellen etwa von Open AI. Auch darüber gibt es ja eine Debatte, welcher Ansatz sich durchsetzen wird: Sehen wir da nun eine Vorentscheidung?
Ich begrüße das sehr, da die Open-Source-Modelle ein wichtiges Element der akademischen Forschung an großen KI-Modellen sind. Es ist gut, dass die Deepseek-Entwickler ihre Ergebnisse breit verfügbar machen. Ich gehe weiterhin fest davon aus, dass Open-Source-Modelle ein wichtiger Teil des KI-Ökosystems sein werden. Gerade um spezialisierte Modelle für den deutschen Mittelstand zu trainieren, könnten Open-Source-Modelle eine wichtige Rolle spielen.
An der Börse ist der Aktienkurs des Chip-Herstellers Nvidia zunächst eingebrochen. Plötzlich steht die Frage im Raum: Braucht es die angekündigten gewaltigen Milliardeninvestitionen in neuen KI-Rechenzentren, in eine breite Infrastruktur für die Künstliche Intelligenz überhaupt? Oder haben die Chinesen aus der Not heraus einen Schlüssel gefunden, wie wir uns das großenteils sparen können?
Da bin ich skeptisch. Wir lernen nun, das wir die Modelle viel effizienter trainieren und betreiben können. Wir lernen, übrigens nicht nur durch Deepseek, dass viel Fortschritt möglich ist, indem wir die Abfrageseite der Modelle in den Blick nehmen und verbessern, die Inferenzseite, sie zum tieferen „Nachdenken“ bringen über das, was sie sagen. Für mich bedeutet das vor allem, dass zukünftig mehr Modellvarianten mit der uns zur Verfügung stehenden Rechenleistung erstellt werden können. Das wird den Fortschritt an KI-Modellen befeuern und beschleunigen. Und es gibt noch eine sehr gute Nachricht: Der Kreis derjenigen, die so ein Modell entwickeln und betreiben können, wird deutlich größer. Bislang ist das eben denjenigen vorbehalten geblieben, die über Milliardenmittel verfügen, die diese riesige Recheninfrastruktur haben, die großen Tech-Konzerne. Das könnte sich ändern.
Warum ist das denn schon wieder den Chinesen gelungen und nicht uns in Deutschland oder Europa?
Ja, das ist tatsächlich schade. Andererseits ist auch Deepseek keine kleine Start-up-Klitsche, da stehen ein potenter Hedgefonds und wohl auch Alibaba dahinter, nach allem, was zu hören ist. Das ist schon kein Zufall, dass denen das nun gelang. Für uns als Wissenschaftler in Deutschland und Europa bedeutet das auch: Die Forschung an den hybriden KI-Modellen, die auf das Lernen und logische Regeln setzen, kann sich absolut lohnen. Da waren wir sicher zu zögerlich und haben uns zu sehr zurückgezogen auf den Standpunkt: Na ja, jetzt warten wir erstmal ab, wie sich die amerikanischen Modelle entwickeln und was die können. Wir haben das schleifen lassen, weil wir gesehen haben, dass diese große Recheninfrastruktur und die großen Investitionen in Europa nicht ohne weiteres zu stemmen sind. Ich nehme da gerade aber Bewegung wahr und hoffe sehr, dass die nächste Regierung einen Schub in diese Richtung bringen wird.
Wenige Tage bevor die Chinesen ihren KI-Coup landeten, hat der amerikanische Präsident eine gewaltige KI-Initiative namens „Stargate“ vorgestellt, die insgesamt ein Volumen von 500 Milliarden Dollar umfassen soll und hinter der Open AI, der Konzern Oracle und der Investor Softbank stehen. Was halten Sie nun davon?
Ich glaube nicht, dass das ernsthaft überholt ist, vielleicht bewerten die manches neu, aber an der Stoßrichtung insgesamt wird sich nichts ändern. Für Künstliche Intelligenz als breite Massentechnologie brauchen wir mehr und leistungsfähigere Infrastruktur, für das Training und den Betrieb der Modelle. Auch das, was die Chinesen jetzt gezeigt haben, ist ja nicht das Ende dieser Entwicklung, im Gegenteil.
Die Modelle können jetzt ein bisschen mehr nachdenken. Der verstorbene Nobelpreisträger Daniel Kahneman teilte unseren Denkprozess einmal in schnelles und langsames Denken ein – das spontan reagierende und das auf Logik setzende, planende, spekulierende Nachdenken. Kann die KI nun auch Letzteres?
Die Entwickler fügen nun etwas von Kahnemans langsamem Denken ein, so kann man das tatsächlich sagen. Das Modell verwendet mehr Ressourcen darauf, wie es ein Problem löst oder zerteilt. Die Modelle arbeiten besser mit Zwischenergebnissen, ähnlich wie der Mensch vorgehen würde. Die Modelle verwenden also ein größeres Arbeitsgedächtnis auf eine gewisse Art und Weise, womit sie dann nicht nur rein assoziativ, nicht immer nur die Vervollständigung, sondern tatsächlich auch den gesamten Kontext noch einmal angucken können.
Donald Trump hat auch KI-Regulierung kassiert, die sein Vorgänger Joe Biden auf den Weg gebracht hat, um die KI-Entwicklung sicherer und transparenter zu machen. Nun ist ein „KI Safety Report“ herausgekommen, den die britische Regierung initiiert hat nach ihrem großen KI-Gipfel im vergangenen Jahr und an dem Sie aus Deutschland eingebunden sind. Sagen Sie noch einmal kurz, was Ihre Rolle war.
Ich gehörte zu den Fachleuten, die dafür zuständig gewesen sind, die Inhalte des Reports zu überprüfen und zu überwachen. Wir haben Impulse gegeben und den Bericht redigiert und in verschiedenen Gesprächsrunden die Inhalte diskutiert.
Und was steht im Report?
Erstmals werden alle Risiken systematisch aufgezählt und erläutert, die mit breit anwendbaren KI-Systemen einhergehen. Das muss ich immer dazusagen, weil es nicht ganz allgemein um KI geht, sondern um solche Modelle, die vielseitig verwendbar sind, etwa um die großen Sprachmodelle oder die Bildgeneratoren. Der Report richtet sich an die Politik und Entscheidungsträger. Ich würde auch Trump empfehlen, dort einmal hineinzuschauen.
Was sind die größten Risiken, die dort benannt werden?
Vor allem solche Risiken, die eher schleichend daherkommen. Beispielsweise die ganzen Attacken, die wir aus dem Internet kennen, so etwas wie Phishing Mails. Hackerangriffe können mit Hilfe der modernen KI-Modelle viel zielgerichteter und auch personalisierter durchgeführt werden. Ich selbst habe auch schon gemerkt, dass solche E Mails, die versuchen, einem Passwörter zu entlocken, nun nicht mehr so plump daherkommen, sondern deutlich differenzierter auch auf bestimmte Zielgruppen automatisch zugeschnitten werden.
Worum geht es noch?
Um die Meinungsbildung im Internet. Um die Bots, die von KI unterstützt in den sozialen Medien mehr können. Die agieren viel natürlicher, so dass Leute viel einfacher darauf reinfallen können. Und dann können die Modelle Kriminellen natürlich auch helfen, indem sie wertvolles Wissen liefern, Schwachstellen in Software aufdecken, Attacken planen.
All das klingt besorgniserregend – aber wiederum nicht so schlimm, wie die teils absurden Warnungen vor dem drohenden Ende der Menschheit, wie sie auch zu vernehmen waren von durchaus renommierten Wissenschaftlern und Unternehmern.
Ja, hier geht es mehr um Faktenbasiertes.
Was kann und muss Deutschland aus dem Coup der Chinesen, der Stargate-Ankündigung aus Amerika und dem Safety Report mitnehmen?
Weiterer Fortschritt in der KI wird von der Kombination verschiedener Techniken abhängen, es geht nicht mehr einfach nur darum, immer größere Modelle mit immer mehr Daten auf immer leistungsfähigeren Rechnern zu trainieren und zu betreiben. Wir brauchen dringend eine Erneuerung der KI-Strategie unseres Landes…
…so etwas wie die Hightech Agenda der Bayern nur für ganz Deutschland?
…ungefähr. Und dabei geht es auch um Infrastruktur, die speziell auf KI zugeschnitten ist. Es reicht aus meiner Sicht nicht aus, einfach bestehende Hochleistungs-Rechenzentren zu ertüchtigen.