Künstliche Intelligenz: Wieso es jetzt erst recht gen hochwertige Daten ankommt

Ob ChatGPT, Gemini, oder Qwen – alle diese Sprachmodelle basieren letztlich auf derselben Technik. Was sie unterscheidet, das sind die verwendeten Trainingsdaten. Welche Trainingsdaten gesammelt, gefiltert und erzeugt werden, bestimmt, wie gut ein Sprachmodell ist: wie verlässlich es Fakten wiedergibt. Wie gut es Aufgaben ausführt. Wann es halluziniert. Kurzum: Für Aufgaben, für die gute Trainingsdaten vorhanden sind, funktionieren Sprachmodelle sehr gut. Für Aufgaben ohne gute Trainingsdaten versagen sie schnell.
Sprachmodelle werden im Moment vor allem dadurch besser, dass wir ihre Schwächen identifizieren und gezielt Daten sammeln oder erzeugen, um diese Lücken zu schließen. So befinden sich Sprachmodelle heute beispielsweise in Mathematik und im Programmieren auf Expertenniveau – beides sind Bereiche, in denen sie vor zwei Jahren noch große Schwächen hatten.
Wie das funktioniert, zeigt ein Blick auf die Trainingsdaten. Zur Erinnerung: Sprachmodelle lernen, jeweils das nächste Wort in einem Text vorherzusagen, zuerst auf riesigen Datenmengen und dann zur Feinabstimmung auf spezifischen Beispielen wie Fragen und dazugehörigen Antworten. So einfach es klingt, das nächste Wort zu erzeugen – es reicht aus, um ganze Texte zu erzeugen, Fragen zu beantworten und zu programmieren.
Fakten sollen mehrfach vorkommen
Die Texte für dieses erste Training stammen zum großen Teil aus dem Internet. Dazu sammeln die KI-Entwickler zuerst alle Texte ein, die verfügbar sind. Diese Texte sind sehr vielfältig: Wikipedia, Nachrichten, wissenschaftliche Artikel, Diskussionen in Foren und natürlich viel Werbung. Ein großer Teil der Texte, die so erhältlich sind, ist aber Kauderwelsch, von geringer Qualität und nicht direkt für das Training brauchbar. Diese werden identifiziert – zum Teil durch kleine Sprachmodelle – und aussortiert. Was übrig bleibt, ist ein kleiner Teil des Internets, aber immer noch eine riesige Menge von Texten, deren Größenordnung Hunderten Millionen Büchern entspricht.
Dann werden Texte gewichtet: Texte, die oft in den Trainingsdaten in sehr ähnlicher Form vorkommen, werden reduziert, und andere Texte, die sehr hohe Qualität haben, werden vervielfältigt und kommen dann mehrfach in den Trainingsdaten vor. Das ist ein heikler Prozess. Einerseits sollen Fakten wie „Berlin ist die Hauptstadt von Deutschland“ mehrfach vorkommen, damit das Modell solche Fakten korrekt lernt und wiedergibt. Andererseits wollen die Entwickler vermeiden, dass Texte in identischer oder sehr ähnlicher Form zu oft vorkommen, weil sonst das Sprachmodell dazu neigt, diese Texte wortwörtlich wiederzugeben.
Zum Beispiel gibt es Artikel der „New York Times“, die mit minimalem Prompting fast wörtlich vom Open-AI-Sprachmodell GPT-4 reproduziert werden. Das passiert, wenn solche Texte sehr häufig in den Trainingsdaten vorkommen. Diese Beobachtung ist übrigens die Grundlage der laufenden Klage der „New York Times“ gegen Open AI und Microsoft wegen Urheberrechtsverletzungen.
Wenn Maschinen Daten erzeugen
Aber warum können Sprachmodelle überhaupt so verschiedene Aufgaben bewältigen? Warum können sie Texte zusammenfassen, Programmieren und Fragen beantworten lernen, nur indem sie das nächste Wort in Texten aus dem Internet vorhersagen?
Im Internet gibt es derart viele Texte, dass auch seltene Formate wie Frage-Antwort-Paare sowie Texte und dazugehörige Zusammenfassungen in großer Anzahl vorkommen. Allerdings ist der relative Anteil solcher Beispiele sehr gering. Deshalb antwortet ein Modell nach diesem ersten Training auf eine Frage oft nicht mit einer Antwort, sondern mit einer weiteren Frage, weil es eben auch viele Internetseiten gibt, die nur aus Fragen bestehen, etwa Quizseiten oder Übungsaufgaben.
Um ein Sprachmodell, das aus Daten aus dem Internet trainiert ist, zu einem nützlichen Assistenten zu machen, der Fragen beantwortet und Anweisungen folgt, wird es fein abgestimmt. Die einfachste und eine effektive Art der Feinabstimmung besteht darin, auf Daten zu trainieren, die das gewünschte Verhalten zeigen, zum Beispiel Fragen und dazugehörige Antworten. So lernt das Modell auf eine Frage zu antworten, statt selbst eine Frage zu stellen.
In der ersten Generation von Sprachmodellen spielten Menschen eine große Rolle, um solche Daten zu erzeugen. Sie schrieben Antworten auf Fragen und bewerteten verschiedene Antworten als besser oder schlechter, sodass das Modell lernen konnte, welche Antwort Menschen bevorzugen.
Synthetische Daten, also Daten, die von Sprachmodellen selbst erzeugt sind, werden indes zunehmend wichtig für das Training, da mehr Daten in der Regel helfen. Und weil die sehr guten Texte im Internet eben schon weitgehend für das Training verwendet werden – viele Texte aus dem Internet sind von geringer Qualität und werden deshalb für das Training aussortiert. Solche Texte können aber eine sehr gute Grundlage sein, um synthetische Daten zu erzeugen, die dann wiederum für das Training hilfreich sein können. Sprachmodelle werden eingesetzt, um aus solchen schlechten oder mittelmäßigen Daten gute Daten zu erzeugen.
Der Erfolg von Deepseek
Wie Menschen lernen auch Sprachmodelle besser, wenn sie Informationen in verschiedenen Varianten sehen. Daher kann es effektiv sein, aus einem Text mit einem Sprachmodell verschiedene Varianten zu erzeugen und diese für das Training zu verwenden. Solche synthetischen Daten spielen eine zunehmend wichtige Rolle für das Training von Sprachmodellen.
Es ist sehr effektiv, auf synthetischen Daten zu trainieren. Synthetische Daten können daher auch genutzt werden, um die Fähigkeiten anderer Modelle zu kopieren. Wenn zum Beispiel ein Unternehmen wie Open AI eine neues, sehr gutes Sprachmodell herausbringt, dann könnten andere Unternehmen dieses nutzen, um Daten zu erzeugen, die das eigene Modell verbessern – auch wenn die Nutzungsbedingungen von Open AI das explizit verbieten.
Ein spannendes Beispiel ist Deepseeks V3. Dahinter verbirgt sich ein sehr gutes Sprachmodell, welches das chinesische Unternehmen Deepseek im Dezember des Jahres 2024 frei zugänglich veröffentlicht hat. V3 machte schnell Schlagzeilen, da es die Deepseek-Tüftler geschafft haben, ein sehr gutes Modell relativ günstig zu trainieren. Der Aktienkurs des KI-Chipunternehmens Nvidia verlor daraufhin im Januar 17 Prozent an nur einem Tag. Ein wesentlicher Grund des chinesischen Erfolgs liegt darin, dass die Deepseek-Mitarbeiter mit sehr guten Daten gearbeitet haben.
Bessere Daten ermöglichen, mit weniger Rechenleistung – und damit günstiger – ein gleich gutes Modell zu trainieren. Auf die Frage „What model are you?“ antwortet V3 „I’m an AI language model called ChatGPT, created by OpenAI“, was nahelegt, dass die Trainingsdaten zum Teil von Open-AI-Modellen stammen. Unsere eigene Forschung stützt diese Vermutung: V3 antwortet auf viele Prompts in einer Art, die sehr schwer von Antworten von GPT-4 zu unterscheiden ist, was dafür spricht, dass ein Teil der Trainingsdaten von Deepseek mittels GPT-4 erzeugt wurde. Das könnte aber auch daran liegen, dass das Deepseek-Modell auf Daten aus dem Internet trainiert wurde, denn das Internet enthielt schon im Jahr 2024 zahlreiche Texte, die von Open-AI-Modellen erzeugt worden waren.
In Denkschritte zerlegen
Eine der wichtigsten Entwicklungen im Bereich der Sprachmodelle in den zurückliegenden anderthalb Jahren war es, ihnen beizubringen, lange Gedankengänge durchzuführen. Die meisten Modelle verfügen inzwischen über eine solche „Think“-Funktion: Auf Fragen, die Nachdenken erfordern, führt das Modell erst Denkschritte aus und gibt dann basierend auf diesen Schritten eine Antwort. Beispiele dafür sind das Modell O1 von Open AI, Googles Gemini Thinking und das Modell R1 von Deepseek. Solche Denkschritte sind sehr hilfreich, um komplexere Fragen zu beantworten.
Auch dies sei an einem kleinen Beispiel illustriert. Frage: Anne hat drei Birnen und kauft zwei dazu – wie viele hat sie dann? Die Denkschritte beziehungsweise der Gedankengang lauten wie folgt: Anna hat drei Birnen. Sie kauft zwei dazu. Drei plus zwei gleich fünf. Antwort: fünf Birnen.
Solche Denkschritte machen eine Antwort nicht nur nachvollziehbar, sondern sie verbessern vor allem ihre Qualität wesentlich. So können sehr viel schwierigere Fragen beantwortet werden, indem die Antwort durch die Denkschritte erarbeitet wird. Besonders hilfreich sind solche Denkschritte im Falle von komplexen Fragen, etwa mathematischen. Im Denkprozess schlägt das Modell verschiedene Lösungsansätze vor, verwirft manche, probiert andere aus und korrigiert Fehler, wenn sie auftreten. Für komplizierte mathematische Fragestellungen können die Denkschritte leicht 50 Seiten oder mehr umfassen. Dem Benutzer werden sie in der Regel nicht gezeigt. Das hat seinen Preis: Für längere Gedankengänge muss das Sprachmodell mehr Text erzeugen, was mehr Rechenleistung erfordert.
Die Schwierigkeit, einem Modell solche Denkprozesse beizubringen, liegt darin, dass es nur sehr wenige solche Daten ausgeschrieben gibt. Wenn etwa Mathematiker eine schwierige Aufgabe lösen, dann schreiben sie in der Regel nur die richtige Lösung auf, aber nicht die komplizierten Gedankengänge und Versuche, die zur Lösungsfindung beigetragen haben. Um solche Denkschritte für Mathematik zu erlernen, spielt das sogenannte Reinforcement Learning (bestärkendes Lernen) die wesentliche Rolle. Darin probieren Modelle verschiedene Gedankengänge aus, und solche Gedankengänge, die zu richtigen Lösungen führen, werden infolgedessen wahrscheinlicher gemacht. Dadurch lernen die Sprachmodelle, lange und komplizierte Denkprozesse zu erzeugen, die zu einer Lösung führen. Das funktioniert nur, wenn das Modell schon gut mathematisch argumentieren kann, sonst könnte es gar keine Denkprozesse erzeugen, die zu einer Lösung führen.
Das Reinforcement Learning kann daher als eine Methode betrachtet werden, innerhalb derer Sprachmodelle aus selbst erzeugten, synthetischen Daten lernen. Voraussetzung dafür ist, dass sich automatisch beurteilen lässt, ob ein Text oder ein Ergebnis gut oder schlecht ist. In der Mathematik und beim Programmieren ist das oft möglich, und das ist ein wesentlicher Grund dafür, warum Sprachmodelle in diesen Bereichen so leistungsfähig geworden sind.
Sprachmodelle werden zunehmend in Systemen eingesetzt, in denen sie autonom mit Computern interagieren, um Aufgaben auszuführen, beispielsweise um Flüge zu buchen, Daten auszuwerten oder Recherchen durchzuführen. Solche Systeme werden Agenten genannt. Wie im Falle der Denkschritte lernen Sprachmodelle auch hier aus Beispielen, in denen solche Aufgaben erfolgreich gelöst worden sind – teils von Menschen, teils von Sprachmodellen selbst erzeugt.
Um zu messen, wie gut ein Student an der TU München mein Vorlesungsmaterial versteht, verwende ich wie die meisten meiner Kollegen Klausuren und Hausarbeiten. Für Sprachmodelle werden auch oft klausurartige Aufgaben verwendet, um die Fähigkeit der Modelle zu testen. Ein Beispiel ist das United States Medical Licensing Exam, die Zulassungsprüfung für Ärzte in den Vereinigten Staaten. Das Examen besteht aus Multiple-Choice-Fragen zu Grundlagen, klinischem Wissen und zur Behandlung von Krankheiten. Allgemeine Sprachmodelle wie GPT-4 sowie spezielle Sprachmodelle für die Medizin bestehen solche Prüfungen leicht und erzielen Werte auf dem Niveau von medizinischen Fachleuten. Dasselbe gilt für andere Berufsgruppen.
Wie eine gute Note in einem Examen aber nur bedingt vorhersagt, wie gut ein Student den Vorlesungsstoff in der Arbeit oder Forschung anwenden kann, signalisiert das gute Abschneiden eines Sprachmodells sogar noch viel weniger, ob dieses Sprachmodell produktiv Abläufe im Beruf, etwa in einem Krankenhaus, ausführen kann.
Menschen können Wissen sehr viel flexibler auf neue Situationen übertragen, als Sprachmodelle dies vermögen. Sprachmodelle sind hingegen besonders leistungsfähig, wenn die Trainingsdaten den Aufgaben ähneln. Daher ist es durchaus möglich, Sprachmodelle für sehr komplizierte Abläufe im Berufsleben einzusetzen; aber sie müssen auf entsprechenden Daten trainiert sein.
Die Datenlücken füllen
Was folgt daraus, wenn in der Künstlichen Intelligenz die Trainingsdaten im Mittelpunkt stehen? Sprachmodelle sind besonders gut qualifiziert für Aufgaben, für die viele brauchbare und hochqualitative Daten zur Verfügung stehen. Schon die ersten Sprachmodelle waren sehr gut darin, Dinge zu schreiben, von denen es viele gute Beispiele im Internet gibt, wie Kochrezepte, Zusammenfassungen und allgemeines Wissen.
Die heutigen Modelle sind auch in sehr komplexen Aufgaben der Mathematik oder Programmierung sehr gut, weil es dafür sehr viele hochwertige Daten gibt oder diese erzeugt werden konnten. Für Aufgaben, für die es schwieriger ist, ausreichend Daten zu sammeln oder zu erzeugen – wie in vielen Feldern der Wissenschaft, bei Rechtsdienstleistungen oder firmeninternen Abläufen –, wird der Erfolg von Sprachmodellen davon abhängen, diese Datenlücken zu füllen.
Dass die allgemeinen Modelle immer besser werden, ändert daran wenig. Wer Sprachmodelle für spezialisierte Aufgaben einsetzen will, muss sie mit entsprechenden Daten trainieren. Es gibt also noch viel Potential, um Sprachmodelle viel besser und nützlicher zu machen. Und ein wesentlicher Teil dieser Arbeit wird im Sammeln und Erzeugen von Trainingsdaten liegen.
Prof. Dr. Reinhard Heckel leitet den Lehrstuhl für Maschinelles Lernen am Department of Computer Engineering an der TU München.