Lügt sich so durch: Mitarbeiter:medial von Amazon und Google warnen ihre Familien vor KI

Krista Pawloski erinnert sich an den einen entscheidenden Moment, der ihre Meinung zur Ethik künstlicher Intelligenz für immer veränderte. Als KI-Mitarbeiterin bei Amazon Mechanical Turk – einem Marktplatz, auf dem Unternehmen Arbeitskräfte für Aufgaben wie Dateneingabe einstellen können – verbringt Pawloski ihre Zeit mit der Moderation und Bewertung der Qualität von KI-generierten Texten, Bildern und Videos sowie mit Faktenchecks. Vor etwa zwei Jahren, als sie von zu Hause aus an ihrem Esstisch arbeitete, prüfte sie, ob Tweets rassistisch sind oder nicht. Als ihr ein Tweet mit dem Text „Listen to that mooncricket sing“ angezeigt wurde, dachte sie sich erstmal nichts dabei, entschied sich dann aber doch, die Bedeutung des Wortes „mooncricket“ nachzuschlagen. Zu ihrer Überraschung war das eine rassistische Beleidigung gegen Afroamerikaner.

„Ich überlegte, wie oft ich denselben Fehler wohl schon gemacht hatte, ohne es zu merken“, sagte Pawloski. Das potenzielle Ausmaß ihrer eigenen Fehler und der Fehler Tausender anderer Mitarbeiter wie ihr brachten Pawloski ins Grübeln. Wie viele andere haben unwissentlich anstößiges Material durchrutschen lassen? Oder, noch schlimmer, es gar zugelassen? Nach jahrelanger Beobachtung der Funktionsweise von KI-Modellen hat Pawloski beschlossen, selbst keine generativen KI-Produkte mehr zu nutzen und rät auch ihrer Familie davon ab.

Erst kritisches Denken lernen

„Bei uns zu Hause ist das absolut tabu“, sagt Pawloski und erklärt, dass sie ihrer Teenager-Tochter die Nutzung von Tools wie ChatGPT verbietet. Auch ihren Bekannten rät sie, einer KI erstmal in Gebieten Fragen zu stellen, in denen sie sich gut auskennen, um zu erkennen und zu verstehen, wie fehlbar die Technologie ist.

Pawloski fragt sich jedes Mal, wenn sie auf der Mechanical-Turk-Plattform neue Aufgaben zur Auswahl sieht, ob ihre Tätigkeit dazu missbraucht werden könnte, Menschen zu schaden. Ihre Antwort lautet: Ja. Amazon erklärte, dass die Mitarbeiter selbst entscheiden, welche Aufgaben sie übernehmen und Details einer Aufgabe prüfen können, bevor sie diese annehmen. Laut Amazon legen die Auftraggeber Parameter fest wie Zeitaufwand, Bezahlung und Schwierigkeitsgrad.

„Amazon Mechanical Turk ist ein Marktplatz, der Unternehmen und Forscher, sogenannte Auftraggeber, mit Mitarbeitern verbindet, die Online-Aufgaben erledigen, wie beispielsweise das Beschriften von Bildern, das Beantworten von Umfragen, das Transkribieren von Texten oder das Überprüfen von KI-Ergebnissen“, erklärte Montana MacLachlan, eine Sprecherin von Amazon. Pawloski ist nicht allein.

Ein Dutzend KI-Bewerter, die die Antworten von KI-Systemen auf Richtigkeit und Plausibilität prüfen, berichteten dem Guardian, dass sie, nachdem sie die Funktionsweise von Chatbots und Bildgeneratoren sowie die potenziellen Fehlerquellen ihrer Ergebnisse erkannt hatten, begonnen haben, Freunden und Familie dringend davon abzuraten, generative KI überhaupt zu nutzen und versuchen ihre Angehörigen über einen vorsichtigen Umgang damit aufzuklären. Diese Bewerter arbeiten mit verschiedenen KI-Modellen – Googles Gemini, Elon Musks Grok, anderen gängigen Modellen und mehreren kleineren oder weniger bekannten Bots.

Eine KI-Bewerterin bei Google, deren Job es ist, die KI-Übersichten bei Google-Suchanfragen zu bewerten, sagt, sie versuche, KI so sparsam wie möglich einzusetzen, wenn überhaupt. Insbesondere der Umgang des Unternehmens mit KI-generierten Antworten auf Gesundheitsfragen habe sie stutzig gemacht. Aus Angst vor beruflichen Konsequenzen bat sie um Anonymität. Sie habe beobachtet, wie ihre Kollegen KI-generierte Antworten zu medizinischen Themen völlig unkritisch bewerteten, und sei selbst mit der Bewertung solcher Fragen beauftragt worden, obwohl sie keine medizinische Ausbildung habe. Zu Hause habe sie ihrer zehnjährigen Tochter die Nutzung von Chatbots verboten: „Sie muss erst kritisches Denken lernen, sonst kann sie nicht beurteilen, ob die Ergebnisse was taugen.“

Hinter der KI stecken immer Menschen

„Bewertungen sind nur einer von vielen aggregierten Datenpunkten, die uns helfen zu messen, wie gut unsere Systeme funktionieren. Aber sie haben keinen direkten Einfluss auf unsere Algorithmen oder Modelle“, heißt es in einer Stellungnahme von Google. „Wir haben zudem eine Reihe strenger Schutzmechanismen implementiert, um qualitativ hochwertige Informationen in all unseren Produkten zu gewährleisten.“ Bot-Beobachter schlagen Alarm.

Diese Experten gehören zu Zehntausenden Mitarbeitern weltweit, die dazu beitragen, dass Chatbots menschlicher klingen. Bei der Überprüfung von KI-Antworten achten sie außerdem darauf, dass ein Chatbot keine ungenauen oder schädlichen Informationen verbreitet. Wenn jedoch diejenigen, die KI vertrauenswürdig erscheinen lassen, ihr am wenigsten vertrauen, deutet dies auf ein viel größeres Problem hin.

„Das zeigt, dass Anreize für eine schnelle Veröffentlichung und Skalierung gegenüber einer langsamen, sorgfältigen Validierung bestehen und dass das Feedback der Tester ignoriert wird“, sagt Alex Mahadevan, Direktor von MediaWise bei Poynter, einem Programm zur Medienkompetenz. „Das bedeutet, dass wir bei der finalen Version des Chatbots mit denselben Fehlern rechnen können, die die Nutzer selbst erleben. Das verheißt nichts Gutes für eine Öffentlichkeit, die sich zunehmend auf LLMs verlässt, um Nachrichten und Informationen zu erhalten.“

KI-Mitarbeiter gaben an, den Modellen, an denen sie arbeiten, zu misstrauen, da der Fokus stets auf schnellen Bearbeitungszeiten auf Kosten der Qualität liege. Brook Hansen, eine KI-Mitarbeiterin bei Amazon Mechanical Turk, erklärt, dass sie generativer KI als Konzept zwar nicht misstraue, aber den Unternehmen, die diese Tools entwickeln und einsetzen. Der entscheidende Wendepunkt für sie war, wie wenig Unterstützung die Personen erhalten, die diese Systeme trainieren.

Für alles eine Antwort

„Von uns wird erwartet, dass wir zur Verbesserung des Modells beitragen. Doch wir erhalten oft vage oder unvollständige Anweisungen, minimale Schulungen und unrealistische Zeitvorgaben für die Erledigung von Aufgaben“, sagt Hansen, die seit 2010 im Datenbereich tätig ist und an der Entwicklung einiger der populärsten KI-Modelle des Silicon Valley beteiligt war. „Wenn Mitarbeitern nicht die nötigen Informationen, Ressourcen und Zeit zur Verfügung stehen, wie können die Ergebnisse dann sicher, präzise oder ethisch vertretbar sein? Für mich ist diese Diskrepanz zwischen den Erwartungen an uns und den tatsächlichen Anforderungen ein klares Zeichen dafür, dass Unternehmen Geschwindigkeit und Profit über Verantwortung und Qualität stellen.“

Experten zufolge ist das Verbreiten falscher Informationen in einem selbstsicheren Tonfall statt keiner Antwort, wenn keine unmittelbare Lösung vorliegt, ein schwerwiegender Mangel generativer KI. Eine Überprüfung der zehn führenden generativen KI-Modelle, darunter ChatGPT, Gemini und Metas AI, durch die Medienbildungsorganisation NewsGuard ergab, dass die Nicht-Antwortraten von Chatbots von 31 Prozent im August 2024 auf 0 Prozent im August 2025 gesunken sind. Gleichzeitig verdoppelte sich laut NewsGuard die Wahrscheinlichkeit, dass Chatbots falsche Informationen wiederholten, von 18 auf 35 Prozent. Keines der Unternehmen reagierte auf NewsGuards Anfrage nach einer Stellungnahme.

„Ich würde den Angaben des Bots nicht trauen, ohne sie selbst zu überprüfen – sie sind einfach nicht verlässlich“, sagt eine weitere KI-Testerin von Google, die aufgrund einer Geheimhaltungsvereinbarung mit dem beauftragten Unternehmen anonym bleiben wollte. Sie warnt vor der Nutzung und bekräftigt die Aussage einer anderen Testerin, dass Personen mit nur oberflächlichen Kenntnissen mit medizinischen und sensiblen ethischen Fragen konfrontiert werden sollten. „Das ist kein ethischer Roboter. Es ist einfach nur ein Roboter.“

„Wir scherzen immer, dass Chatbots toll wären, wenn sie endlich aufhören würden zu lügen“, sagte ein KI-Tutor, der bereits mit Gemini, ChatGPT und Grok gearbeitet hat und ebenfalls anonym bleiben möchte, da er eine Geheimhaltungsvereinbarung unterzeichnet hat.

„Müll rein, Müll raus“

Ein anderer KI-Bewerter, der Anfang 2024 mit der Bewertung von Antworten für Google-Produkte begann, misstraute der KI nach etwa sechs Monaten. Er sollte das Modell mit kniffligen Fragen herausfordern. Heißt, er musste Googles KI verschiedene Fragen stellen, die ihre Grenzen und Schwächen aufdecken sollten. Da er einen Hochschulabschluss in Geschichte hat, stellte er dem Modell historische Fragen.

„Ich fragte es nach der Geschichte des palästinensischen Volkes, aber es gab mir keine Antwort, egal wie ich die Frage umformulierte“, erinnerte sich der Mitarbeiter. „Als ich es nach der Geschichte Israels fragte, gab es mir problemlos eine sehr ausführliche Darstellung. Wir meldeten den Vorfall, aber bei Google schien es niemanden zu interessieren.“ Auf Nachfrage zu dem vom Bewerter geschilderten Vorfall gab Google keine Stellungnahme ab.

Für diesen Google-Mitarbeiter liegt die größte Sorge beim KI-Training im Feedback, das Bewerter wie er den KI-Modellen geben: „Nachdem ich gesehen hatte, wie schlecht die Daten sind, die angeblich zum Training des Modells verwendet werden, war mir klar, dass es so niemals korrekt trainiert werden kann.“ Er verwendet den Begriff „Garbage in, garbage out“ (Müll rein, Müll raus), ein Prinzip der Programmierung, das besagt, dass fehlerhafte oder unvollständige Daten in einem technischen System auch zu fehlerhaften Ergebnissen führen.

Der Bewerter meidet generative KI und hat außerdem „allen Familienmitgliedern und Freunden geraten, keine neueren Smartphones mit integrierter KI zu kaufen, automatische Updates mit KI-Integration möglichst zu vermeiden und der KI keine persönlichen Daten mitzuteilen.“

Zerbrechlich, nicht futuristisch

Immer wenn das Thema KI in einem Gespräch zur Sprache kommt, erinnert Hansen daran, dass KI keine Zauberei ist. Er erklärt die vielen unsichtbaren Arbeiter im Hintergrund, die Unzuverlässigkeit der Informationen und die Umweltbelastung.

„Wenn man erst einmal gesehen hat, wie diese Systeme zusammengebastelt werden – die Verzerrungen, die überhasteten Zeitpläne, die ständigen Kompromisse –, dann ist KI plötzlich nicht mehr futuristisch, sondern sehr zerbrechlich“, erklärt Adio Dinika vom Distributed AI Research Institute. „Meiner Erfahrung nach sind es immer diejenigen, die KI nicht verstehen, die von ihr fasziniert sind.“ Die KI-Experten, die mit uns sprachen, sagten, sie würden es sich zur Aufgabe machen, bessere Entscheidungen zu treffen und das Bewusstsein dafür zu schärfen.

Die KI ist nur so gut ist wie die Daten, die man ihr gibt, und die Daten, die man ihr gibt, sind nicht immer die besten

Brook Hansen (KI-Mitarbeiterin bei Amazon Mechanical Turk)

Sie betonten insbesondere, dass KI, in Hansens Worten, „nur so gut ist wie die Daten, die man ihr gibt, und die Daten, die man ihr gibt, sind nicht immer die besten“. Sie und Pawloski hielten im Mai auf der Frühjahrskonferenz der Michigan Association of School Boards einen Vortrag. Vor einem Saal voller Schulvorstandsmitglieder und Verwaltungsangestellter aus dem ganzen Bundesstaat sprachen sie über die ethischen und ökologischen Auswirkungen künstlicher Intelligenz und hofften, damit eine Diskussion anzustoßen.

„Viele Teilnehmer waren schockiert, da die meisten noch nie etwas über die menschliche Arbeitskraft oder die Umweltbelastung hinter KI gehört hatten“, sagte Hansen. „Einige waren dankbar für die Einblicke, andere reagierten defensiv oder frustriert und warfen uns vor, Schwarzmaler zu sein, was die Technologie betraf, die sie als spannend und vielversprechend empfanden.“ Pawloski vergleicht die Ethik der KI mit der der Textilindustrie: Solange die Menschen nicht wussten, wie billige Kleidung hergestellt wurde, freuten sie sich über das beste Angebot und sparten ein paar Euro. Doch als die Berichte über Sweatshops ans Licht kamen, hatten die Verbraucher eine Wahl und wussten, dass sie Fragen stellen sollten. Sie glaubt, dass es bei KI genauso ist.

„Woher stammen Ihre Daten? Basiert dieses Modell auf Urheberrechtsverletzungen? Wurden die Arbeiter fair für ihre Arbeit entlohnt?“, fragt sie. „Wir fangen gerade erst an, diese Fragen zu stellen, daher hat die breite Öffentlichkeit in den meisten Fällen keinen Zugang zur Wahrheit. Aber genau wie in der Textilindustrie gilt: Wenn wir weiter fragen und Druck ausüben, ist Veränderung möglich.“