Im Gespräch | Mensch gegen Maschine: Wie KI die Synchronbranche herausfordert

Wer als Sprecher oder Sprecherin in den Medien arbeitet, fühlt sich derzeit durch die Fortschritte der künstlichen Intelligenz massiv bedroht. In den USA brachte ein Streik den Sprecher:innen von Videospielen gerade noch einmal mehr Geld und Schutz vor KI-Missbrauch. In Deutschland appelliert die Synchronbranche eher an das Qualitätsbewusstsein des Publikums. Ein Gespräch mit Stefan Sporn von der Firma Audio Innovation Lab über Filme mit KI-Synchronisation, Nudeln im Mund eines Polizisten und die Monetarisierung der menschlichen Stimme.

der Freitag: Herr Sporn, wenn Sie jetzt die Augen schlössen, woran würden Sie merken, dass Sie nicht mit einem KI-gesteuerten Chat-Bot sprechen?

Stefan Sporn: Ehrlich gesagt, das weiß man nie. (lacht) Aber ich würde es daran festmachen, wie perfekt etwas gesprochen ist. Je perfekter, desto höher ist die Wahrscheinlichkeit, dass es sich um KI handelt.

Je weniger perfekt Ihr Gegenüber ist, desto mehr können Sie ihm vertrauen?

Genau. Ich vertraue darauf, dass Sie kein Avatar sind. Aber es ist schwer, eine hundertprozentige Gewissheit zu haben. Den Anspruch hätte ich an mich jedenfalls nicht.

Der chinesische Film „Black Dog“ wurde letztes Jahr in Cannes ausgezeichnet und kam dann im Dezember in die deutschen Kinos. Für Aufsehen sorgte, dass – zum ersten Mal weltweit – seine Synchronfassung mit künstlicher Intelligenz erstellt wurde, von Ihrer Firma Audio Innovation Lab. Warum haben Sie das gemacht?

Erstens ist es der Gegenstand unseres Unternehmens, so etwas zu tun. Zweitens gab es einen Kunden, der das wollte.

„Black Dog“ zeichnet sich durch eine ungewöhnliche Bildsprache aus. Es gibt nur wenig Dialog. Eignete sich der Film daher besonders, um eine KI-Synchronisation zu testen?

Das war für uns kein Test, um das klar zu sagen. Ich kann nicht für den Verleih sprechen …

Wir haben den Verleih Filmwelt zu dem Thema auch für ein Interview angefragt, aber keine Antwort erhalten.

Nach dem, was er uns vermittelt hat, war das auch für ihn kein Test. Es gab die klare Intention, dass diese Synchronfassung gut wird und einsetzbar. Wir haben nicht gesagt, wir probieren jetzt mal rum, und wenn es nix wird, ist das auch egal. Nein, es ging darum, diese neue Form der Produktion vollumfänglich einzusetzen.

Sie haben zuvor auch in der klassischen Synchronbranche gearbeitet, zuletzt waren Sie Geschäftsführer der Splendid Synchron GmbH. Wie kam es dazu?

Man denkt ja nicht gerne so weit zurück, aber meine Geschichte mit Synchron begann vor etwa 20 Jahren bei RTL. Dort bekam ich den Auftrag, einen Bereich zu übernehmen, an dem auch die Abteilung Synchron aufgehängt war. Wie man nun feststellt, hat mich das Thema, mit einigen Unterbrechungen, nicht losgelassen, bis hin zu diesem gemeinsamen Projekt mit zwei Partnern, dem Audio Innovation Lab. Synchron ist eine extrem spannende Angelegenheit. Es ist nichts für Menschen, die im Rampenlicht stehen wollen, sondern für die, die in einer kreativen Weise daran arbeiten wollen, dass Menschen ein Werk schauen und verstehen können, das sie sonst nicht verstehen könnten.

Wie ist die KI-Synchronfassung von „Black Dog“ konkret entstanden?

Es gibt zwei Möglichkeiten, mit der neuen Technologie zu arbeiten. Die eine Variante ist: Text to Speech. Sie sitzen am Computer und prompten, wie man das heute nennt. Die andere Variante ist Speech to Speech. Ich nenne das die Pumuckl-Variante, weil das der Anwendungsfall ist, den eigentlich jeder kennt.

2023 hat RTL eine Neuverfilmung der Kinderserie „Pumuckl“ herausgebracht. Wie im Original wurde der Kobold Pumuckl mit der Stimme des 2005 verstorbenen Hans Clarin synchronisiert, mit der Hilfe von KI.

Man nimmt in diesen Fällen alle Dialoge mit einer Sprecherin oder einem Sprecher auf. Diese Stimmen passt man dann mit der KI an die jeweilige Rolle an. Bei Pumuckl wurde damals die digitalisierte Stimme von Hans Clarin auf die neu aufgenommene Stimme draufgesetzt. Bei Black Dog haben wir beide Herangehensweisen, also klassische Synchronisation und KI, genutzt, aber nicht offengelegt, wo. Daher muss ich schmunzeln, wenn an Stellen über die KI geschimpft wird, an denen tatsächlich ein professioneller Voice Actor eingesetzt wurde. Diese Art von Kritik kann ich dann nur begrenzt ernst nehmen.

Mittlerweile ist „Black Dog“ auf verschiedenen Streamingdiensten verfügbar, und das Publikum kann die untertitelte Originalfassung mit der Synchronfassung vergleichen. Mir fiel zum Beispiel ein Moment auf, in dem ein Polizist spricht und dabei ein Nudelgericht isst. Trotzdem klingt er klar und verständlich. Ist da der KI etwas entgangen?

Kann sein. Unser Auftrag war, so nah wie nur möglich an das Original heranzukommen. Und auch im Original kann es Stellen geben, die irritieren, nicht zuletzt, weil der Film nicht für ein europäisches Publikum gedacht wurde. Wir haben Test-Shows gemacht, mit ganz „normalen“ Zuschauern. Bei den Rückmeldungen haben wir überwiegend festgestellt: Das, was in der Synchronfassung „komisch klang“ oder irritierte, war im Original auch so.

Fast alle großen Hollywood-Studios haben sich erst mal dazu bekannt, keine KI-Synchronisationen produzieren zu wollen. Es heißt, dass die Produktion einer hochwertigen KI-Synchronisation auch noch so zeitaufwendig ist, dass sie sich wirtschaftlich kaum lohnt.

In der Tat, manche Prozesse dauern noch sehr lange. Auch wenn die Entwicklung der Systeme unverändert beeindruckend ist, bedarf anspruchsvoller Content noch in einem erheblichen Maß der menschlichen Arbeit. Der Mensch ist der Schlüssel zum qualitativ hochwertigen Ergebnis, nicht die Maschine. Und ich bin sicher, dass das noch sehr lange so sein wird.

Es gibt großen Protest gegen die KI-Synchronisation. In Deutschland wird in einer Videokampagne die besondere künstlerische Qualität der hiesigen Synchronarbeit hervorgehoben und für „fesselnde Filme mit Stimmen von echten Menschen mit echten Gefühlen“ geworben. Sie halten stets dagegen, dass der Mensch in der Synchronarbeit weiterhin unverzichtbar bleibt und dass KI sogar neue Berufsfelder schaffen würde. Aber was ist, wenn der Unterschied zwischen einer KI-Synchronfassung und einer „echten“ nicht mehr erkennbar ist? Wäre es vielleicht besser, konkret über die Folgen des Strukturwandels durch KI und den Wert menschlicher Arbeit zu sprechen, anstatt sich mit Qualitätsdebatten aufzuhalten?

Diese Frage stellen Sie mir? Die müssten Sie den Verbandsvorständen stellen.

Wir haben dem Verband Deutscher Sprecher:innen e. V. angeboten, sich an diesem Interview zu beteiligen. Das wurde abgelehnt.

Also, ich würde ja gar nicht sagen: Die KI kann es besser. Es geht darum, ob wir in der Lage sind, den Kundenwunsch zu erfüllen, dass der Mensch, der im Kino oder vor dem Fernseher sitzt, in die Story hineingesogen wird. Können wir diesen Sog erzeugen? Die Antwort ist offensichtlich: Ja. Das heißt aber nicht, dass es falsch ist, wenn andere sagen: „Eine rein menschliche Stimme kriegt das noch zwei Prozent besser hin.“ Die Debatte, die hier geführt wird, ist für mich nachvollziehbar. Das Argument: „Mir bricht die Existenzgrundlage weg“, klingt bei Weitem nicht so emotional wie: „Ich habe hier eine besondere künstlerische Leistung, die einen Film auf menschlicher Ebene besser macht.“ Strategisch würde ich genauso argumentieren.

Künstlerisches Handwerk basiert auf Wissen und Intuition. Das Wissen der KI ist dem des Menschen überlegen. Ob sie in der Lage sein wird, auch emotionale Intelligenz zu simulieren, ist unklar. Fest steht, durch KI verlieren Menschen ihre Arbeit.

Es geht hier um Existenzen, und das nehme ich sehr ernst. Aber, liebe Leute, ich kann es auch nicht ändern. Ich habe das nicht erfunden. Wenn wir in Deutschland KI nicht nutzen, dann gehen die Aufträge eben nach China oder sonst wohin. Wir sind ein deutsches Unternehmen, arbeiten nach deutschen Regeln, mit unserer Ethik. Wir können den Sprechern und Sprecherinnen nur die Hand reichen und sagen: Wir verstehen eure Situation, wir können sie nur in Teilen ändern. Arbeitet doch mit uns in dem Umfang, wie wir euch Arbeit geben können.

Um welchen Umfang geht es?

Wir synthetisieren eure Stimme, und wenn wir sie einsetzen wollen, rufen wir an und fragen: Willst du für diese Rolle deine Stimme hergeben? Wir bezahlen euch dann nach dem vorher verabredeten Preis. Das eigentlich Coole ist ja, ihr müsst zum Geldverdienen nicht mehr arbeiten. Das ist zwar nicht dasselbe wie das, was ihr vorher gemacht habt. Aber es ist allemal besser als nichts, oder?

Die Sprecher:innen werden von Kunstschaffenden zu Rechteverwaltern ihrer Stimme. Das klingt nach einem prekären Prozess.

Es kommt aus meiner Sicht noch ein Aspekt dazu. Warum haben wir Synchronsprecher:innen? Weil die Original-Darsteller:innen die Fremdsprache nicht können. In der neuen Welt kann ein Original-Darsteller sagen: „Meine Stimme ist elementarer Bestandteil meiner Persönlichkeit, und ich will nicht, dass die Stimme, die in Deutschland verwendet wird, so gar nichts mit mir zu tun hat. Mein Stimme ist eine Marke.“ Wenn ich jetzt Schauspieler wäre, würde ich diese Marke vollumfänglich monetarisieren und daran verdienen, dass ich sie zum Beispiel einer KI-Synchronfassung für den japanischen Markt zur Verfügung stelle.

Dieser Vision nach werden eines Tages in den deutschen Fassungen von Hollywood-Filmen auch die „echten“ Stimmen von Brad Pitt und Scarlett Johansson zu hören sein, mit akzentfreiem Deutsch. Von Tom Tykwers Film „Das Licht“ wurde so schon eine englische KI-Synchronisation produziert.

Am Ende spart man so kein Geld, man verschiebt es an die Schauspieler:innen. Das hat nichts damit zu tun, dass man jemandem etwas wegnehmen will. Hier passiert etwas, das vielleicht Verhältnisse geraderückt, die aus bestimmten Gründen bisher verschoben waren. Jetzt kann man sagen: Meine Stimme gehört zu mir und ich entscheide darüber.

Am Ende von „Black Dog“ stehen symbolträchtige Bilder. Wohnsiedlungen am Rande einer Stadt werden abgerissen. Über Lautsprecher fordert eine Stimme die Menschen dazu auf, den Anweisungen der Behörden zu folgen. Es ginge darum, dass wir „zusammen an einer schöneren und besseren Umgebung für uns alle arbeiten“. Haben Sie einen Plan B, für den Fall, dass Ihre Arbeit bei Innovation Audio Lab durch eine KI ersetzt würde? Würden Sie nur noch als Anwalt arbeiten?

Auch als Jurist bin ich bereits von KI betroffen. Ich bin da immer wieder positiv überrascht – wenn auch mit dem negativen Impact, dass man natürlich irgendwie seine eigene Arbeit infrage stellen muss. Und das gilt am Ende auch für ein Synchronstudio. Braucht es uns noch in zehn Jahren? Oder ist das dann vollautomatisiert? Entscheidend ist, dass ich mit offenen Augen und Ohren durch die Welt laufe und wahrnehme, was passiert. Wenn dann etwas auftaucht, das in den innersten Kern meiner Tätigkeit eingreift, dann muss ich mir überlegen: Werde ich das los oder wird es bleiben? Und wenn es bleibt, kann die Frage nur sein: untergehen oder anpassen.

Placeholder image-1

Stefan Sporn ist Jurist und arbeitete zunächst als Journalist, bevor er im Jahr 2000 Projektmanager bei RTL und 2022 Geschäftsführer der Splendid Synchron GmbH wurde. Sporn gehört zu den Gründern der Audio Innovation Lab GmbH. An der TH Köln lehrt er Medien- und Urheberrecht