Technologie | Künstliche Musik: Adorno auf dem E-Scooter klingt unmittelbar philosophisch
Der Wunsch, dass Maschinen für Menschen Musik machen, ist bei Weitem keine neue Idee. Bereits vor 2.000 Jahren erdachte Heron von Alexandria in seiner Schrift Automata Musikmaschinen wie eine windbetriebene Orgel. Im Mittelalter waren mechanische Musikautomaten mit Glockenspielen populär und bald darauf gab es selbst spielende Instrumente, die über Stiftwalzen angesteuert wurden. Diese Technik existiert bis heute in Spieluhren für Kinder. Einen Hype gab es im 19. Jahrhundert mit den sogenannten Pianolas (Automatenklavieren), die häufig in Cafés und Restaurants der Bohème standen und für die Gastronomie vor allem reizvoll waren, weil Personalkosten wegfielen. Außerdem konnte dank Automation der Pianist nicht mehr zu spät zur Arbeit kommen, miese Launen haben, Liederwünsche verweigern, geschweige denn regelmäßig die Bar leer saufen. Praktisch – wurden durch die Maschine doch viele Probleme auf einmal gelöst.
In den folgenden Dekaden kamen zahlreiche neue Maschinen in der Musik hinzu und mit jeder technologischen Innovation wurden harte ideologische Grabenkämpfe ausgefochten. Die Debatten sind allesamt selbstähnlich. Als in Folge der Erfindung des Phonographen durch Thomas Edison im späten 19. Jahrhundert die Schallplatte zum Massenmedium für Musik wurde und Radiostationen nun Songs von Platten abspielten, protestierten die Rundfunkorchester, die bis dahin live über den Äther gespielt hatten, gegen den vermeintlichen Untergang der Musikkultur. Vom Verlust der Arbeitsplätze ganz zu schweigen.
Folgt man dieser Lesart, gab es noch einige nukleare Musikwinter. Mit Synthesizern wurden schlagartig analoge Instrumente obsolet. Drumcomputer machten Schlagzeuger:innen überflüssig. Sampler im Hip-Hop beklauten eine ganze Ära der Musikaufzeichnungen. Und als Heimcomputer und Laptops zunehmend als Heimstudio taugten, brauchte niemand mehr in ein kostspieliges Aufnahmestudio zu gehen oder sich von Labels abhängig zu machen, um überhaupt in die Lage zu kommen, Musik aufzuzeichnen. Und selbst in neueren Disziplinen wie dem DJing war es bis zuletzt ein Politikum, ob man Menschen, die digital und nicht mit Vinyl auflegten, überhaupt DJs nennen darf.
Bluegrass + Mozart + Mos Def
Heute sind es künstliche Intelligenzen, die auf der einen Seite für technikaffine Euphorie sorgen und auf der anderen Seite kräftiger Motor für kulturpessimistische Szenarien sind. Die Entwicklungen sind wahnsinnig rasant. Täglich erscheint ein neues Tool, das die Produktion und Komposition von Musik entweder wesentlich vereinfachen oder gar revolutionieren will. Die Vielfalt der Applikationen ist beeindruckend. Und es ist nur ein erster Vorgeschmack darauf, inwiefern KI kreative Produktionen im Laufe der nächsten Jahre beeinflussen wird. Aber wie sieht dieser Einfluss aus? Wer wird von diesen Entwicklungen profitieren und wer nicht? Und welche Rolle spielen Politik und Systeme, wenn wir über KI-generierte Musik sprechen?
Kürzlich präsentierte Google das Sprachmodell MusicLM. In der Praxis ist es für die Öffentlichkeit noch nicht zugänglich, doch die bislang veröffentlichten Beispiele sorgten bereits für reichlich Diskussionsstoff. Bei MusicLM wird Musik auf Basis von Textbefehlen generiert. Das Prinzip ist von Bild-KIs wie Midjourney, DALL-E2 und Text-KIs wie ChatGPT bekannt. Statt „Male mir ein dreibeiniges Pferd im Stile von Vincent van Gogh“ oder „Schreibe mir eine Klausur über die gesellschaftliche Rolle der Klimaanlage in der Sowjetunion“ kann es nun beispielsweise heißen: „Komponiere einen Bluegrass-Song mit Mozart-Harmonien und Raps im Stile von Mos Def“.
MusicLM ist aber auch in der Lage, Musik aus Foto- und Bildbeschreibungen abzuleiten. Genauso lassen sich einzelne Fragmente wie Melodien durch unterschiedlichste Genres oder Instrumentierungen modulieren. Interessant ist, dass MusicLM bei elektronischer Musik wie Techno weitaus bessere Ergebnisse erzielt als bei Spielarten wie Swing. Fast so, als wäre es für Maschinen einfacher, elektronische Maschinenmusik zu machen. Als befände sich die Transferschwelle hier mehr auf Augenhöhe. Ähnlich funktioniert Riffusion, das auf Basis der Open-Source-KI Stable Diffusion entwickelt wurde. Hier werden Prompts zunächst in visuelle Spektrogramme überführt und dann in Musik umgewandelt.
Anfangs mutet es magisch an, dass mit Hilfe eines Textbefehls binnen weniger Sekunden Musik erschaffen wird. Musik entsteht hier im ständigen Dialog mit den Maschinen und natürlich sind die Soundstücke, die bislang erklingen, noch weit davon entfernt, schillernde Hits zu sein. Spannend werden die Plattformen, sobald man versucht, an ihre syntaktischen und semantischen Grenzen zu gehen und Kreativität durch Fehler entstehen lässt. Das war bei den eingangs genannten Musikmaschinen aus dem 20. Jahrhundert übrigens nicht anders. Synthesizer wurden interessant, als man nicht nur versuchte, Querflöten und Geigen zu simulieren, sondern ihren genuinen Klangcharakter in den Vordergrund stellte. Drumcomputer wie die ikonischen Roland 808 und 909 waren schlecht darin, Fusion, Jazz oder Blues zu spielen. Es waren die repetitiven, dafür umso gewaltigeren Beats im Hip-Hop, House und Techno, die die Maschinen populär machten. Davor verstaubten sie als Ladenhüter, weil Rock- und Jazz-Musiker:innen mit ihnen redlich wenig anfangen konnten.
Textbasierte KI-Software wie Riffusion enttäuscht, wenn man eine möglichst authentische Kopie von Phil Collins oder Beyoncé haben möchte. Zu sehr überwiegen noch die digitalen Artefakte, wie man sie von schlecht komprimierten MP3 kennt – es ist nicht ausgefeilt genug. Gibt man aber Prompts ein wie „Avocados in einem italienischem Froschteich“ oder „Theodor Adorno auf dem E-Scooter“ wird man nicht selten positiv ob der sehr eigenen Ästhetik überrascht. Producer würden sagen: Hier schlummert viel stabiles Sample-Material.
Vielseitig sind die Möglichkeiten der Interoperabilität zwischen verschiedenen KIs. So kann ChatGPT einen Rap-Text schreiben, der von der Text-to-Speech-Software Uberduck im Stil von Jay-Z oder Eminem gerappt werden kann. Dazu ein KI-Beat, fertig ist der Rap-Song. Bei so einer Herangehensweise überwiegt der kurze Wow-Effekt. Es ist evident, dass solch eklektische Ideen wenig Bestand, geschweige denn künstlerische Qualität haben. Aber der Umgang von Künstler:innen mit KI in den nächsten Jahren wird zeigen, wie kreativ der Output werden kann, sobald man abstrakt und unorthodox mit Prompts und den Potenzialen der Technologie umgeht.
Klingt nur menschlich
Musiker:innen wie Holly Herndon oder Jan St. Werner und Andi Toma alias Mouse on Mars arbeiten schon länger mit den Möglichkeiten von KI. Letztere experimentierten auf ihrem 2021 erschienenen Album AAI mit selbst entwickelten künstlichen Intelligenzen als Kompositionswerkzeug und als Musikinstrument. Stimmen, die vermeintlich von Menschen stammen, entspringen hier eigentlich einer Maschine. Das Album beschreibt vor allem auch die anarchischen und chaotischen Momente, die im kreativen Dialog zwischen Mensch und Maschine entstehen.
Die K-Pop-Band Eternity hingegen besteht aus KI-Charakteren und gar keinen echten Menschen mehr. Für diesen auf Hyperkapitalismus getrimmten Sektor kann das eine günstigere und effizientere Alternative darstellen – solange die Fans mitspielen. Erfolgversprechend sind heute bereits KI-Plattformen wie Soundraw, die generische und vor allem tantiemenfreie Hintergrundmusik für Youtuber, Influencer oder Werbefilme herstellen. Auf die funktionale Gebrauchsmusik werden sich die derzeitigen Entwicklungen zweifellos gravierend auswirken.
Das wesentliche Problem liegt, wie in vielen Bereichen, in denen KI zur Anwendung kommt, im Training der Maschinen. Welche Musikwelt wird repräsentiert, wenn vornehmlich weiße, westliche Männer, die für globale Milliardenunternehmen arbeiten, das Trainingsmaterial beschaffen und einspeisen? Die Datensätze von Googles MusicLM machen das deutlich. Hier dominieren Genres wie elektronische Musik (15,6 Prozent), Klassik (13,7 Prozent), Country und Blues (10,9 Prozent) und Rock (10,5 Prozent). Musik aus Lateinamerika nimmt gerade mal 3,5 Prozent ein. Musik aus Asien 2,6. Die vielfältige und komplexe Musikwelt der afrikanischen Länder wird unter ferner liefen verbucht.
Westlicher Kulturimperialismus und systemische Diskriminierung qua mangelnder Sichtbarkeit leben also auch in den ständig wachsenden Datenbanken der künstlichen Intelligenzen weiter und sind nur mühsam zu stoppen. Zeitgleich erreicht die Symbiose von Mensch, Musik und Maschine eine neue Ebene, die ganz im Sinne von Kraftwerk sein könnte. In ihrem Song Taschenrechner von 1981 hieß es bereits: „Ich addiere und subtrahiere. Kontrolliere und komponiere. Und wenn ich diese Taste drück, spielt er ein kleines Musikstück. Ich bin der Musikant mit Taschenrechner in der Hand.“