Perspektiven auf die Kreativität Künstlicher Intelligenz
von Dr. Daniel Nyga
Es vergeht kaum ein Tag, an dem in den Nachrichten nicht von Digitalisierung, künstlicher Intelligenz, maschinellem Lernen und Big Data zu lesen ist, und über Aufgaben und Berufe, die schon jetzt oder in absehbarer Zukunft von Computern und Robotern sehr viel schneller, kosteneffizienter und zuverlässiger erledigt werden, als sie je ein Mensch zu erledigen vermag. Während schon seit Jahrzehnten zu beobachten ist, dass Roboter die Menschen in Produktionsstraßen und Fertigungshallen zunehmend entlasten, müssen neuerdings auch Berufsgruppen, für deren Tätigkeiten bislang menschliche Intelligenz als unersetzlich galt – Ärzte, Anwälte oder Steuerberater, um nur ein paar zu nennen – damit rechnen, dass ihnen ihr Berufsstand schon bald von Algorithmen streitig gemacht wird. Im Jahr 2016 schließlich präsentierten Wissenschaftler der Sony Computer Science Laboratories Paris einen Popmusik-Song, der teilweise von künstlicher Intelligenz komponiert wurde und vom Musikstil der Beatles inspiriert war. Werden Algorithmen nun also auch noch die schönen Künste für sich vereinnahmen? Die letzte Bastion menschlichen Geistes, die man bisher für emotionslose Rechenmaschinen für vollkommen unzugänglich hielt? Ganz so ist es nicht. Denn Kunst, die von KI generiert wird, ist mittelmäßig. Und zwar im wahrsten Sinne des Wortes.
Der Song “Daddy’s Car”, der von Sonys Software “Flow Machines” komponiert wurde, kann sich durchaus hören lassen und der geneigte Hörer mag sich von dem Song tatsächlich an Werke der Beatles erinnert fühlen. Doch wie kreativ ist die von künstlicher Intelligenz komponierte Musik wirklich? Wie originell können die Werke sein, die ein Computersystem quasi auf Knopfdruck erzeugt? Auf den ersten Blick lassen sich durchaus Analogien zu menschengemachter Kunst erkennen. Die großen Meister vergangener Zeiten und auch zeitgenössische Künstler ließen und lassen sich schließlich auch von ihren Idolen beeinflussen und inspirieren. Ist “Flow Machines” also in einer Reihe mit Paul McCartney & Co. zu nennen? Bei genauerem Hinsehen muss die Antwort nein lauten, denn unser Verständnis von Kreativität und Originalität steht in einem fundamentalen Gegensatz zu der Funktionsweise von Algorithmen des maschinellen Lernens.
Für die Komposition von “Daddy’s Car” kamen sogenannte “Deep Neural Networks” zum Einsatz. Hierbei handelt es sich um eine Klasse von Verfahren des maschinellen Lernens, die durch ihre enormen Erfolge der letzten Jahre sehr rasch an Popularität und Bekanntheit gewonnen hat. Um die Gegensätzlichkeit von maschinellem Lernen und menschlicher Kreativität zu verstehen, ist etwas Grundlagenwissen aus der KI notwendig. Im Wesentlichen geht es beim maschinellen Lernen um das Ermitteln von mathematischen Funktionen aus einer Menge einzelner Beoachtungspunkte, die durch Anwendung der gesuchten Funktion hätten entstehen können – den sogenannten Trainingsdaten. Eine sehr rudimentäre Form solcher Funktionsermittlungen wird den meisten Lesern unter dem Begriff der Kurvendiskussion in der Schule begegnet sein, bei der beispielsweise Steigung und y-Achsenabschnitt einer Geraden aus zwei gegebenen Punkten berechnet wird. Beim maschinellen Lernen handelt es sich ebenfalls um eine Kurvendiskussion, allerdings mit nicht nur zwei, sondern vielen Tausenden oder sogar mehreren Millionen von Datenpunkten, und anstatt einfacher Geraden werden hochkomplexe, hochdimensionale Funktionen untersucht. Doch wie sehen die Datenpunkte konkret aus? Was hat ein Punkt im Koordinatensystem mit Gassenhauern wie “Twist and shout” oder “Help!” gemeinsam? Am Anfang eines jeden Machine Learning Problems steht die sogenannte Merkmalsextraktion der Trainingsbeispiele, im Englischen feature extraction genannt. Hierbei werden die betrachteten Beispiele nach relevanten Eigenschaften untersucht, die das Wesen eines bestimmten Beispiels möglichst gut charakterisieren und sich dazu eignen, sie von anderen Beispielen abzugrenzen. Im Falle der Musik kann ein einzelnes Beispiel ein Song sein, und dessen relevante Eigenschaften Tonart, Rhythmus, Takt, Tempo, die Tonfolge der Hauptmelodie, die beteiligten Instrumente und viele, viele Merkmale mehr. Alle diese Eigenschaften werden typischerweise in einer Tabelle erfasst: pro Zeile ein Song, und pro Spalte die Ausprägung eines Merkmals im jeweiligen Song. Das Ergebnis dieser Analyse wird in Fachsprache eine Featurematrix genannt. Die Aufgabe der Lernalgorithmen ist es nun, die vielen unterschiedlichen Ausprägungen der Merkmale auf wenige repräsentative Werte zu reduzieren, die jedoch in der Lage sind, die Featurematrix, also die Eingabedaten, möglichst akkurat wiederzugeben. Das zugrundeliegende Prinzip der Statistik nennt man “Maximum Likelihood” und bildet die Grundlage für nahezu alle heutigen Verfahren des maschinellen Lernens. Im Wesentlichen berechnen Lernalgorithmen also kompakte, niedrigdimensionale Repräsentationen und Transformationen von hochdimensionalen Eingabegrößen, die möglichst nahe an den ursprünglichen Eingabedaten liegen. Das Ergebnis des Lernens ist eine Funktion, die Aussagen der Art “ein typischer Beatles Song hat zwischen 70 und 90 beats per minute” kodiert. Die wohl berühmteste und wichtigste Vertreterin solcher Funktionen ist die nach ihrem Entdecker Carl-Friedrich Gauß benannte Gauß- oder Normalverteilung, gelegentlich auch “Gauß-Glocke” genannt. Sie gibt an, in welchem Maße die Werte einer bestimmten Größe um den repräsentativsten und wahrscheinlichsten ihrer Werte schwanken: den Mittelwert, der sich an der Stelle befindet, an der die Glocke ihren höchsten Punkt erreicht. Je breiter die Glocke ist, desto stärker fallen die Schwankungen aus. Die aus den Trainingsbeispielen ermittelte Funktion repräsentiert also auf die eine oder andere Art und Weise ein Mittelmaß der Eingabe-Songs und kann dazu verwendet werden, neue Songs als zufällige Samples aus der Funktion zu generieren, die sich in ihren Wesensmerkmalen von diesem Mittelmaß mehr oder weniger stark unterscheiden. “Daddy’s Car” ist genau das, was von einer solchen statistischen Analyse zu erwarten ist: ein durchschnittlicher Beatles-Song.
Obwohl der Begriff der Mittelmäßigkeit im allgemeinen Sprachgebrauch negativ konnotiert ist, ist das “Mittelmaß” in diesem Zusammenhang tatsächlich wörtlich zu nehmen: Bei “Daddy’s Car” handelt es sich um einen Durchschnitt aus mehreren Beatles Songs. Wäre es denkbar, dass “Flow Machines” den Song “Yesterday” komponiert, nachdem es alle anderen Songs der Beatles analysiert hat? Obwohl es ist nicht komplett auszuschließen ist, ist die Wahrscheinlichkeit dafür praktisch null. Der Grund hierfür liegt darin, dass sich der Song so sehr von seinen Vorgängern abhebt, dass er nicht durch statistische Analysen der Vergangenheit ableitbar ist. Leonardo da Vinci, Ludwig van Beethoven, Johann Wolfgang von Goethe, Pablo Picasso, Michael Jackson oder Freddie Mercury: ihre Kunst entsprach nicht dem Mittelwert der Gauß- Glocke ihrer Zeit. Sie waren Exzentriker, die bis dahin Unerhörtes und Unersehenes schufen und damit Generationen beeinflussten. Das wichtigste daran ist jedoch, dass die Werke dieser Künstler keine Zufallserzeugnisse sind. Jeder Ton, jedes Wort und jeder Pinselstrich ist exakt so gewollt und gekonnt arrangiert. Die Künstler wussten, dass es gut ist. Ein derartig instinktives Urteilsvermögen ist in keiner Künstlichen Intelligenz vorhanden. Ein Ansatz, der sich am Mittel alles bisher dagewesenen orientiert, vermag die schöpferische Erfindungshöhe der Werke großer Künstler nicht nachzuahmen. Originalität und Kreativität scheinen daher in einem Widerspruch zur Mathematik des maschinellen Lernens zu stehen.
Ist es also ausgeschlossen, dass eine KI den nächsten Sommerhit komponiert? Keineswegs. In der Natur ist das Mittelmaß nämlich ein überaus erfolgreiches Konzept. In einer Studie der Universität Texas im Jahr 1993 fand man heraus, dass Gesichter von Menschen als besonders attraktiv bewertet werden, deren Gesichtszüge dem Durchschnitt entsprechen. Die Psychologen ließen dazu individuelle Portraitfotos von Testpersonen nach ihrer subjektiven Attraktivität bewerten. Zum Vergleich wurden den gleichen Personen Fotos gezeigt, die von einem Computerprogamm durch übereinanderlegen mehrerer Portraits generiert wurden. Das Ergebnis: die computergenerierten “Durchschnittsgesichter” wurden auf einer Skala von 1 bis 5 um eine ganze Stufe attraktiver eingeschätzt als die Einzelportraits. Die Studie zeigt also, dass durchschnittliche Merkmalsausprägungen von Menschen durchaus als ästhestisch wahrgenommen werden können.
Es gibt jedoch noch eine weitere Eigenschaft, die gerade die Musik für Statistiker und KI-Wissenschaftler interessant macht, und zwar die “Einfachheit” des Komponierens. In der Informationstheorie versteht man unter dem Begriff Entropie ein Maß für den Informationsgehalt eines Zufallsexperiments. Ein Beispiel: Wirft man eine faire Münze, so haben beide möglichen Ergebnisse des Experiments, “Kopf” und “Zahl”, die gleiche Auftrittswahrscheinlichkeit, nämlich 50-50. Der Informationsgehalt des Münzwurfs ist daher 1 Bit, da keinerlei Vorhersagen über das Ergebnis getroffen werden können. Ist die Münze jedoch gezinkt, so steigt die Wahrscheinlichkeit für das eine Ergebnis, während die Wahrscheinlichkeit des anderen in gleichem Maße absinkt. Der Informationsgehalt nimmt infolge ab. Im Extremfall, in dem man eine Münze wirft, die auf beiden Seiten das gleiche zeigt, hat der Münzwurf einen Informationsgehalt von 0 Bit, da das Ergebnis bereits im Voraus feststeht. Sind also alle Ergebnisse gleich wahrscheinlich, ist die Entropie des Experimentes maximal und eine Vorhersage extrem schwierig. Unterscheiden sich die Auftrittswahrscheinlichkeiten aber stark, so lassen sich zuverlässigere Vorhersagen treffen. Statistiker schätzen daher niedrige Entropie, da sie Ordnung und damit gute “Lernbarkeit” eines Problems verspricht. Die Musik scheint von relativ niedriger Entropie geprägt zu sein. Betrachtet man alle zwölf Töne der Tonleiter als mögliche Ausgänge eines Zufallsexperiments, so stellt man fest, dass die meisten Musikstücke nur von einem kleinen Bruchteil aller Töne tatsächlich Gebrauch machen. Insbesondere die Popmusik scheint sich mit auffallend wenig Entropie zu begnügen, wie das Medley “4-Chord-Song” der australischen Comedygruppe “The Axis of Awesome” nahelegt. Andere Musikgenres, wie z.B. Free Jazz, weisen höhere Entropie auf, machen einen ungeordneteren Eindruck und werden als weniger harmonisch wahrgenommen. Die vielleicht höchste Entropie findet man in Werken der Zwölftonmusik, einem kompositorischen Verfahren aus dem frühen 20. Jahrhundert, bei dem sämtliche Töne der Tonleiter exakt gleich häufig auftreten. Für einen zufällig aus einem Zwölftonwerk ausgewählten Ton sind somit alle zwölf Töne gleich wahrscheinlich. Selbst für Programmieranfänger ist es eine leichte Übung, ein Computerprogramm zu schreiben, das Musikstücke in Zwölftontechnik komponiert. Allerdings ist uns bisher kein Zwölftonwerk bekannt, das es jemals in die Charts hätte schaffen können. Harmonie und Entropie scheinen daher direkt mit der Popularität von Musik zusammenzuhängen. “Flow Machines” hat mit “Daddy’s Car” daher einen echten Popsong komponiert, der ästhetisch und harmonisch ist, durchaus gefällig, aber eben auch niemanden von den Stühlen reißt.
Aus informationstheoretischer Sicht scheint das Komponieren von erfolgreicher Popmusik also ein machbares, wenngleich nicht sehr originelles Unterfangen zu sein. Ganz bewusst wird in der Wissenschaft des maschinellen Lernens der Begriff der Kreativität vermieden. Vielmehr werden KI-Systeme wie “Flow Machines” als generativ bezeichnet. Ein generatives System ist ein System, welches nicht nur eine intelligente Antwort auf eingegebene Daten berechnet, wie es zum Beispiel die Smartphone-App “Shazam” praktiziert. Die App identifiziert Titel und Interpret eines Songs anhand eines kurzen Audio-Mitschnitts – ein solches System wird diskriminativ genannt. Generative Systeme hingegen sind in der Lage, Featurematritzen selbst zu generieren. Während der Songtext von “Daddy’s Car” noch von Produzent Benoît Carré selbst verfasst wurde, sind jüngere Generationen von neuralen Netzen in der Lage, auch Texte zu erzeugen. Doch lässt sich in KI-Musik auch eine “Message” transportieren, einen tieferen Sinn über bloße Unterhaltung hinaus? Auch wenn das Forschungsfeld noch sehr jung ist – dies ist durchaus denkbar. Der Ansatz des multimodalen Lernens befasst sich mit dem Erlernen von statistischen Zusammenhängen zwischen Daten aus unterschiedlichsten Informationskanälen, mit dem Ziel, von einem gegebenen Kanal Rückschlüsse auf den jeweils anderen zu ziehen. Beispiele für offensichtlich zusammenhängende Kanäle sind Audio, Video und Songtexte aus Musikvideos. Durch multimodales Lernen lässt sich so ein zu einem Musikstück passender Text generieren. Auch weitere Anwendungen sind denkbar. So könnte ein multimodal lernendes neuronales Netz Zusammenhänge zwischen der Musik und der mittels Elektroenzephalografie (EEG) gemessenen Hirnaktivität lernen, welche Rückschlüsse auf den emotionalen Zustand des Hörers erlaubt. Dies ist chinesischen Forschern der Universität Shanghai im Jahr 2017 gelungen. Ein solches Netz könnte dazu verwendet werden, Musik zu komponieren, die gezielt bestimmte Emotionen bei ihren Hörern auslöst.
Sicherlich werden wir in Zukunft mehr von computergenerierter Kunst sehen und hören. Vermutlich werden wir nicht einmal merken, dass der Song im Radio, zu dem wir gerade mit unserem Bein im Takt wippen, von einem künstlichen neuronalen Netz erzeugt wurde. Außergewöhnliche Originalität ist von der KI-Kunst allerdings nicht zu erwarten. Was bedeutet dies für die Jobs in der Kreativbranche? Können sich Werbetexter, Komponisten, Fotografen und Designer sicher vor einer Übernahme durch KI fühlen? Auch hier muss die Antwort nein lauten, denn die KI vermag genau das zu bewerkstelligen, was für Künstler und Kreative eine überlebenswichtige Einnahmequelle darstellt. Nicht zuletzt handelt es sich bei der Kreativwirtschaft um einen Industriezweig, der darauf angewiesen ist, kosteneffizient zu produzieren. Doch nicht jeder Werbejingle, nicht jede Fahrstuhlmusik und nicht jede Supermarktbeschallung muss den Ansprüchen einer “Bohemian Rhapsody” genügen. In der Massenproduktion von Kunst wird die KI daher in Zukunft einen festen Platz einnehmen. Den KI-Systemen jedoch echte Kreativität zuzusprechen, wäre zu weit gegriffen.
Dr. Daniel Nyga forscht am Institut für Künstliche Intelligenz der Universität Bremen. Seine Forschungsinteressen konzentrieren sich auf Themen der Künstlichen Intelligenz und der Datenwissenschaft im Allgemeinen sowie auf Techniken des maschinellen Lernens, des Data Mining und der Mustererkennung. Im Mai nahm er an unserer Diskussionsveranstaltung zum Thema „Zukunftsmusik: Wie Künstliche Intelligenz komponiert“ im Haus der Wissenschaft Bremen teil.