Einführung in KI-gestützte Musikgenerierung

Die Welt der KI-gestützten Musikgeneratoren ist vielschichtig und umfasst verschiedene Ansätze, die es Anwender:innen ermöglichen, Musik zu erstellen, die oft zuvor nur Fachleuten vorbehalten war. Die bekanntesten KI-Anwendungen in diesem Bereich, wie Suno, Udio und Riffusion, basieren auf einem einfachen Prinzip: User:innen geben einen Prompt ein, der sowohl kreative Vorgaben als auch spezifische Texte enthalten kann, und erhalten daraufhin einen fertigen Song. Dieses System democratizes die Musikproduktion und erlaubt es Menschen ohne musikalische Ausbildung, eigene Werke zu kreieren. Im Vergleich hierzu verfolgt das Team um die Forscher:innen Sung-Ju Lee, Yewon Kim und Chris Donahue von der KAIST sowie der Carnegie Mellon University mit ihrem Tool Amuse einen innovativen Ansatz, der sich gezielt an Songschreiber:innen richtet, die nach Ideen und Inspiration suchen.

Die Funktionsweise von Amuse

Amuse ist in Verbindung mit dem Musikprogramm Hookpad konzipiert, das es Musiker:innen ermöglicht, über MIDI-Geräte Melodien und Harmonien einzugeben. Über eine Chrome-Extension können Songschreiber:innen Amuse als zusätzliches Tool nutzen, um neue Ideen zu entwickeln. Ein wesentlicher Aspekt ist die Integration von visuellen und konzeptionellen Eingaben: Nutzer:innen können Bilder – beispielsweise von einem Strand – sowie dazugehörige Gedanken und Keywords als kreative Anhaltspunkte angeben. Amuse generiert daraufhin neue musikalische Sequenzen, die in Hookpad weiter bearbeitet werden können. Die Forscher:innen setzten auf ein zweistufiges Verfahren mit drei KI-Modellen: Im ersten Schritt analysiert ein großes Sprachmodell (LLM) die Eingaben und erstellt mögliche Akkordfolgen. Im zweiten Schritt kommen zwei kleinere neuronale Netzwerke ins Spiel, die die Generationsergebnisse an musikalischen Standards ausrichten und deren Qualität bewerten.

Feedback von Musikschaffenden

Die Entwicklung von Amuse wurde stark von den Rückmeldungen einer kleinen Gruppe von Songschreiber:innen beeinflusst. Diese betonten, dass ihr kreativer Prozess oft durch eine Kombination aus musikalischer und nicht-musikalischer Inspiration angestoßen wird. Sie wünschen sich Werkzeuge, die ihnen die Eigenverantwortung und Kreativität ermöglichen, während sie ihre musikalischen Ideen umsetzen und weiterentwickeln. Das Feedback zeigte, dass die vollständige Generierung von Audiotracks durch Programme wie Udio und Suno es schwierig macht, spezifische musikalische Elemente für die eigene Arbeit zu extrahieren. Genau hier setzt Amuse an: Es bietet modulare Vorschläge an, die eine Anpassung und individuelle Bearbeitung ermöglichen. Dies ist besonders für professionelle Musiker:innen von Bedeutung, die wert auf Detailarbeit legen.

Trainingsdaten und rechtliche Überlegungen

Ein zentraler Punkt bei der Entwicklung von KI-Tools ist die Auswahl der Trainingsdaten. Amuse verwendet spezifische Datensätze, die vom Hersteller Hooktheory bereitgestellt werden. Diese Datensätze bestehen aus symbolischer Musik, die auf realen Songs beruht und sich auf übergeordnete Kompositionsmuster konzentriert. Diese Herangehensweise soll sicherstellen, dass Amuse nicht in die rechtlichen Probleme gerät, die andere KI-Programme hinsichtlich des Trainings mit lizenzierter Musik erfahren. Während das Haupttool Amuse in Hookpad integriert ist, stellen die Forscher:innen zudem sicher, dass der zugrunde liegende Algorithmus für die Akkordgenerierung als freier Python-Code verfügbar ist, was die Zugänglichkeit und Anpassungsmöglichkeiten für Entwickler und Musiker fördert.

Fazit: Neue Horizonte in der Musikproduktion

Die Entwicklungen rund um Amuse und ähnliche Tools wie Mozualization verdeutlichen, dass generative KI in der Musikproduktion eine vielschichtige Rolle übernehmen kann. Diese Programme sind nicht nur technologisch fortschrittlich, sondern auch darauf ausgelegt, den kreativen Prozess von Musiker:innen zu unterstützen. Das Verständnis für die Bedürfnisse der Nutzer:innen spielt hierbei eine zentrale Rolle und hebt die Bedeutung von kreativen Freiraum und Bearbeitungsmöglichkeiten hervor. Die Zukunft der KI-gestützten Musikgenerierung wird davon abhängen, wie gut solche Tools die kreativen Potenziale der Musiker:innen zur Entfaltung bringen können.