Was ich gerne hätte, aber nicht bekommen werde

Ich nutze KI ganz gerne dafür, dass ich Texte einspreche und mir diese dann transkribieren lasse. Das finde ich relativ komfortabel, weil ich nicht tippen muss. Irgendwann vergaß ich, die Aufnahme zu stoppen, und die KI musste meine Gitarrenklänge transkribieren. Erstaunlicherweise erkannte sie Gitarrenspiel und Arpeggien in D-Dur. Da wurde ich hellhörig.

Ich stellte mir plötzlich die Frage: Kann KI Noten in Sound umsetzen? Wichtig war mir dabei, dass diese Umsetzung so klingt wie von einem guten Musiker.

Erst einmal: Warum hätte ich das gerne? Ich habe in all den Jahren immer wieder versucht, für die Schüler sinnvolle Vorspieltechniken für zu Hause zu entwickeln. Was meine ich damit? Der Schüler kann das Tempo des Abspielens bestimmen, und er kann den Abschnitt festlegen. Ich habe jedoch nie etwas wirklich Vernünftiges geschafft. Deswegen keimte in mir die Vision auf: Die KI bekommt die Noten, und dann sagt man ihr: „Spiel mir bitte den ersten Takt vor, aber im halben Tempo.“

Dann bekommt der Schüler diese Passage in einer musikalisch und audiotechnisch sehr guten Qualität zu hören.

Denn wenn man eine normale Aufnahme auf das halbe Tempo reduziert, klingt das schrecklich. Also klapperte ich diverse Musik-KIs ab und konnte wieder feststellen, warum ich KI nicht besonders mag. Ich gab den KIs jeweils „Alle meine Entchen“ als MusicXML-Datei und meinte: „Mach mir ein Soundfile, in dem diese Noten mit einer Flöte von einem guten Musiker gespielt werden.“

Die KIs behaupteten auch sehr eilfertig, sie hätten diese Aufgabe bravourös erfüllt. Das, was zu hören war, war zwar teilweise beeindruckend, aber weder eine einstimmige Melodie mit Flöte noch „Alle meine Entchen“, sondern ein frei zusammenfantasiertes Stück.

Jetzt komme ich zu dem Punkt, an dem dieser Artikel eine argumentative Schwäche bekommt. Ich habe versucht herauszufinden, ob es KI gibt, die diese Aufgabe erfüllt. Ich habe nichts gefunden. Ich habe auch KIs gefragt; sie fanden ebenfalls nichts. Deswegen habe ich die KIs gefragt, warum das nicht möglich ist oder warum es so etwas nicht gibt. Die Antwort war plausibel – ob sie der Wahrheit entspricht, weiß ich nicht.

Erster Punkt: Um so etwas zu machen, bräuchte man sehr viele Trainingsdaten. Das Problem sei aber, dass man diese Trainingsdaten bezahlen müsse.

Zweites Problem: Man könne nicht einfach die MusicXML-Dateien und die Aufnahmen in die KI einspeisen, sondern man müsste die Aufnahmen zusätzlich aufbereiten, also markieren, wann die Noten beginnen.

Warum halte ich diese Argumentation für plausibel? Ich wollte vor kurzem einen Konverter für die XML-Dateien von MuseScore erstellen. Das Problem ist: Dieses XML-Dateiformat ist nicht dokumentiert. Also gab ich der KI sämtliche Dateien, die ich auf meiner Festplatte hatte – das waren über 500 Stück –, und die KI war nicht in der Lage, daraus etwas Vernünftiges zu destillieren, um meinen Konverter zu bauen. XML-Dateien haben aber per Definition eine logische Struktur. Diese Struktur dürfte zum analysieren und Erkennen von Strukturen wesentlich einfacher sein als aus einer Sounddatei, welche für eine KI ein Zeichensalat ist.

Wenn es stimmt, dass jemand, der eine solche KI entwickeln will, entsprechende Lizenzgebühren bezahlen muss, dann hätte er außerdem das Problem, dieses Geld wieder einspielen zu müssen. Wenn ich mir jetzt vorstelle, ich sage meinen Schülereltern: „Du musst 10 Euro pro Monat zahlen, damit Du ein Super-Vorspielgerät hast“, weiß ich nicht, ob die Eltern oder die Schülerschaft bereit wären, das zu zahlen.

Dann der zweite Einwand: Die Sounddateien müssten so aufbereitet werden, dass klar ist, wann die Noten beginnen und aufhören. Ich bezweifle zwar persönlich, dass das wirklich notwendig ist, aber solch eine Aufbereitung würde vermutlich die Datenmenge, die zum Training benötigt wird, erheblich verringern.

Also: Bis es ein solches Tool gibt, werden wahrscheinlich noch einige Jahre vergehen, vielleicht sogar ein Jahrzehnt oder zwei. Wobei diese Zahlen eher aus dem hohlen Bauch kommen.

An einer anderen Stelle des Blogs habe ich bereits darüber geschrieben, ob KI unsere Arbeit übernehmen könnte. Dieser Artikel hat einen weiterführenden Gedanken in mir ausgelöst Wenn es schon so schwierig ist, die KI zu einem guten Vorspieler zu machen, gibt es noch ein zweites Problem: Es gibt im Unterricht die Methode „Ich mache das Schlechte exemplarisch vor und mache dann das Gute vor“.

Aber wenn es schon so kompliziert sein soll, exemplarisches Material für das gute Beispiel auszuwerten. Wie kommt die KI an das Material für das exemplarisch Schlechte. Da dürfte es an der Masse fehlen.

Der Beitrag wurde am Freitag, den 1. Mai 2026 um 08:31 Uhr veröffentlicht von Stephan Zitzmann und wurde unter den Kategorien: Gitarrenunterricht, Künstliche Intelligenz abgelegt. | Es gibt keinen Kommentar .

Cookie	Dauer	Beschreibung
Matamo 2	30 minutes	Dieses von Matomo gesetzte Cookie wird verwendet, um festzustellen, wie Besucher die Website unter Verwendung einer eindeutigen Besucher-ID nutzen. Die erhaltenen Daten sind nur mir dem Seitenbetreiber zugänglich.
Matomo Besucher ID	1 year 27 days	Dieses von Matomo gesetzte Cookie wird verwendet, um festzustellen, wie Besucher die Website unter Verwendung einer eindeutigen Besucher-ID nutzen. Die erhaltenen Daten sind nur mir dem Seitenbetreiber zugänglich.

Gitarrenunterricht in Frankfurt

Dipl.-Gitarrenlehrer Stephan Zitzmann

Was ich gerne hätte, aber nicht bekommen werde

Ähnliche Beiträge:

Cookiehinweis