Ein Test im Bereich Text- und Audiogenerierung
In einem unserer letzten Beiträge haben wir beschrieben, wie man vorgehen kann, um aus Schrifttexten mittels KI Audios zu generieren (Hier geht’s zum Beitrag). Nun möchten wir kurz darstellen, dass man auch Audios zu Texten umwandeln kann, und das ohne langwierige Verschriftung (Transkription). Mittlerweile gibt es dafür verschiedenste Anbieter und Webseiten – die meisten kann man allerdings nach einer kurzen Testphase nur mit einer kostenpflichtigen Lizenz nutzen.
audio2edit
Der Anbieter audio2edit.com hat sich auf verschiedene Funktionen in der Bearbeitung von Audiodateien spezialisiert und bietet nach Anmeldung eine kostenfreie Testversion an. Zu den Funktionen zählt das Schneiden von Audiodateien ebenso wie das Erhöhen der Lautstärke von zu leise aufgenommenen Audios oder das Konvertieren in andere Audio-Formate. Neben diesen Grundfunktionen, die auch andere Anbieter wie audacity oder audiotrimmer anbieten, gibt es hier die Möglichkeit, Schrifttext zu Audio oder Audio zu Schrifttext zu konvertieren.

Screenshot der Webseite audio2edit.com mit den verschiedenen Funktionen.
Die Text zu Audio-Umwandlung erbrachte kein befriedigendes Ergebnis, etwa im Vergleich zu anderen Anbietern wie etwa elevenlabs. Die Stimme klingt monoton und in keinster Weise natürlich, dazu spricht die generierte Stimme zu schnell. Hier ist das Resultat:
Dagegen lässt sich die Audio zu Text-Funktion recht gut nutzen. Wir haben testweise folgendes Audio aus Plaidt (es spricht Frank Neupert vom Plaidter Geschichtsverein e.V.) konvertiert:
Der generierte Text sieht folgendermaßen aus:

Die wenigen Fehler kann man schnell händisch beheben. Interessant ist, dass der Versprecher (im Audio zu hören bei 2’11/2’12 Min.) als solcher erkannt und nicht in die Transkription übernommen wurde.
Transkriptor
Ein weiterer Anbieter ist Transkriptor (app.transkriptor.com). Auch hier ist das Testen der Funktionen kostenfrei möglich, eine weitere Benutzung aber macht den Erwerb einer Lizenz notwendig. Nach der Anmeldung, auch für die Testnutzung erforderlich, kann man eine Audiodatei hochladen und bekommt dann den Text per Mail zugeschickt.

Interessant ist, dass Transkriptor jeweils die Minuten- und Sekundenzahl mit angibt, was etwa im akademischen Kontext von Gesprächsanalysen hilfreich sein kann. Ansonsten kann man auch hier wenig beanstanden – dass die KI mit dem Ortsnamen „Plaidt“ nichts anfangen kann, gehört zu den kaum vermeidbaren Schwächen aller KI-Systeme, die ja auf Wahrscheinlichkeiten beruhen und nicht auf Datenbankabgleichen. Die Angabe (im Audio) 1997 / 1998 allerdings wurde unsauber wiedergegeben („1909, 97, acht und neunzigste“)
Transkriptor ermöglicht zudem auch das Transkribieren eines YouTube-Videos. Dafür muss man lediglich den Link in das vorgesehene Metadatenfeld einfügen und sogleich wird in der Bearbeitungsmaske von app.transkriptor.com die Transkription erstellt. Wir haben das mit einer Videoclip-Sequenz mal testweise probiert. Die gesamte Datei kann man dann herunterladen. Auch hier ist eine Nachbearbeitung erforderlich.

Screenshot der Bearbeitungsmaske für die Transkription eines YouTube-Videos.
Whisper
Einen dritten Versuch machten wir mit Whisper (von Open AI, dem Betreiber von ChatGPT), der im wissenschaftlichen Sektor weit verbreitet ist und als kostenloser Transkriptionsservice allen Mitgliedern der Universität Koblenz zur Verfügung steht. Erneut haben wir die Audiodatei aus Plaidt herangezogen und folgendes Resultat erzielt:

Die Jahreszahlen 1997/98 stellten kein Problem dar. Dafür aber wurde der Versprecher nicht als solcher erkannt und automatisch getilgt. Dass auch Whisper über eine solche Funktion verfügt, lässt sich darin erkennen, dass die „Ähm’s“, die im Audio durchaus vorhanden sind, hier im Text ebenfalls nicht auftauchen. Mit Whisper lassen sich Audio-Dateien bei Bedarf auch übersetzen.
Audio zu Text umwandeln – was bringt das?
Auch wenn die Umwandlung von Schrifttext in Audio für unsere Zwecke mehr Anwendungsfälle bereithält, liegt der Nutzen der Audio-in-Schrifttext-Umwandlung auf der Hand: Wenn man beispielsweise eine Person interviewt (Zeitzeug:in, Wissensträger:in etc.), kann man mithilfe des eigenen Diktiergeräts auf dem Smartphone schnell eine Audiodatei generieren und diese dann im Anschluss in einen Schrifttext umwandeln. Auf diese Weise hat man bereits einen guten Grundstock für einen Informationstext, den man dann beliebig ausbauen kann. Selbstverständlich ist gesprochene Sprache anders strukturiert als ein Textbeitrags. Dennoch aber kann man die im Wortbeitrag dokumentierten Aussagen verwerten und für die weitere Textgestaltung nutzen. Ebenso kann man historische Ton- oder Videodokumente mit solchen Tools unkompliziert auswerten, aber zum Beispiel auch vorhandene Audio-Guides in Schrifttext umwandeln.
(Titelbild: Schreibmaschine von Florian Klauer / Unsplash, Buchstaben KI generiert mit Bing.com, Prompts und Collage: Florian Weber)