Mendelssohn bewegt: Ein Werkstattbericht zu KI-Videogeneratoren

Nach wie vor tut sich viel im Bereich KI-Anwendungen zur Produktion von Multimedia. Diese Anwendungen umfassen u.a. Bild-, Audio- und Videogeneratoren, mit denen mittels Prompts (präzise Formulierungen des gewünschten Resultats) der Inhalt in wenigen Augenblicken durch KI-Programme erzeugt wird. Die Zahl an unterschiedlichen KI-Anbietern, die ihre Produkte teils kostenlos, teils im Rahmen einer Lizenz anbieten, ist fast schon unüberschaubar, wobei sich hinter den verschiedenen Oberflächen häufig auch die gleichen Tools wie etwa Googles Anwendung VEO 3 verbergen. Um bei der rasanten Entwicklung auf dem Laufenden zu bleiben und nach produktiven Anwendungen für unser Projekt zu suchen, hat das KulaDig-RLP-Team an der Universität Koblenz eine KI-Werkstatt ins Leben gerufen, an der Projektleitung, Hiwis und weitere Interessierte in regelmäßigen Abständen gemeinsam KI-Anwendungen testen und diskutieren. Gestern traf sich das Team erstmals zum Thema KI-Videogeneratoren.

Unsere Hiwis bei der Generierung eines Videos mit der KI von Adobe Firefly.

Damit unser Ausprobieren der aktuellen Projektarbeit zugutekommt, sollte die Content-Erstellung den Komponisten Felix Mendelssohn Bartholdy (1809-1847) behandeln, denn die Spuren der Familie Mendelssohn werden in unserem Teilprojekt Koblenz-Horchheim thematisiert. Generiert wurden Videosequenzen, die wenige Sekunden dauern. Für die Erstellung längerer Sequenzen muss man deutlich teurere KI-Lizenzen nutzen. Nachfolgend möchten wir für Sie ein paar der Anwendungen und die mit diesen erzielte Resultate skizzieren:

Adobe-Firefly

Firefly ist eine KI-Anwendung der Firma Adobe mit der man Bilder, Audios und Videos generieren kann. In der kostenlosen Variante kann man eine begrenzte Anzahl an KI-basierten Inhalten erstellen. Wir nutzten für unseren Test eine Lizenz-Version.

In einem ersten Versuch wurde folgender Prompt erstellt:

„Der Komponist Felix Mendelssohn Bartholdy, in eleganter Kleidung gekleidet im Stil des 19. Jahrhunderts, läuft nachdenklich schlendernd durch die Rheinpromenade, eine Allee aus Platanen, in Koblenz-Horchheim.“

Firefly lieferte uns folgende Videosequenz:

Dass Firefly den Komponisten Mendelssohn zu einem Mann, der eher in unsere Zeit passt, gemacht hat, ist dadurch zu erklären, dass KI nicht auf Datenbanken zugreift, sondern Wahrscheinlichkeiten berechnet und somit Schwierigkeiten damit hat, konkrete (historische) Personen wiederzugeben, ohne dass ihr eine Bildquelle zur Verfügung gestellt wurde, anhand derer sie sich bedienen kann. Auch die gewünschte „elegante Kleidung im Stil des 19. Jahrhunderts“ stimmt nicht mit dem Resultat überein. Typisch für KI ist noch, die Ergänzung seltsamer Elemente, wie wir es in der Darstellung des braunen tuchähnlichen Elements finden. Die Allee und der Fluss sind soweit in Ordnung, wobei die Gestaltung der Allee mit akkuraten Pflastersteinbereichen und auch die Häuserzeile recht modern anmuten.

Wir unternahmen einen zweiten Versuch mit einem veränderten Prompt:

Prompt: „Ein Mann aus dem mittleren 19. Jahrhundert im mittleren Alter mit welligem dunklem Haar, gekleidet im Stil des frühen 19. Jahrhunderts, flaniert entlang der Rheinpromenade, eine Allee aus Platanen, in Koblenz-Horchheim.“

Folgende Videosequenz wurde erstellt:

Während die Figur sich schon eher am gewünschten Vorbild Felix Mendelssohns orientiert, birgt die umgebende Landschaft ihre Schwächen. Zwar wird die Person flanierend in einer Allee dargestellt, ist diese jedoch wieder modern gestaltet und auch die Rheinpromenade ist nicht umgesetzt. Das hat vermutlich den Hintergrund, dass die KI durch den Begriff „Rheinpromenade“ und die Ortsangabe Koblenz-Horchheim überfordert war.

Dann versuchten wir mit Firefly ein Bild zu generieren und nutzten folgenden Prompt:

„Der Komponist Felix Mendelssohn Bartholdy, in eleganter Kleidung gekleidet im Stil des frühen 19. Jahrhunderts, flaniert die Rheinpromenade entlang, eine Allee aus Platanen, in Koblenz-Horchheim.“

Das Resultat gefiel uns schon ganz gut, lediglich die klar als modern erkennbaren Personen und Autos im Hintergrund gefielen uns nicht. Diese wurden mittels der Funktion „Generatives Füllen“ entfernt:

Sicher ist es für KI (noch) einfacher Personen relativ anonymisiert von hinten darzustellen. Den Fluss muss man sich nun rechts dazu denken. Die Prompt-Vorgabe „Rheinpromenade“ ist einfach zu ungenau.

Um zu sehen, wie unterschiedlich die Resultate bei nahezu gleichem Prompt ausfallen haben wir einen letzten Versuch mit Firefly unternommen:

Prompt: „Der Komponist Felix Mendelssohn Bartholdy, in eleganter Kleidung gekleidet im Stil des frühen 19. Jahrhunderts, flaniert die Rheinpromenade entlang, eine Allee aus Platanen, in Koblenz-Horchheim.“

Dieses Bild kommt unseren Erwartungen am nächsten, da sowohl eine Person des 19. Jahrhunderts, als auch die Allee und die Flusspromenade erfüllt wurden.

Google Flow

Als zweites testeten wir Google Flow. Dabei handelt es sich um ein KI-gestütztes Videogenerierungsmodell, das in Verbindung mit anderen Google-Generativmodellen wie Veo, Imagen und Gemini arbeitet. Nach Anmeldung mit der eigenen Google-Kennung, (gleiche Kennung wie für das Google-Mail-Postfach) kann man monatlich eine begrenzte Anzahl von Videosequenzen erstellen.

Prompt: „Ein Mann, mitteleuropäischen Aussehens und um die 35 Jahre alt, rasiert, schlank und mit mittellangen lockigen dunklen Haaren ist gekleidet in elegante schwarze Kleidung aus der Mitte des 19. Jahrhunderts mit schwarzem Gehrock und weißer Halsbinde. Er spaziert nachdenklich durch einen menschenleeren Park. Er läuft eine Allee alter und großer Platanen entlang. Rechts ist eine steinerne Bordüre und dahinter sieht man schemenhaft einen Fluss. Die Szene ist fotorealistisch, das Licht ist warm und ein paar Blätter fallen von den Bäumen herunter.“

Aus der Erfahrung mit Firefly schöpfend, haben wir keine konkreten Personen- oder Objektnamen im Prompt integriert, sondern dafür eher auf eine möglichst genaue Beschreibung des zu erzielenden Resultats gesetzt. Folgende Videosequenz wurde erstellt:

Das Ergebnis ist etwas sehr romantisiert, aber kommt unseren Erwartungen schon recht entgegen. Lediglich das konfuse Hin- und Herlaufen der Person birgt Irritationspotenzial, im Verhalten wird das Nachdenkliche ausgedrückt.

Um auf diese Szene weiter aufzubauen, auch um ein späteres Zusammenfügen der einzelnen Sequenzen zu ermöglichen, haben wir Prompts für eine neue Szene aus dem Park der Mendelssohns in Horchheim erstellt. Im Hinterkopf hatten wir historische Bilder der Familie Mendelssohn-Bartholdy, die vor ihrem Teehaus in ihrem Park in Horchheim versammelt sind.

Darauf basierend formulierten wir folgenden Prompt:

„Ein Park, Fokus auf im Wind wehende Äste, ein paar fliegende Blätter. Dann Fokus auf den Hintergrund. Diese Szene wird leicht unscharf dargestellt: Man sieht ein Teehaus in Form eines kleinen Backsteinpavillons mit großen Rundbogenfenstern umgeben von großen Bäumen. Vor diesem Gebäude ist eine Teegesellschaft auf dem Rasen platziert. Es handelt sich um eine größere Familie, Damen, Herren und Kinder, gekleidet in elegante schwarze Kleidung aus der Mitte des 19. Jahrhunderts. Die Erwachsenen unterhalten sich und trinken Tee, die Kinder laufen auf dem Rasen herum.“

Beim Erstellen und sicher auch beim Lesen der beiden letzten Prompts fällt auf, dass man sehr genau formulieren muss, was man am Ende sehen möchte, und die Texte einen gewissen literarischen Charakter aufweisen.

Interessanterweise wurde eine Sequenz erstellt, die mit Audio – Gespräch in englischer Sprache – ergänzt war. Was die Frage eröffnet, aus welchen Quellen sich die KI bedient. Vermutlich wurden englische Filme mit Tea-Time-Szenen der feineren Gesellschaft zu Rate gezogen und durch den Prompt angepasst. Der im Prompt definierte Wunsch, die Teegesellschaft solle als Hintergrundszene leicht unscharf wiedergegeben werden, wurde nicht erfüllt. Inwiefern das Dargestellte historisch korrekt wiedergegeben wurde, bedarf jedoch einer profunden Kenntnis von Historikern oder Kunsthistorikern.

Freepik

Anders als die beiden beschriebenen Videogeneratoren kann man mit Freepik real existierende Bilder in bewegte Videosequenzen verwandeln. Allerdings bedarf es für diese Form der Nutzung einer Lizenz. Wir griffen auf ein Gemälde von Felix Mendelssohn-Bartholdy zurück, das Eduard Magnus 1846 von dem Komponisten gemalt hatte.

Interessanterweise wurde, nachdem das Bild in Freepik hochgeladen wurde, automatisch durch die KI ein Bild beschreibendes Prompt verfasst. Dieses lautet folgendermaßen:

„A close-up portrait of a distinguished gentleman with dark hair and a well-groomed beard, dressed in formal attire. The camera slowly zooms in, highlighting the intricate details of his clothing and the subtle expressions on his face. The background is softly blurred, creating a warm, intimate atmosphere. The lighting is soft and diffused, casting gentle shadows that enhance the subject’s features. The overall mood is reflective and dignified, evoking a sense of historical significance.“

Übersetzt lautet der Prompt: „Nahaufnahme eines vornehmen Herrn mit dunklem Haar und gepflegtem Bart in formeller Kleidung. Die Kamera zoomt langsam heran und hebt die feinen Details seiner Kleidung und die subtilen Gesichtsausdrücke hervor. Der Hintergrund ist sanft unscharf und schafft eine warme, intime Atmosphäre. Die Beleuchtung ist weich und diffus und wirft sanfte Schatten, die die Gesichtszüge des Motivs hervorheben. Die Gesamtstimmung ist nachdenklich und würdevoll und vermittelt ein Gefühl historischer Bedeutung.“

Dieser Prompt beschreibt lediglich das Bild und man kann anhand dieses Beispiels sehen, wie KI selbst Prompts formuliert, was wiederum interessante Rückschlüsse für die Erstellung eigener Prompts liefern kann. Nun kann man aber auch diesen Prompt ergänzen, um eine bewegte Szene zu kreieren. Wir formulierten folgenden Prompt:

„He looks at the viewer, gesticulates with his hands and says slowly and gentle: Ich bin Jakob Ludwig Felix Mendelssohn-Bartholdy, geboren am dritten Februar 1809 in Hamburg. Ich liebe es zu komponieren. Aber meine Landschaft gilt Koblenz. Ich spaziere gerne am Rhein entlang in unserem Park. Herrlich. He takes a Violine in his hands and starts playing a melancholic sound.“

Übersetzt: „Er schaut den Betrachter an, gestikuliert mit den Händen und sagt langsam und sanft: Ich bin Jakob Ludwig Felix Mendelssohn-Bartholdy, geboren am dritten Februar 1809 in Hamburg. Ich liebe es zu komponieren. Aber meine Landschaft gilt Koblenz. Ich spaziere gerne am Rhein entlang in unserem Park. Herrlich. Er nimmt eine Geige in die Hand und beginnt einen melancholischen Klang zu spielen.“

Folgendes Video wurde erstellt:

Es zeigt sich, dass der gesprochene Satz zu lang war für die Sequenz und demnach stark gekürzt werden müsste, damit er nicht vom Programm abgeschnitten wird. Gelungen ist aber die automatisch erstellte Stimme, wobei die Erstellung von sprechenden Personen nochmal eine weitere Problematik eröffnet. Rezeptionsästhetisch betrachtet, kann eine sprechende Person den Wunsch, so nahe wie möglich historisch korrekt zu bleiben, stören. Wir wissen nun mal nicht, wie Felix Mendelssohns Stimme klang und wie er sprach. Daher stellt sich die Frage, ob man nicht eine rein handelnde Person generiert und diese mit einer Erzählertonspur unterlegt. Sonst kann die Person zu sehr den roboterhaften Charakter eines Avatars bekommen. Interessant aber ist auch, dass der Griff zur Violine, das Anlegen und Spielen gut umgesetzt wurde, ja dass sich sogar der anfangs eingeschränkte Bildraum mit dem Anlegen der Violine erweitert.

Abschließend haben wir noch eine zweite Szene, basierend auf das Gemälde, erstellt. Wir gaben der KI vor, dass Mendelssohn folgenden Satz spricht: „Ich bin ein Horschemer“, was soviel heißt, wie: Ich bin ein Horchheimer“. Daraufhin soll er sich umdrehen und gehen. Folgende Videosequenz wurde erstellt:

Fazit

Bei der Beschäftigung mit den drei beschriebenen KI-Videogeneratoren wurde deutlich, dass ein möglichst präzises Prompting elementar für ein gutes Ergebnis ist. Für das Prompting aber benötigt man eine gewisse Vorstellung, was dargestellt werden soll. Auch sollte man von Eigennamen (Felix Mendelssohn oder Rheinpromenade) absehen und dafür stärker auf detaillierte Beschreibungen setzen. Ein nicht unwesentlicher Punkt dabei ist, dass man die Prompts wie ein Filmdrehbuch schreibt, also auch die Setzung eines Fokus oder eine Abfolge – was ist zu sehen – beschreibt. Damit man historisch korrekte Inhalte generiert, bedarf es gewisser kunsthistorischer oder sozialhistorischer Kenntnisse. Und sollte nach Möglichkeit der Software passende Abbildungen hochladen.

Die entstandenen Sequenzen sind mit einer Länge von wenigen Sekunden natürlich noch zu kurz, um sie im Rahmen des Projekts sinnvoll zu nutzen. Als einzelne Einstellungen in einem längeren Videoclip könnten Sie aber genutzt werden. Problematisch ist, dass bei vielen Programmen jedes Mal neue Szenen generiert werden, so dass man eine Fortschreibung der vorherigen Szene nicht optimal leisten kann. Da wird sich dann zeigen, ob man mit kostenverbundenen Lizenzen bessere Resultate erzielen kann. Wir werden in unserem KI-Labor dranbleiben, versprochen. 😉

Hinterlasse einen Kommentar