Mein fiktives Szenario
Der Golfclub Eagle Creek veranstaltet ein Sommerfest zur Sonnenwende. Alle Mitglieder des Clubs sowie deren Familien sind herzlich dazu eingeladen. Ablauf:
- Ab 10 Uhr: Golfturnier zum Sommerfest
- Freibier für alle Turnierteilnehmer an "Loch 19"
- ab19 Uhr: Gemeinsames Abendessen (italienisches Buffet)
- Musikalisch wird er Abend von der Band "Tanzfieber" begleitet
Vorgehensweise
Im ersten Schritt habe ich 2 KI-Tools (ChatGPT & Venice.ai) gebeten, ein Konzept dafür zu entwickeln und habe die Ergebnisse so kombiniert, dass sie meinen Vorstellungen am besten erfüllten. (Die Vorschläge waren sehr ähnlich.) Mein Ergebnis:
Idee Key Visual
- Sommerliches Golfplatz-Panorama bei Sonnenuntergang
- Menschen in sommerlicher Kleidung mit Getränken
- Italienisches Buffet & Musikszene im Hintergrund
- Farben: warme Töne, viel Grün, Orange, Pastellrosa
- Stimmung: entspannt, fröhlich, einladend
Idee Videokonzept (10 Sekunden)
- Eröffnungsszene: Vogelperspektive über dem Golfplatz
- Dynamischer Schnitt:
- Golfer:innen bei der Abschlagstelle
- Familie am Buffet
- Livemusik & Tanz bei Sonnenuntergang
- Abschluss: Logo & Text: „Summerfeeling im Eagle Creek Golfclub – Save the Date!“
Bilderstellung
Auch für die Bildgenerierung habe ich sowohl Venice.ai als auch Dall-e beide gegeneinander getestet. Die Ergebnisse von Dall-e waren deutlich besser. Ob das daran liegt, dass ich von Venice nur die Gratis-Version benutzen kann und von Dall-e die Team-Version kann ich nicht beurteilen. Im weiteren Verlauf der Dokumentation wird an dieser Stelle aber nur die Dall-e-Version weiter verfolgt:
Ausgangsprompt
Erstelle ein farbenfrohes, sonniges Bild eines Golfplatzes mit glücklichen Menschen, die ein Sommerfest feiern. Im Vordergrund sollte ein reich gedeckter Tisch mit einem italienischen Buffet zu sehen sein. Im Hintergrund findet ein Golfturnier statt, und ein Banner mit der Aufschrift "Summerfeeling" weht im Wind. Die Menschen sollten entspannt und fröhlich wirken, einige könnten Biergläser in der Hand halten. Die Band "Tanzfieber" spielt auf einer Bühne, und die Stimmung sollte festlich und einladend sein.
Ergebnis:
Es folgten daraufhin einige Iterationen, in denen ich verschiedene Veränderungen im Prompt ausprobierte, v.a. wollte ich das Bild fotorealistisch und das Thema "Golfspiel" prominenter im Vordergrund. Finaler Prompt:
Erstelle ein farbenfrohes, sonniges Bild eines Golfplatzes mit glücklichen Menschen. Im Vordergrund sollte eine Golfspielerin zu sehen sein, die gerade einen Abschlag spielt. In der Nähe stehen seine Mitspieler, ein Mann und eine Frau. Im Hintergrund sollte ein reich gedeckter Tisch mit einem italienischen Buffet zu sehen sein. Ein Banner mit der Aufschrift "Summerfeeling" weht im Wind. Die Menschen sollten entspannt und fröhlich wirken, einige könnten Biergläser in der Hand halten. Die Band "Tanzfieber" spielt auf einer Bühne, und die Stimmung sollte festlich und einladend sein. Das Bild soll für die Einladungskarte für ein Sommerfest des Golfclubs verwendet werden.
Insgesamt gut umgesetzt, doch wirklich real wirkt es nicht. Die Größenverhältnisse der Menschen im Hintergrund passen nicht. Zudem enthält das Bild sehr offensichtliche Fehler in der Golfbewegung (Golfspiel). Mit diesen Details tut sich Dall-e ganz offensichtlich schwer.
Videoerstellung
Zur Videoerstellung habe ich Sora (Teil von der Bezahlversion von ChatGPT) genutzt.
Ausgangsprompt
Erstelle ein kurzes, dynamisches Video, das die Highlights des Sommerfests des Golfclubs Eagle Creek zeigt. Beginne mit schnellen Schnitten von Golfspielern auf dem Platz, gefolgt von glücklichen Menschen, die auf der Terrasse des Clubhauses Bier genießen. Zeige das italienische Buffet, das reich gedeckt ist, und Menschen, die sich daran bedienen. Inkludiere Szenen der Band "Tanzfieber", die lebhaft auf der Bühne spielt, und Menschen, die tanzen und feiern. Das Video soll mit Musik unterlegt sein. Der Ton sollte fröhliche Sommerhits enthalten, und das Video sollte mit einem schönen Sonnenuntergang über dem Golfplatz enden.
Ergebnis siehe Anlage, Video 1. Dieses Ergebnis war dann doch etwas ernüchternd. Viele Fehler im Golfspiel (wie auch schon im Foto). Der Schnitt des Videos und die Inhalte sind auch nicht wirklich gut. Es wurde keine musikalische Untermalung dazu erstellt.
Mehrere Versuche mit Variationen im Prompt sowie auch der Versuch, den Prompt auf englisch zu schreiben, brachten keine bahnbrechenden Verbesserungen, siehe Beispielhaft Video 2 und Video 3.
Daher habe ich abschließend die Storyboard-Funktion von Sora getestet. Diese erlaubt es, ein ganzes Video in Einzel-Szenen aufzuteilen, die man separat beschreibt. Sora generiert für jede Szene ein eigenes Video und kombiniert sie später zu einem zusammenhängenden Clip. Meine Überlegung war, auf diese Weise mehr Kontrolle über das Video zu erhalten. Folgende Tipps gibt ChatGPT zur Nutzung der Storyboards
- Sora versteht englische Sprache besser
- Jede Szene = 1 klarer Moment oder Handlung (keine Überfrachtung)
- Nutze stimmungsvolle Sprache: z. B. „golden light“, „festive atmosphere“, „slow motion“, „laughing faces“
- Bleib bei einer konsistenten Stimmung oder Ästhetik (z. B. sommerlich-elegant)
Insgesamt habe ich das Video in 5 Szenen aufgeteilt und diese wie folgt beschrieben:
- A peaceful summer morning at a golf club. The sun is rising over the green fields. No players yet on the course.
- Guests arriving at the parking lot in elegant summer clothes, smiling and greeting each other.
- A golfer with a dynamic golfswing hitting a Tee-Shot on the course.
- People enjoying drinks and an italien buffet on the terrace with a view over the golf course. Warm light.
- a live jazzband playing music an people having fun and dancing zu the music. golden hour.
Ergebnis:
Auch dieses Ergebnis ist noch sehr ernüchternd. Der Schnitt ist nicht wirklich ansprechend, zudem sind auch hier viele inhaltliche Fehler feststellbar, vor allem was das konkrete Golfspiel angeht. Hier haben sowohl Dall-e als auch Sora sehr offensichtliche Probleme. Das ist verwunderlich, da insbesondere in den USA das Golfspiel ein Volkssport ist und es massenhaft Bild- und Videomaterial dazu gibt. Vermutlich geht das sehr viel besser, wenn man mehr Erfahrung bei der Erstellung von Video-Prompts hat.
Vor dem Hintergrund der zeitlichen Entwicklung dieser Tools in den letzten 2 Jahren mit der Vorstellung, was evtl. in 5 Jahren möglich sein wird, sind die Ergebnisse insgesamt allerdings durchaus wieder als beeindruckend einzustufen!
Fazit:
Das Bild könnte man evtl. verwenden, das Video eher nicht.