Multimodale KI

Definition und Bedeutung:
Multimodale KI bezeichnet Systeme, die Informationen aus verschiedenen Modalitäten – etwa Text, Bild, Audio oder Video – gleichzeitig verarbeiten, analysieren oder generieren können. Im Gegensatz zu unimodalen KI-Systemen, die sich nur auf eine Datenart konzentrieren (z. B. reiner Text oder reines Bild), kombiniert multimodale KI mehrere Medienformen miteinander und ermöglicht dadurch eine umfassendere und kontextsensiblere Interaktion.

Technischer Hintergrund:
Multimodale KI basiert auf sogenannten Foundation Models, die auf riesigen Datensätzen trainiert wurden und verschiedene Eingabeformen interpretieren können. Beispiele sind Modelle wie GPT-4 mit VisionGeminiClaude oder Runway ML, die Text, Sprache, Bilder und Videos gleichzeitig verstehen und darauf reagieren. Technisch wird dies durch die Integration von neuronalen Netzarchitekturen wie Transformern und Diffusionsmodellen ermöglicht, die in der Lage sind, Beziehungen zwischen unterschiedlichen Modalitäten herzustellen.

Praxisbezug im Kreativbereich:
Multimodale KI findet zunehmend Einsatz in kreativen Arbeitsfeldern, beispielsweise:
  • Bild- und Videoerstellung aus Text-Prompts (z. B. mit DALL·E, Runway oder Pika Labs)
  • Audiogenerierung aus Text (z. B. KI-Stimmen, Musikkomposition via Soundraw oder Suno)
  • Bildbeschreibung und automatische Untertitelung
  • Schnitt- und Layoutvorschläge auf Basis von Skript oder Sprache
  • Crossmediale Kampagnenplanung, bei der Text, Bild und Ton KI-gestützt verzahnt werden
Vorteile und Herausforderungen:
Multimodale KI bietet enorme Effizienzgewinne und kreative Unterstützung – insbesondere für kleine Teams, die ohne große Produktionsbudgets arbeiten. Gleichzeitig erfordert der professionelle Einsatz ein Verständnis für das Zusammenspiel der Medienformen, rechtliche Rahmenbedingungen (Urheberrecht, Deepfakes) und ethische Fragen (z. B. Manipulation, Täuschungspotenzial).

Quelle:
Baltrusaitis, T., Ahuja, C., & Morency, L. (2019). Multimodal Machine Learning: A Survey and Taxonomy. arXiv.
Wikipedia – „Multimodal artificial intelligence“, abgerufen am 10.06.2025

» E-tivity 5.2: Wissensglossar