CLIP (Contrastive Language–Image Pretraining)

CLIP ist ein von OpenAI entwickeltes KI-Modell, das Texte und Bilder gemeinsam versteht, indem es sie in einen gemeinsamen semantischen Raum übersetzt. Der Name CLIP steht für Contrastive Language–Image Pretraining und beschreibt die zentrale Trainingsmethode des Modells: Mittels kontrastivem Lernen wird CLIP darauf trainiert, die inhaltliche Übereinstimmung zwischen einem Bild und einer Textbeschreibung zu erkennen. Dabei erhält das Modell eine Vielzahl von Bild-Text-Paaren und lernt, welche Beschreibungen zu welchen Bildern passen und welche nicht. Ziel ist es, dass das Modell selbst bei bisher ungesehenen Daten relevante Verbindungen zwischen visuellen und sprachlichen Inhalten herstellen kann.

Das Besondere an CLIP ist seine Generalisierungsfähigkeit. Während viele KI-Modelle speziell für eine einzelne Aufgabe trainiert werden (z. B. Objekterkennung), kann CLIP viele Aufgaben „zero-shot“ lösen, also ohne spezifisches Training für die jeweilige Anwendung. Dazu gehören z. B. Bildklassifikation, Ähnlichkeitssuche, visuelle Fragebeantwortung oder sogar die Steuerung multimodaler Systeme. Die Flexibilität des Modells beruht auf der gemeinsamen Repräsentation von Bild- und Textdaten in einem mehrdimensionalen Raum, in dem Ähnlichkeiten über Vektorabstände messbar sind.

CLIP hat die Forschung und Entwicklung im Bereich der multimodalen künstlichen Intelligenz erheblich beeinflusst. Es gilt als Meilenstein, weil es zeigt, dass große Mengen an unstrukturierten, im Internet verfügbaren Daten effizient genutzt werden können, um leistungsfähige Modelle zu trainieren, die keine feine manuelle Annotation erfordern. Damit bietet CLIP eine Grundlage für viele moderne Anwendungen, etwa in der Bilderkennung, der Medienanalyse oder der Mensch-Maschine-Interaktion.

Quelle: OpenAI, CLIP – Definition für ein Glossar, ChatGPT, 2025.

» E-tivity 5.2: Wissensglossar