Gemini Embedding 2: Ein einheitlicher Ansatz für multimediale KI-Anwendungen

Wer schon mal versucht hat, eine KI-Anwendung zu bauen, die nicht nur Text, sondern auch Bilder oder Videos versteht, weiß, wie mühsam das werden kann. Für fast jeden Medientyp braucht man ein eigenes Modell, eigene Infrastruktur, eigene Pipelines. Google geht mit Gemini Embedding 2 einen anderen Weg.

Das Modell verarbeitet Texte, Bilder, Videos und Audio in einem gemeinsamen digitalen Raum – einem sogenannten Embedding-Raum, in dem verschiedene Inhalte miteinander verglichen und geordnet werden können, egal in welchem Format sie vorliegen. Eine Suche über unterschiedliche Medientypen hinweg wird so möglich, ohne dass man dafür mehrere spezialisierte Systeme zusammenstückeln muss.

Für Entwickler interessant ist auch die Skalierbarkeit. Die Datenmenge lässt sich anpassen, was sich direkt auf Leistung und Speicherkosten auswirkt. Über 100 Sprachen werden abgedeckt, und das Modell kann auch kombinierte Eingaben aus Bild und Text oder ganze Dokumente direkt verarbeiten.

Aktuell ist Gemini Embedding 2 als Vorschauversion über die Gemini-API zugänglich. Es richtet sich vorwiegend an Entwickler, die semantische Suche oder komplexe KI-Anwendungen über mehrere Datentypen hinweg aufbauen wollen.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.