Gemma 4 12B vorgestellt: Multimodales Modell für den lokalen (Agenten-) Betrieb

Es ist noch gar nicht so lange her, dass Google mit Gemma 4 seine Open-Source-Modelle aufgestockt hat. Mit Gemma 4 12B hat man jetzt den jüngsten Neuzugang unter der Apache 2.0-Lizenz vorgestellt, der darauf ausgelegt ist, agentische und multimodale Modelle direkt und lokal auf einem Laptop auszuführen. Es bedarf also an weniger Ressourcen, als es die bisherigen Gemma-4-Modelle benötigen. Laut Google ist es als mittelgroßes Modell mit leistungsstarken Funktionen, bei reduziertem Speicherbedarf gedacht.

Es kann lokal auf Geräten ab 16 GB Arbeitsspeicher, etwa zum Betrieb von Agenten, ausgeführt werden. Die Benchmark-Leistung liegt in diversen Bereichen nahe am 26B-Modell – welches in etwa den doppelten Speicherbedarf einnimmt.

Gemma 4 12B verzichtet auf einen multimodalen Encoder und alle Bild- und Audioeingaben landen direkt („encoderfrei“) im LLM-Backbone. Medien müssen also nicht encodiert werden, bevor sie ans Sprachmodell weitergeleitet werden. Auch das native Verarbeiten von Audio-Input ist entsprechend möglich. Zur Reduktion von Latenzen setzt Gemma 4 12 B zudem auf Multi-Token-Prediction (MTP).

Das Sprachmodell ist ab sofort über die üblichen Plattformen, wie LM Studio, Ollama sowie über die Google-AI-Edge-Gallery-App verfügbar. Der Download der Gewichte steht etwa über Hugging Face und Kaggle bereit.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.