Google beschleunigt Gemma 4: Dreifache KI-Performance dank spekulativer Dekodierung

Google hat für seine Gemma 4 Modellfamilie neue Multi-Token-Vorhersage-Drafter (MTP-Drafter) veröffentlicht, um die Verarbeitungsgeschwindigkeit deutlich zu erhöhen. Diese Technologie nutzt sogenannte spekulative Dekodierung, bei der ein kleineres Hilfsmodell potenzielle Textsequenzen voraussagt, während das Hauptmodell diese lediglich parallel verifiziert.

Dadurch soll der herkömmliche Engpass bei der Speicherbandbreite überwunden werden, was die Geschwindigkeit ohne Einbußen bei der Antwortqualität verdreifachen können soll. Entwickler profitieren von einer verbesserten Reaktionsfähigkeit bei Anwendungen wie Coding-Assistenten oder KI-Agenten auf Workstations und Mobilgeräten.

Die MTP-Drafter für die gesamte Gemma-4-Familie stehen unter der Apache-2.0-Lizenz zur freien Nutzung bereit. Die Modellgewichte sind über Hugging Face und Kaggle verfügbar. Wer das Ganze in eigenen Projekten ausprobieren möchte, kann auf gängige Frameworks zurückgreifen – darunter MLX, vLLM, SGLang, Ollama und Hugging Face Transformers. Für mobile Entwicklung unter iOS und Android finden sich die Modelle in der Google AI Edge Gallery.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.