
Mit Gemini 3.1 Flash TTS hat Google sein neustes Text-to-Speech-Modell vorgestellt. Die Sprachausgabe lässt sich hierbei zum Erstellen von Audioinhalten präzise durch die Einführung von Audio-Tags steuern.
Googles neuestes Sprachmodell setzt beim Erstellen von Sprache auf Textbasis auf eine verbesserte Sprachqualität. Diese soll besonders natürlich und auch ausdrucksstark sein. Das Modell zeichnet sich darüber hinaus durch native Mehr-Sprecher-Dialoge sowie die Unterstützung von über 70 Sprachen aus. Unterstützt wird eine detaillierte, kreative Steuerung mittels natürlicher Sprache.
Hierfür führt das Modell sogenannte Audio-Tags ein. Jene bieten eine Möglichkeit, um den Stimmstil, das (Sprech-)Tempo sowie auch die Vortragsweise direkt zu beeinflussen respektive diese zu steuern. In einigen Märkten lässt sich hiermit auch der Akzent steuern. Dies erlaubt eine detailgetreue Anpassung, quasi als würde man Regie führen.
Man kann zudem Rahmenbedingungen für den Dialog festlegen. Durch diesen Kontext sollen Charaktere besser „in ihrer Rolle zu bleiben“ und auch über mehrere Dialoge hinweg natürlich aufeinander reagieren. Für jeden Charakter kann man ein einzigartiges Audio-Profil mit (Regie-) Anweisungen, etwa Tempo, Tonfall oder Akzent, festlegen. Mithilfe von Inline-Tags können die Sprecher dann auch von ihrem allgemeinen Setting abweichen und den Ausdruck auch mitten in einem Satz ändern.
Die gesetzten Parameter lassen sich übrigens auch als Gemini-API-Code exportieren. Dies soll projekt- sowie plattformübergreifend eine konsistente, wiedererkennbare Stimme gewährleisten. Gemini erlaubt es bis dato wohl nicht, das Modell mittels Voice-Cloning-Funktion auf eine eigene Stimme zu trainieren, wie es etwa ElevenLabs anbietet.
Gemini 3.1 Flash TTS steht ab heute in verschiedenen Google-Anwendungen oder über Schnittstellen zur Verfügung. Entwickler bekommen in der Vorschau Zugriff über die Gemini-API sowie Google AI Studio. Unternehmen erhalten eine Vorschau über Vertex AI und Workspace-Nutzer können auf das neue Sprachmodell bereits über Google Vids zugreifen. Alle von Gemini 3.1 Flash TTS erzeugten Inhalte sind mit SynthID, Googles unsichtbarem Wasserzeichen für KI-Inhalte, versehen. Auch Bilder oder Videos sind mit diesem versehen und lassen sich damit auch direkt über die Gemini-App als KI-generiert entlarven.
Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.