Voxtral TTS: Mistral veröffentlicht Open-Weight-Modell für Text to Speech

Mit Voxtral TTS hat Mistral AI ein erstes Text-to-Speech-Modell vorgestellt. Das Modell ist Open Weight und fällt mit 4B Parameter entsprechend schlank aus. Hierbei soll das Modell den Text nicht einfach nur plump vorlesen, sondern präzise interpretieren und hierbei etwa den Tonfall je nach Kontext anpassen und natürliche Pausen einbauen und mittels Rhythmus sowie Intonation auch emotionalen Ausdruck verleihen.

Voxtral TTS ist in der Lage, sich neuen Sprachen, Akzenten sowie Ausdrücken anzupassen. Derzeit unterstützt man 9 Sprachen, darunter auch Deutsch, und etwa auch amerikanische, britische sowie französische Akzente.

Das Modell lässt sich in jeden STT- und LLM-Stack integrieren und sei für Unternehmen entwickelt. So sehe man Einsatzzwecke beim Kundensupport bis hin zur Echtzeitübersetzung.

Transparenz: In diesem Artikel sind Partnerlinks enthalten. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalten wir eine kleine Provision. Für euch ändert sich am Preis nichts. Partnerlinks haben keinerlei Einfluss auf unsere Berichterstattung.