Mistral wypuszcza Voxtral TTS: open-source głos, który goni ElevenLabs

Autor i odp. redakcyjna: Marcin Grześkowiak | Data: 29 marca 2026, godz. 08:58 | Czas czytania: około 5 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Mistral AI zrobiło kolejny ruch i tym razem wchodzi na rynek generowania mowy. Voxtral TTS to model open-weight do syntezy głosu w czasie rzeczywistym, który ma ambicje podważyć dominację płatnych API w tym segmencie.

Kluczowe fakty:

Mistral AI wypuściło Voxtral TTS – 4-miliardowy model open-weight do syntezy głosu w czasie rzeczywistym, udostępniony na licencji CC BY-NC dla zastosowań niekomercyjnych.
Model składa się z trzech wyspecjalizowanych komponentów: Transformer Decoder (3,4 mld parametrów), Flow-Matching Acoustic Transformer (390 mln parametrów) i Neural Audio Codec (300 mln parametrów).
Voxtral TTS osiąga latencję 70 milisekund dla 10-sekundowego głosu i generuje audio prawie dziesięć razy szybciej niż ono trwa (Real-Time Factor 9,7x).

Spis treści:

Francuski startup nie poprzestaje na modelach językowych. Po Voxtral Transcribe, który zajmował się rozpoznawaniem mowy, przyszedł czas na domknięcie pętli: Mistral dodaje do swojego stosu warstwę wyjściową, czyli syntezę głosu. Voxtral TTS to 4-miliardowy model z hybrydową architekturą, wydany na licencji CC BY-NC, co oznacza swobodne użycie dla niekomercyjnych zastosowań i wdrożeń deweloperskich.

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Architektura, czyli trzy moduły zamiast jednego

Model nie jest monolitem. Mistral postawiło na rozbicie zadania na trzy wyspecjalizowane komponenty:

Transformer Decoder (3,4 mld parametrów) oparty na architekturze Ministral, odpowiedzialny za rozumienie tekstu i generowanie semantycznych reprezentacji mowy
Flow-Matching Acoustic Transformer (390 mln parametrów) przekształcający te reprezentacje w szczegółowe cechy akustyczne
Neural Audio Codec (300 mln parametrów) zamieniający cechy akustyczne na falę dźwiękową wysokiej wierności

To rozdzielenie sensu mowy od jej brzmienia ma konkretny cel: model może zachować spójność długoterminową, jednocześnie dbając o subtelności, które sprawiają, że syntetyczny głos brzmi naturalnie. W praktyce to trudna równowaga do utrzymania, bo wiele modeli albo traci spójność przy dłuższych fragmentach, albo brzmi sztywno.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

70 ms latencji i dziesięć razy szybciej niż w czasie rzeczywistym

Liczby robią wrażenie. Voxtral TTS osiąga latencję 70 milisekund dla typowej próbki 10-sekundowego głosu przy wejściu 500 znaków. Real-Time Factor wynosi około 9,7x, co znaczy, że model generuje audio prawie dziesięć razy szybciej niż ono trwa.

To już poziom, który otwiera drzwi do zastosowań, gdzie każda sekunda opóźnienia psuje doświadczenie: asystenci głosowi, tłumaczenie w czasie rzeczywistym, interaktywne systemy obsługi klienta. Przy takich parametrach przepustowości serwery mogą jednocześnie obsługiwać wielu użytkowników na standardowym sprzęcie do inferencji, bez konieczności inwestowania w egzotyczną infrastrukturę.

Komentarz redakcji

Voxtral TTS to ciekawy sygnał z rynku. Mistral konsekwentnie buduje własny stos audio: transkrypcja, rozumienie, teraz synteza. Strategia jest czytelna i logiczna. Ale warto zadać sobie pytanie, ile jest warta licencja CC BY-NC dla firm, które właśnie na zastosowaniach komercyjnych chcą zarabiać. Open-weight nie zawsze znaczy „za darmo do biznesu”. Z drugiej strony, dla developerów budujących produkty na własnej infrastrukturze, możliwość uruchomienia dobrego modelu TTS lokalnie, bez zależności od API i bez ryzyka wycieku danych, to realna wartość. Szczególnie w branżach objętych regulacjami. Pozostaje otwarte pytanie o długoterminowe wsparcie i to, czy Mistral utrzyma tempo wydań w tym segmencie, konkurując jednocześnie z Google, OpenAI i ElevenLabs.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Dziewięć języków i klonowanie głosu z 3 sekund nagrania

Voxtral TTS obsługuje dziewięć języków od razu po wdrożeniu: angielski, francuski, niemiecki, hiszpański, niderlandzki, portugalski, włoski, hindi i arabski. Co ważne, Mistral nie ograniczyło się do płaskiej obsługi fonetycznej. Model trenowany był z naciskiem na dialekty, co przekłada się na bardziej naturalne brzmienie w poszczególnych regionach.

Drugą wyróżniającą cechą jest klonowanie głosu. Model wspiera podejście zero-shot i few-shot, potrzebując zaledwie 3 sekund referencyjnego nagrania, żeby przejąć cechy głosu: barwę, ton, wysokość. Można to wykorzystać do tworzenia spójnych głosów dla marek lub personalizowanych asystentów, bez żmudnego fine-tuningu.

Benchmarki: wygrana nad ElevenLabs Flash v2.5

Mistral zdecydowało się zmierzyć bezpośrednio z liderem rynku. W testach preferencji przeprowadzonych przez rodzimych użytkowników języków docelowych Voxtral TTS osiągnął:

68,4% wygranych w wielojęzycznych testach klonowania głosu w porównaniu z ElevenLabs Flash v2.5
Porównywalną lub wyższą podobność głosu w zestawieniu z flagowym ElevenLabs v3

To nie są liczby bez znaczenia. ElevenLabs to aktualny rynkowy wzorzec w jakości TTS, a przynajmniej tak było do tej pory. Jeśli Mistral podtrzyma te wyniki poza warunkami laboratoryjnymi, przepaść między otwartymi modelami a płatnymi API rzeczywiście się zamknęła.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

Działa na laptopie, integruje się z Voxtral Transcribe

Voxtral TTS projektowany był jako element większego ekosystemu audio. Naturalnie integruje się z Voxtral Transcribe, tworząc kompletny pipeline mowa-do-mowy (speech-to-speech). Dla firm, które chcą budować prywatne rozwiązania głosowe bez wysyłania danych do zewnętrznych chmur, to istotna zaleta.

Po kwantyzacji model ma działać na smartfonach i laptopach. To otwiera nową kategorię zastosowań offline: korporacyjne asystenty działające lokalnie, narzędzia dostępności bez połączenia z internetem, systemy w środowiskach o ograniczonym dostępie do sieci.

Wagi modelu są dostępne na Hugging Face, a szczegóły techniczne opublikowano w artykule naukowym oraz na blogu Mistral.

Oceń artykuł

Średnia: 4.8 (9 ocen)

Mistral wypuszcza Voxtral TTS: open-source głos, który goni ElevenLabs

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Mistral wypuszcza Voxtral TTS: open-source głos, który goni ElevenLabs

Kluczowe fakty:

Architektura, czyli trzy moduły zamiast jednego

70 ms latencji i dziesięć razy szybciej niż w czasie rzeczywistym

Komentarz redakcji

Dziewięć języków i klonowanie głosu z 3 sekund nagrania

Benchmarki: wygrana nad ElevenLabs Flash v2.5

Działa na laptopie, integruje się z Voxtral Transcribe

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas