Cohere, firma znana dotąd głównie z modeli tekstowych i embeddingów, wkracza na rynek automatycznego rozpoznawania mowy (ASR). Jej nowy model, Cohere Transcribe, od razu zajął pierwsze miejsce na liście rankingowej Hugging Face Open ASR Leaderboard z wynikiem Word Error Rate na poziomie 5,42%.
To dość zaskakujący ruch ze strony Cohere. Przez lata firma budowała swoją tożsamość wokół modeli językowych dla przedsiębiorstw, a mowa pozostawała poza jej głównym obszarem działania. Teraz chce zmienić zasady gry w segmencie, który zdominował OpenAI ze swoim Whisperem.
Architektura: nie kolejny Transformer
Cohere Transcribe nie jest typowym modelem opartym wyłącznie na architekturze Transformer. Zamiast tego firma sięgnęła po hybrydę: duży enkoder Conformer połączony z lekkim dekoderem Transformer.
Czym jest Conformer? To połączenie dwóch podejść: konwolucyjnych sieci neuronowych (CNN), które dobrze radzą sobie z lokalnymi cechami akustycznymi, takimi jak przejścia między fonemami, oraz Transformerów, które wychwytują szerszy kontekst lingwistyczny. W praktyce model potrafi jednocześnie „słyszeć” szczegół i rozumieć zdanie jako całość.
14 języków, w tym polski
Cohere postawiło na jakość ponad ilością. Model obsługuje 14 języków:
- angielski, niemiecki, francuski, włoski, hiszpański, portugalski
- grecki, niderlandzki, polski
- arabski, wietnamski, chiński, japoński, koreański
Dla polskich użytkowników i firm to istotna informacja. Na rynku ASR Polska często wypada z pierwszych list obsługiwanych języków, więc obecność polskiego w tym zestawieniu zasługuje na uwagę.
Cohere Transcribe to ciekawy przypadek modelu, który świadomie rezygnuje z globalnych ambicji na rzecz konkretnej jakości. 14 języków to nie jest imponująca liczba w porównaniu z modelami, które obsługują ich setki, ale jeśli za tymi 14 stoją naprawdę dobre wyniki, to jest to uczciwa propozycja dla przedsiębiorstw. Z drugiej strony brak automatycznej detekcji języka i brak obsługi przełączania kodów (code-switching) może stanowić realne ograniczenie w wielojęzycznych środowiskach korporacyjnych. Pytanie, czy Cohere zdecyduje się to rozszerzyć, czy zostanie przy tym podejściu jako swojej przewadze nad bardziej rozproszonymi konkurentami.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Wyniki: Whisper w odwrocie?
Na liście rankingowej Hugging Face model osiągnął średni WER wynoszący 5,42%, bijąc takie rozwiązania jak:
- Whisper Large v3 od OpenAI: 7,44% WER
- ElevenLabs Scribe v2: 5,83%
- Qwen3-ASR-1.7B: 5,76%
Cohere podaje też wyniki badań preferencji wśród ludzi w języku angielskim. Ankietowani preferowali transkrypcje Cohere Transcribe nad konkurencją: w 78% przypadków ponad IBM Granite 4.0 1B Speech, w 67% ponad NVIDIA Canary Qwen 2.5B, w 64% ponad Whisper Large v3, a w 56% ponad Zoom Scribe v1.
Wyniki robią wrażenie, ale warto pamiętać, że leaderboardy to jedno, a produkcja to drugie.
Długie nagrania: mechanizm 35 sekund
Model natywnie przetwarza audio w segmentach po 35 sekund. Dla dłuższych plików, na przykład godzinnej telekonferencji, automatycznie dzieli nagranie na nakładające się fragmenty, przetwarza każdy z nich osobno, a następnie skleja wyniki w spójny tekst.
To rozwiązanie pragmatyczne. Nie ma tu zaawansowanego sliding-window attention, ale jest solidna inżynieria, która pozwala obsłużyć długie materiały bez przeciążenia pamięci GPU.
Czego Transcribe nie potrafi
Warto być szczerym co do ograniczeń. Model:
- nie obsługuje diaryzacji mówców (nie powie nam, kto mówił)
- nie generuje znaczników czasu (timestamps)
- nie wykrywa automatycznie języka nagrania
- nie jest zoptymalizowany do obsługi przełączania między językami
Dla firm, które potrzebują transkrypcji ze wskazaniem mówców lub chcą podpiąć model do systemu wyszukiwania po czasie, to realne braki.
Dostępność
Wagi modelu są dostępne na Hugging Face, a szczegóły techniczne Cohere opisało na swoim blogu. Model jest kierowany przede wszystkim do klientów enterprise, co wpisuje się w całą strategię firmy.
Rynek ASR robi się coraz bardziej zatłoczony. Ciekawe, jak długo Cohere utrzyma pozycję numer jeden na liście Hugging Face, bo konkurencja na pewno nie śpi.
