Alibaba właśnie wypuściła Qwen3.5-Omni i nie jest to kolejny model z doklejonym mikrofonem. To zupełnie nowa architektura, zaprojektowana od podstaw tak, żeby tekst, dźwięk, obraz i wideo przetwarzać w jednym, spójnym potoku obliczeniowym. Chińska firma celuje wprost w Google Gemini 3.1 Pro i twierdzi, że w kilku kluczowych kategoriach jej model już wypada lepiej.
Koniec z „nakładkami” na modele językowe
Przez lata multimodalność w modelach AI oznaczała jedno: weź gotowy model tekstowy, doklej zewnętrzny enkoder audio (np. Whisper od OpenAI) i złącz wszystko w jeden pipeline. Działało, ale z oczywistymi wadami: latencja, niespójność między modalnościami, brak głębokiej integracji.
Qwen3.5-Omni zrywa z tym podejściem. Zamiast sklejonych komponentów dostajemy natywną architekturę Thinker-Talker, w której obie części korzystają z mechanizmu Hybrid-Attention Mixture of Experts (MoE). Co to oznacza w praktyce? Dla danego tokena aktywuje się tylko podzbiór parametrów, co pozwala trzymać ogromną liczbę parametrów przy stosunkowo niskich kosztach obliczeniowych. I właśnie to umożliwia obsługę kontekstu o długości 256 tysięcy tokenów.
Żeby zobrazować skalę: model radzi sobie z ponad 10 godzinami ciągłego audio lub ponad 400 sekundami materiału wideo w rozdzielczości 720p. To przestaje być eksperyment laboratoryjny, a zaczyna być narzędzie gotowe do realnych zastosowań.
Thinker i Talker – dwa mózgi w jednym ciele
Sercem systemu jest wspomniany podział na dwa komponenty. „Thinker” odpowiada za rozumowanie i przetwarzanie wejścia z różnych modalności. „Talker” zajmuje się generowaniem mowy. Oba działają w ścisłej integracji, zamiast kolejkować zadania jak starsze systemy kaskadowe.
Kluczowym elementem jest natywny enkoder audio (Audio Transformer, AuT), wytrenowany na ponad 100 milionach godzin danych audio-wizualnych. To odróżnia Qwen3.5-Omni od podejść, gdzie dźwięk był traktowany jako „drugi obywatel” w modelu tekstowym.
Qwen3.5-Omni to dobry przykład kierunku, w którym zmierza cały rynek multimodalnych modeli AI. Zamiast kolejnych „wrapperów”, zaczynamy widzieć architektury projektowane od zera z myślą o wielu modalnościach jednocześnie. To zmiana jakościowa, nie ilościowa. Ale warto zadać sobie pytanie: czy deklarowane wyniki benchmarkowe to rzeczywista przewaga w zastosowaniach produkcyjnych, czy świetnie dobrana lista testów? Historia benchmarkowych rekordów w branży AI uczy ostrożności. Poza tym model od chińskiej firmy z pewnością wzbudzi pytania o prywatność danych i dostępność dla europejskich przedsiębiorstw – szczególnie w kontekście rosnących regulacji. To obszary, które wymagają dokładniejszego zbadania przed wdrożeniem.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
215 wygranych benchmarków – imponujące czy tylko sprytne PR?
Alibaba chwali się, że Qwen3.5-Omni-Plus osiągnął wyniki SOTA (State-of-the-Art) w 215 zadaniach z zakresu audio i rozumienia audio-wizualnego. Rozbijając to na konkretne kategorie:
- 3 benchmarki audio-wizualne i 5 ogólnych benchmarków audio
- 8 benchmarków ASR (automatyczne rozpoznawanie mowy)
- 156 zadań z tłumaczenia mowy na tekst (S2TT) w różnych językach
- 43 zadania ASR specyficzne dla poszczególnych języków
Firma twierdzi, że Plus przewyższa Gemini 3.1 Pro w ogólnym rozumieniu audio, rozpoznawaniu mowy i tłumaczeniu, a w rozumieniu audio-wizualnym osiąga wyniki na równym poziomie z modelem Google’a.
Jak model radzi sobie z prawdziwą rozmową?
Zbudowanie modelu, który mówi i słyszy w czasie rzeczywistym, wymaga rozwiązania specyficznych problemów inżynieryjnych. Jednym z nich jest stabilność mowy podczas streamingu. Tokeny tekstowe i mowy mają różną efektywność kodowania, co może powodować „jąkanie” modelu przy synchronizacji.
Alibaba rozwiązuje to przez ARIA (Adaptive Rate Interleave Alignment) – mechanizm dynamicznego dopasowywania tempa generowania tekstu i mowy. Efekt: bardziej naturalne brzmienie bez wzrostu opóźnień.
Drugi problem to obsługa przerywania rozmowy. Qwen3.5-Omni potrafi rozróżnić „backchanneling” (czyli nieistotny szum tła, westchnienia, „uhm”) od faktycznej intencji przejęcia głosu przez rozmówcę. Ta funkcja jest wbudowana bezpośrednio w API, co otwiera drogi dla deweloperów budujących voiceboty i asystentów głosowych.
Audio-Visual Vibe Coding, czyli programowanie gestem i głosem
Jedną z nieoczekiwanych zdolności modelu jest coś, co Alibaba nazywa Audio-Visual Vibe Coding. Zamiast opisywać błąd w aplikacji tekstem, możesz nagrać wideo pokazując interfejs, głosowo wyjaśnić problem, a model sam wygeneruje poprawkę kodu.
To nie jest feature z listy życzeń. Według twórców wyłoniło się jako emergentna umiejętność wynikająca ze skali i sposobu trenowania – model samodzielnie nauczył się mapowania między strukturą UI, intencją wypowiedzianą głosem a kodem.
Trzy warianty dla różnych potrzeb
Model dostępny jest w trzech rozmiarach:
- Plus – maksymalna dokładność, złożone zadania wymagające rozumowania
- Flash – zoptymalizowany pod kątem niskiej latencji i dużej przepustowości
- Light – mniejszy wariant dla zadań wymagających efektywności obliczeniowej
Co dalej z wyścigiem multimodalnym?
Qwen3.5-Omni to kolejny sygnał, że wyścig między laboratoriami AI przesuwa się z „kto ma lepszy model językowy” na „kto zbuduje najlepszy model natywnie multimodalny”. Google ma Gemini, OpenAI ma GPT-4o z trybem głosowym, Alibaba pokazuje teraz Qwen3.5-Omni.
Rozpoznawanie mowy w 113 językach i dialektach oraz generowanie mowy w 36 językach to dane, które czynią ten model potencjalnie interesującym poza rynkiem anglojęzycznym. Czy polskie przedsiębiorstwa skorzystają? To zależy w dużej mierze od tego, jak Alibaba podejdzie do kwestii hostingu danych i zgodności z RODO.
Model i dokumentacja techniczna dostępne są przez Hugging Face oraz panel Qwenchat. Demo online można przetestować pod adresem: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo
