Qwen3.5-Omni: Alibaba rzuca rękawicę Google z modelem, który słyszy, widzi i mówi jednocześnie

0:00

Alibaba właśnie wypuściła Qwen3.5-Omni i nie jest to kolejny model z doklejonym mikrofonem. To zupełnie nowa architektura, zaprojektowana od podstaw tak, żeby tekst, dźwięk, obraz i wideo przetwarzać w jednym, spójnym potoku obliczeniowym. Chińska firma celuje wprost w Google Gemini 3.1 Pro i twierdzi, że w kilku kluczowych kategoriach jej model już wypada lepiej.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Koniec z „nakładkami” na modele językowe

Przez lata multimodalność w modelach AI oznaczała jedno: weź gotowy model tekstowy, doklej zewnętrzny enkoder audio (np. Whisper od OpenAI) i złącz wszystko w jeden pipeline. Działało, ale z oczywistymi wadami: latencja, niespójność między modalnościami, brak głębokiej integracji.

Qwen3.5-Omni zrywa z tym podejściem. Zamiast sklejonych komponentów dostajemy natywną architekturę Thinker-Talker, w której obie części korzystają z mechanizmu Hybrid-Attention Mixture of Experts (MoE). Co to oznacza w praktyce? Dla danego tokena aktywuje się tylko podzbiór parametrów, co pozwala trzymać ogromną liczbę parametrów przy stosunkowo niskich kosztach obliczeniowych. I właśnie to umożliwia obsługę kontekstu o długości 256 tysięcy tokenów.

Żeby zobrazować skalę: model radzi sobie z ponad 10 godzinami ciągłego audio lub ponad 400 sekundami materiału wideo w rozdzielczości 720p. To przestaje być eksperyment laboratoryjny, a zaczyna być narzędzie gotowe do realnych zastosowań.

Thinker i Talker – dwa mózgi w jednym ciele

Sercem systemu jest wspomniany podział na dwa komponenty. „Thinker” odpowiada za rozumowanie i przetwarzanie wejścia z różnych modalności. „Talker” zajmuje się generowaniem mowy. Oba działają w ścisłej integracji, zamiast kolejkować zadania jak starsze systemy kaskadowe.

Kluczowym elementem jest natywny enkoder audio (Audio Transformer, AuT), wytrenowany na ponad 100 milionach godzin danych audio-wizualnych. To odróżnia Qwen3.5-Omni od podejść, gdzie dźwięk był traktowany jako „drugi obywatel” w modelu tekstowym.

Qwen3.5-Omni to dobry przykład kierunku, w którym zmierza cały rynek multimodalnych modeli AI. Zamiast kolejnych „wrapperów”, zaczynamy widzieć architektury projektowane od zera z myślą o wielu modalnościach jednocześnie. To zmiana jakościowa, nie ilościowa. Ale warto zadać sobie pytanie: czy deklarowane wyniki benchmarkowe to rzeczywista przewaga w zastosowaniach produkcyjnych, czy świetnie dobrana lista testów? Historia benchmarkowych rekordów w branży AI uczy ostrożności. Poza tym model od chińskiej firmy z pewnością wzbudzi pytania o prywatność danych i dostępność dla europejskich przedsiębiorstw – szczególnie w kontekście rosnących regulacji. To obszary, które wymagają dokładniejszego zbadania przed wdrożeniem.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

215 wygranych benchmarków – imponujące czy tylko sprytne PR?

Alibaba chwali się, że Qwen3.5-Omni-Plus osiągnął wyniki SOTA (State-of-the-Art) w 215 zadaniach z zakresu audio i rozumienia audio-wizualnego. Rozbijając to na konkretne kategorie:

3 benchmarki audio-wizualne i 5 ogólnych benchmarków audio
8 benchmarków ASR (automatyczne rozpoznawanie mowy)
156 zadań z tłumaczenia mowy na tekst (S2TT) w różnych językach
43 zadania ASR specyficzne dla poszczególnych języków

Firma twierdzi, że Plus przewyższa Gemini 3.1 Pro w ogólnym rozumieniu audio, rozpoznawaniu mowy i tłumaczeniu, a w rozumieniu audio-wizualnym osiąga wyniki na równym poziomie z modelem Google’a.

Jak model radzi sobie z prawdziwą rozmową?

Zbudowanie modelu, który mówi i słyszy w czasie rzeczywistym, wymaga rozwiązania specyficznych problemów inżynieryjnych. Jednym z nich jest stabilność mowy podczas streamingu. Tokeny tekstowe i mowy mają różną efektywność kodowania, co może powodować „jąkanie” modelu przy synchronizacji.

Alibaba rozwiązuje to przez ARIA (Adaptive Rate Interleave Alignment) – mechanizm dynamicznego dopasowywania tempa generowania tekstu i mowy. Efekt: bardziej naturalne brzmienie bez wzrostu opóźnień.

Drugi problem to obsługa przerywania rozmowy. Qwen3.5-Omni potrafi rozróżnić „backchanneling” (czyli nieistotny szum tła, westchnienia, „uhm”) od faktycznej intencji przejęcia głosu przez rozmówcę. Ta funkcja jest wbudowana bezpośrednio w API, co otwiera drogi dla deweloperów budujących voiceboty i asystentów głosowych.

Audio-Visual Vibe Coding, czyli programowanie gestem i głosem

Jedną z nieoczekiwanych zdolności modelu jest coś, co Alibaba nazywa Audio-Visual Vibe Coding. Zamiast opisywać błąd w aplikacji tekstem, możesz nagrać wideo pokazując interfejs, głosowo wyjaśnić problem, a model sam wygeneruje poprawkę kodu.

To nie jest feature z listy życzeń. Według twórców wyłoniło się jako emergentna umiejętność wynikająca ze skali i sposobu trenowania – model samodzielnie nauczył się mapowania między strukturą UI, intencją wypowiedzianą głosem a kodem.

Trzy warianty dla różnych potrzeb

Model dostępny jest w trzech rozmiarach:

Plus – maksymalna dokładność, złożone zadania wymagające rozumowania
Flash – zoptymalizowany pod kątem niskiej latencji i dużej przepustowości
Light – mniejszy wariant dla zadań wymagających efektywności obliczeniowej

Co dalej z wyścigiem multimodalnym?

Qwen3.5-Omni to kolejny sygnał, że wyścig między laboratoriami AI przesuwa się z „kto ma lepszy model językowy” na „kto zbuduje najlepszy model natywnie multimodalny”. Google ma Gemini, OpenAI ma GPT-4o z trybem głosowym, Alibaba pokazuje teraz Qwen3.5-Omni.

Rozpoznawanie mowy w 113 językach i dialektach oraz generowanie mowy w 36 językach to dane, które czynią ten model potencjalnie interesującym poza rynkiem anglojęzycznym. Czy polskie przedsiębiorstwa skorzystają? To zależy w dużej mierze od tego, jak Alibaba podejdzie do kwestii hostingu danych i zgodności z RODO.

Model i dokumentacja techniczna dostępne są przez Hugging Face oraz panel Qwenchat. Demo online można przetestować pod adresem: https://huggingface.co/spaces/Qwen/Qwen3.5-Omni-Online-Demo

Oceń artykuł

Średnia: 4.8 (12 ocen)

Qwen3.5-Omni: Alibaba rzuca rękawicę Google z modelem, który słyszy, widzi i mówi jednocześnie

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

Qwen3.5-Omni: Alibaba rzuca rękawicę Google z modelem, który słyszy, widzi i mówi jednocześnie

Koniec z „nakładkami” na modele językowe

Thinker i Talker – dwa mózgi w jednym ciele

215 wygranych benchmarków – imponujące czy tylko sprytne PR?

Jak model radzi sobie z prawdziwą rozmową?

Audio-Visual Vibe Coding, czyli programowanie gestem i głosem

Trzy warianty dla różnych potrzeb

Co dalej z wyścigiem multimodalnym?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas