Zespół Qwen z Alibaby właśnie wypuścił serię modeli Qwen 3.5 Medium i zrobił to z rozmachem. Najnowsze wyniki pokazują coś, co jeszcze rok temu brzmiałoby jak herezja: model z 3 miliardami aktywnych parametrów pokonuje poprzednika z 22 miliardami.
Przez lata branża AI żyła według jednej zasady: im więcej parametrów, tym lepiej. Wyścig na skalę napędzał inwestycje, przyciągał uwagę mediów i wytyczał kierunek badań. Qwen 3.5 to otwarty sygnał, że ten paradygmat powoli się sypie.
Co konkretnie Alibaba wypuściła?
Seria obejmuje cztery modele: Qwen3.5-Flash, Qwen3.5-35B-A3B, Qwen3.5-122B-A10B oraz Qwen3.5-27B. Każdy z nich celuje w nieco inne zastosowanie, ale wspólny mianownik to efektywność obliczeniowa i gotowość do wdrożeń produkcyjnych.
Gwiazdą serii jest Qwen3.5-35B-A3B. Oznaczenie „A3B” nie jest przypadkowe – wskazuje na liczbę aktywnych parametrów podczas jednego przejścia przez model. Choć model ma 35 miliardów parametrów łącznie, w praktyce korzysta tylko z 3 miliardów naraz. I właśnie ten model bije starszego Qwen3-235B-A22B-2507 na benchmarkach.
To nie magia. To architektura MoE (Mixture-of-Experts) połączona z nową hybrydową konstrukcją łączącą Gated Delta Networks (liniowa uwaga) ze standardowymi blokami Gated Attention. Efekt? Wysoka przepustowość przy znacznie mniejszym zużyciu pamięci.
Komentarz redaktora
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Wyniki Qwen 3.5 są imponujące, ale warto zachować chłodną głowę. Z jednej strony trend ku mniejszym, wydajniejszym modelom to naprawdę dobra wiadomość – demokratyzuje dostęp do zaawansowanego AI i obniża koszty wdrożeń, szczególnie dla firm, które nie dysponują infrastrukturą Big Tech. Z drugiej strony benchmarki to jedno, a realne wdrożenia produkcyjne to drugie. Pytanie, które powinniśmy sobie zadać, brzmi: czy te modele radzą sobie równie dobrze w specyficznych, niszowych zastosowaniach biznesowych, czy tylko na standaryzowanych testach? Historia AI uczy nas ostrożności w interpretowaniu liczb z oficjalnych komunikatów prasowych.
Qwen3.5-Flash: model dla deweloperów
Hosted version serii, czyli Qwen3.5-Flash, jest bezpośrednio skierowana do programistów budujących systemy agentyczne. Dwie cechy wyróżniają ją najbardziej:
- Okno kontekstu 1M tokenów domyślnie – to oznacza, że można przesłać do modelu całe repozytoria kodu lub obszerne zbiory dokumentów bez konieczności budowania skomplikowanych pipeline’ów RAG
- Wbudowana natywna obsługa narzędzi – function calling i integracja z API bez potrzeby rozbudowanego prompt engineeringu
Ten drugi punkt jest ważniejszy, niż wygląda na papierze. Modele, które wymagają dużego wysiłku przy konfiguracji wywołań funkcji, są w praktyce trudne do utrzymania w produkcji. Native tool use upraszcza cały workflow.
Duże modele dla złożonych zadań
Qwen3.5-122B-A10B i Qwen3.5-27B trafiają do innego segmentu – tam gdzie potrzebne jest wieloetapowe planowanie, rozumowanie i wykonywanie złożonych zadań przez autonomiczne agenty. Alibaba zastosowała czterostopniowy pipeline post-trainingu, obejmujący długie łańcuchy rozumowania (chain-of-thought) i trening przez uczenie ze wzmocnieniem (RL).
Wynik: model 122B-A10B, korzystający z 10 miliardów aktywnych parametrów, utrzymuje spójność logiczną w długich, wieloetapowych zadaniach. To bezpośredni konkurent dla zamkniętych modeli frontierowych od OpenAI czy Anthropica.
Trend, który zmienia reguły gry
Alibaba nie jest tu odosobnionym przypadkiem. Patrząc na ostatnie miesiące, wyraźnie widać kierunek całej branży: Google z Gemma, Meta z Llama, Microsoft z Phi – wszyscy stawiają na modele „medium” jako realną alternatywę dla gigantycznych, kosztownych w utrzymaniu monolitów.
Qwen 3.5 wpisuje się w ten trend, ale robi to z konkretną tezą: architektura MoE plus wysokiej jakości dane treningowe plus RL pozwala osiągnąć wyniki frontierowe przy ułamku kosztów obliczeniowych. Jeśli to prawda w praktyce, a nie tylko na benchmarkach, to branżowe reguły gry właśnie się zmieniają.
Wagi modeli dostępne są na Hugging Face, a dostęp do Flash API przez platformę Alibaba Cloud.
