Google właśnie wypuściło Gemma 4, nową generację otwartych modeli językowych. Benchmark’i wyglądają obiecująco, licencja wreszcie jest ludzka, a rozmiary modeli trafiają w punkty, na które czeka rynek. Pytanie brzmi: czy tym razem Google potrafi przekuć potencjał w realne adopcje?
Otwarte modele w 2026 roku: tłoczno i coraz trudniej
Kiedy kilka lat temu Llama 3 trafiła w ręce badaczy, większość z nich siedziała jeszcze na Llamie 2 i była po prostu szczęśliwa, że dostaje aktualizację. Rynek otwartych modeli był mały, a każde poważne wydanie stawało się wydarzeniem.
Dziś wygląda to zupełnie inaczej. Nowy otwarty model startuje w środowisko, gdzie czekają na niego: Qwen 3.5, Kimi K2.5, GLM 5, MiniMax M2.5, GPT-OSS, Arcee Large, Nemotron 3, Olmo 3 i inni. Tłoczno. I coraz trudniej się przebić, bo wyróżnienie się wyłącznie wynikami w testach to za mało.
Co tak naprawdę decyduje o sukcesie otwartego modelu?
Nathan Lambert z Interconnects AI trafnie wskazuje, że ocena modelu open-weight to znacznie bardziej złożone zadanie niż ocena zamkniętego API. Nowe Claude’y czy GPT można po prostu wziąć i poużywać przez kilka godzin we własnych workflow. W przypadku otwartych modeli to zupełnie inna kategoria problemu.
Lista kryteriów, które naprawdę liczą się przy wyborze modelu open-weight:
- Wydajność i rozmiar – co model potrafi, jak wypada na benchmarkach i jak się skaluje
- Kraj pochodzenia – dla części firm, szczególnie w USA i Europie, to kwestia fundamentalna
- Licencja – skomplikowane warunki użytkowania dosłownie hamują adopcję w firmach
- Tooling przy premierze – czy model działa od razu w vLLM, Transformers, SGLANG i innych narzędziach
- Możliwość fine-tuningu – jak łatwo dostosować model do konkretnego przypadku użycia
I tu leży największy problem. Część tych informacji jest dostępna w dniu premiery, część ujawnia się po tygodniach. A zdolność do fine-tuningu to właściwie otwarte pytanie badawcze, którym nikt systematycznie się nie zajmuje.
Licencja Apache 2.0: w końcu
Gemma 4 przychodzi w czterech rozmiarach: około 5B dense, 8B dense, 26B MoE (4B aktywnych parametrów) oraz 31B dense. Podobno planowany jest też większy model MoE powyżej 100B parametrów, ale na razie nie ma go w tej premierze.
Najważniejsza zmiana? Licencja Apache 2.0. To brzmi jak technikalia, ale w praktyce to decyzja, która może przesądzić o tym, czy firmy w ogóle sięgną po ten model. Poprzednie warunki korzystania z Gemma były irytująco restrykcyjne. Standard lepszych licencji, jak zauważa Lambert, ustawili w ostatnich latach głównie chińscy producenci modeli – i dopiero teraz amerykańskie firmy zaczynają ich naśladować.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Gemma 4 to krok w dobrym kierunku i nie chcę tego bagatelizować. Ale mam pewien dylemat. Z jednej strony Apache 2.0 to rzeczywiście game changer dla adopcji korporacyjnej. Z drugiej strony – historia poprzednich Gemm uczy pokory. Świetne benchmarki, a potem problemy z fine-tuningiem i toolingiem, które odstraszały deweloperów. Czy Google nauczyło się tej lekcji? Na odpowiedź przyjdzie nam trochę poczekać. Dla mnie prawdziwym testem będzie nie to, jak Gemma 4 wypada w LMArenie, ale czy za trzy miesiące zobaczymy realną falę zastosowań zbudowanych na tym modelu. Właśnie tego mi brakowało przy poprzednich wydaniach.
Benchmarki: mocne, szczególnie małe modele
Wyniki są naprawdę solidne. Małe modele Gemma 4 dostają wyjątkowo wysokie oceny w ogólnych domenach, w tym w LMArenie. Model 31B według wstępnych analiz rywalizuje z Qwen 3.5 27B, który do tej pory dominował w swojej klasie rozmiarów.
Demis Hassabis sam pochwalił się wynikami na platformie X:
Gemma 4 outperforms models over 10x their size! (note the x-axis is log scale!) pic.twitter.com/an8LPYYBP2
— Demis Hassabis (@demishassabis) April 3, 2026
Zakres 30B to szczególnie interesująca kategoria. Badacze i firmy traktują modele tej wielkości jako poważne kandydatury do wdrożeń produkcyjnych. Mniejsze siedmiomilardowce służą do eksperymentów i nauki. Trzydziestomilardowce to już próba odpowiedzi na pytanie: czy otwarty model może realnie wytworzyć wartość w moim konkretnym przypadku?
Ekosystem otwartych modeli dojrzewa wolno
Lambert wskazuje na bolesną prawdę rynku: nawet jeśli model jest dobry, to ekosystem wokół niego buduje się miesiącami. Qwen jest tego najlepszym przykładem. Seria wydań z rzędu, konsekwentna praca, i dziś inżynierowie w całej branży czują się komfortowo z modelami Qwen. Niezliczone metody badawcze i zbiory danych dostosowano do tej rodziny. Inny producent musi uzbroić się w cierpliwość, by dojść do podobnego punktu.
Gemma 4 startuje z lepszej pozycji niż poprzedniczki, ale wyzwanie pozostaje. Modele hybrydowe, jak Qwen 3.5 z warstwami gated delta net czy mamba, potrafiły miesiąc po premierze nadal sprawiać problemy w popularnych narzędziach open-source. Półtora miesiąca po wydaniu, żeby model „po prostu działał” w podstawowym toolingu – to zbyt długo.
Czy tym razem Google dowiezie?
Lambert jest ostrożnie optymistyczny. Wiatry zmieniają kierunek. GPT-OSS miał burzliwy start, a skończył jako przytłaczający sukces. Wokół Gemmy, Olmo, Arcee, Nemotron i innych modeli rośnie energia i zainteresowanie. Jest też kapitał – firmy, które chcą pełniejszej kontroli nad swoim stosem technologicznym, są gotowe inwestować w otwarte alternatywy.
Gemma 4 ma właściwą licencję, właściwe rozmiary, pochodzi z USA, a wyniki są wystarczająco dobre. To może wystarczyć. Ale ostatnie słowo należy do deweloperów i do tego, jak sprawnie Google zadba o tooling i wsparcie dla fine-tuningu w kolejnych tygodniach.
Czas pokaże, czy to wreszcie ten Gemma, który klika.
