Gemma 4 nawet trzykrotnie szybciej. Google wypuszcza draftery MTP dla swoich otwartych modeli

Autor i odp. redakcyjna: Natalia Kaszubowska | Data: 6 maja 2026, godz. 08:39 | Czas czytania: około 4 minuty | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Google ogłosiło udostępnienie drafterów Multi-Token Prediction (MTP) dla rodziny modeli Gemma 4. Nowe komponenty przyspieszają wnioskowanie nawet trzykrotnie, nie obniżając przy tym jakości odpowiedzi ani logiki rozumowania.

Kluczowe fakty:

Google udostępniło draftery Multi-Token Prediction (MTP) dla modeli Gemma 4, które przyspieszają wnioskowanie nawet trzykrotnie bez obniżania jakości odpowiedzi.
Technika speculative decoding wykorzystuje lekki model-drafter do przewidywania kilku tokenów naraz, które następnie weryfikuje główny model jednym przejściem.
Draftery MTP są dostępne na licencji Apache 2.0 i obsługiwane przez frameworki Transformers, MLX, vLLM, SGLang oraz Ollama.

Spis treści:

Gemma 4, którą Google zaprezentowało kilka tygodni temu, zdążyła zebrać ponad 60 milionów pobrań. Teraz firma idzie krok dalej i publikuje dodatkowe narzędzie, które ma sprawić, że praca z tymi modelami stanie się jeszcze bardziej praktyczna, szczególnie na sprzęcie konsumenckim.

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Czym jest MTP i dlaczego to ma znaczenie?

Standardowe modele językowe generują tekst autoregresywnie, czyli token po tokenie. Każdy krok wymaga przeniesienia miliardów parametrów z pamięci VRAM do jednostek obliczeniowych, co tworzy wąskie gardło przepustowości pamięci. Procesor przez większość czasu po prostu czeka.

Technika speculative decoding, którą Google stosuje w MTP, rozdziela generowanie tokenów od ich weryfikacji. Lekki model-drafter przewiduje kilka kolejnych tokenów naraz, w czasie krótszym niż czas potrzebny głównemu modelowi na przetworzenie jednego. Duży model (np. Gemma 4 31B) weryfikuje całą sekwencję równolegle, jednym przejściem. Jeśli zgadza się z propozycją draftera, akceptuje całą sekwencję, a przy okazji generuje jeszcze jeden dodatkowy token. Wynik: aplikacja dostaje pełną sekwencję plus jeden token w czasie, który normalnie wystarczyłby na wygenerowanie tylko jednego.

Podstawy tej techniki opisano w pracy badawczej Google z 2022 roku: Fast Inference from Transformers via Speculative Decoding.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Co to oznacza dla deweloperów?

Przyspieszenie do 3x brzmi świetnie w komunikacie prasowym. Ale co z tego wynika w praktyce?

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: To ciekawy ruch ze strony Google, bo MTP draftery adresują konkretny, realny problem, a nie tylko podnoszą benchmark. Szybsze wnioskowanie na sprzęcie konsumenckim to realna korzyść dla deweloperów, którzy budują aplikacje off-line lub chcą uruchamiać modele lokalnie bez kosztów chmury. Z drugiej strony warto zapytać: jak te wyniki mają się do rzeczywistych, zróżnicowanych przypadków użycia? Testy na konkretnym sprzęcie w kontrolowanych warunkach to jedno, a produkcyjny chaos to drugie. Pytanie, które wisi w powietrzu: czy przyspieszenie będzie tak samo spektakularne przy bardziej złożonych, nieregularnych zapytaniach, gdzie drafter trudniej zgaduje kolejne tokeny?

Google wymienia kilka konkretnych scenariuszy, w których MTP draftery mają wnieść wartość:

Zmniejszona latencja w czacie w czasie zbliżonym do rzeczywistego oraz w aplikacjach głosowych
Uruchamianie modeli 26B MoE i 31B Dense na komputerach osobistych i kartach graficznych klasy konsumenckiej
Szybsza generacja na urządzeniach brzegowych z modelami E2B i E4B, przy jednoczesnym oszczędzaniu baterii
Identyczna jakość odpowiedzi, bo ostateczną weryfikację zawsze przeprowadza główny model Gemma 4

Szczegóły techniczne i optymalizacje sprzętowe

Pod maską znalazło się kilka istotnych ulepszeń. Modele-draftery korzystają z aktywacji docelowego modelu i współdzielą z nim pamięć podręczną KV (KV cache), dzięki czemu nie muszą przeliczać kontekstu od nowa. Dla modeli brzegowych E2B i E4B, gdzie obliczenie końcowego logitu stanowiło szczególnie duże obciążenie, wdrożono technikę efektywnego klastrowania w warstwie embeddingów.

Google zwraca też uwagę na specyfikę poszczególnych platform. Dla modelu 26B MoE na układach Apple Silicon przyspieszenie przy batch size równym 1 jest skromne z uwagi na mechanizm routingu, ale przy przetwarzaniu 4-8 równoległych zapytań skoki sięgają 2,2x. Podobne zależności obserwuje się na kartach Nvidia A100.

Gdzie i jak zacząć?

Draftery MTP są dostępne od dziś na licencji Apache 2.0, tej samej co sama Gemma 4. Wagi modeli można pobrać z:

Obsługiwane frameworki to Transformers, MLX, vLLM, SGLang oraz Ollama. Można też wypróbować modele bezpośrednio w Google AI Edge Gallery na Androidzie i iOS.

Google opublikowało też szczegółowy wątek techniczny na temat architektury, współdzielenia KV cache i efektywnych embeddingów:

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

https://t.co/BvHkG5TaBF

— Google Gemma (@googlegemma) May 5, 2026

Pełna dokumentacja dostępna jest pod adresem ai.google.dev/gemma/docs/mtp/overview.

Gdzie to wszystko zmierza?

MTP draftery to dobry przykład tego, że wyścig AI toczy się nie tylko na poziomie zdolności modeli, ale coraz bardziej na poziomie efektywności wnioskowania. Przy rosnących kosztach infrastruktury każde realne przyspieszenie bez utraty jakości ma bezpośrednie przełożenie na ekonomikę wdrożeń. To właśnie tutaj, w tej „drugiej warstwie” optymalizacji, w najbliższych miesiącach będzie działa się naprawdę dużo ciekawej inżynierii.

Oceń artykuł

Średnia: 4.9 (10 ocen)

Gemma 4 nawet trzykrotnie szybciej. Google wypuszcza draftery MTP dla swoich otwartych modeli

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Gemma 4 nawet trzykrotnie szybciej. Google wypuszcza draftery MTP dla swoich otwartych modeli

Kluczowe fakty:

Czym jest MTP i dlaczego to ma znaczenie?

Co to oznacza dla deweloperów?

Szczegóły techniczne i optymalizacje sprzętowe

Gdzie i jak zacząć?

Gdzie to wszystko zmierza?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas