Google ogłosiło udostępnienie drafterów Multi-Token Prediction (MTP) dla rodziny modeli Gemma 4. Nowe komponenty przyspieszają wnioskowanie nawet trzykrotnie, nie obniżając przy tym jakości odpowiedzi ani logiki rozumowania.
Kluczowe fakty:
- Google udostępniło draftery Multi-Token Prediction (MTP) dla modeli Gemma 4, które przyspieszają wnioskowanie nawet trzykrotnie bez obniżania jakości odpowiedzi.
- Technika speculative decoding wykorzystuje lekki model-drafter do przewidywania kilku tokenów naraz, które następnie weryfikuje główny model jednym przejściem.
- Draftery MTP są dostępne na licencji Apache 2.0 i obsługiwane przez frameworki Transformers, MLX, vLLM, SGLang oraz Ollama.
Gemma 4, którą Google zaprezentowało kilka tygodni temu, zdążyła zebrać ponad 60 milionów pobrań. Teraz firma idzie krok dalej i publikuje dodatkowe narzędzie, które ma sprawić, że praca z tymi modelami stanie się jeszcze bardziej praktyczna, szczególnie na sprzęcie konsumenckim.
Czym jest MTP i dlaczego to ma znaczenie?
Standardowe modele językowe generują tekst autoregresywnie, czyli token po tokenie. Każdy krok wymaga przeniesienia miliardów parametrów z pamięci VRAM do jednostek obliczeniowych, co tworzy wąskie gardło przepustowości pamięci. Procesor przez większość czasu po prostu czeka.
Technika speculative decoding, którą Google stosuje w MTP, rozdziela generowanie tokenów od ich weryfikacji. Lekki model-drafter przewiduje kilka kolejnych tokenów naraz, w czasie krótszym niż czas potrzebny głównemu modelowi na przetworzenie jednego. Duży model (np. Gemma 4 31B) weryfikuje całą sekwencję równolegle, jednym przejściem. Jeśli zgadza się z propozycją draftera, akceptuje całą sekwencję, a przy okazji generuje jeszcze jeden dodatkowy token. Wynik: aplikacja dostaje pełną sekwencję plus jeden token w czasie, który normalnie wystarczyłby na wygenerowanie tylko jednego.
Podstawy tej techniki opisano w pracy badawczej Google z 2022 roku: Fast Inference from Transformers via Speculative Decoding.
Co to oznacza dla deweloperów?
Przyspieszenie do 3x brzmi świetnie w komunikacie prasowym. Ale co z tego wynika w praktyce?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: To ciekawy ruch ze strony Google, bo MTP draftery adresują konkretny, realny problem, a nie tylko podnoszą benchmark. Szybsze wnioskowanie na sprzęcie konsumenckim to realna korzyść dla deweloperów, którzy budują aplikacje off-line lub chcą uruchamiać modele lokalnie bez kosztów chmury. Z drugiej strony warto zapytać: jak te wyniki mają się do rzeczywistych, zróżnicowanych przypadków użycia? Testy na konkretnym sprzęcie w kontrolowanych warunkach to jedno, a produkcyjny chaos to drugie. Pytanie, które wisi w powietrzu: czy przyspieszenie będzie tak samo spektakularne przy bardziej złożonych, nieregularnych zapytaniach, gdzie drafter trudniej zgaduje kolejne tokeny?
Google wymienia kilka konkretnych scenariuszy, w których MTP draftery mają wnieść wartość:
- Zmniejszona latencja w czacie w czasie zbliżonym do rzeczywistego oraz w aplikacjach głosowych
- Uruchamianie modeli 26B MoE i 31B Dense na komputerach osobistych i kartach graficznych klasy konsumenckiej
- Szybsza generacja na urządzeniach brzegowych z modelami E2B i E4B, przy jednoczesnym oszczędzaniu baterii
- Identyczna jakość odpowiedzi, bo ostateczną weryfikację zawsze przeprowadza główny model Gemma 4
Szczegóły techniczne i optymalizacje sprzętowe
Pod maską znalazło się kilka istotnych ulepszeń. Modele-draftery korzystają z aktywacji docelowego modelu i współdzielą z nim pamięć podręczną KV (KV cache), dzięki czemu nie muszą przeliczać kontekstu od nowa. Dla modeli brzegowych E2B i E4B, gdzie obliczenie końcowego logitu stanowiło szczególnie duże obciążenie, wdrożono technikę efektywnego klastrowania w warstwie embeddingów.
Google zwraca też uwagę na specyfikę poszczególnych platform. Dla modelu 26B MoE na układach Apple Silicon przyspieszenie przy batch size równym 1 jest skromne z uwagi na mechanizm routingu, ale przy przetwarzaniu 4-8 równoległych zapytań skoki sięgają 2,2x. Podobne zależności obserwuje się na kartach Nvidia A100.
Gdzie i jak zacząć?
Draftery MTP są dostępne od dziś na licencji Apache 2.0, tej samej co sama Gemma 4. Wagi modeli można pobrać z:
Obsługiwane frameworki to Transformers, MLX, vLLM, SGLang oraz Ollama. Można też wypróbować modele bezpośrednio w Google AI Edge Gallery na Androidzie i iOS.
Google opublikowało też szczegółowy wątek techniczny na temat architektury, współdzielenia KV cache i efektywnych embeddingów:
— Google Gemma (@googlegemma) May 5, 2026
Pełna dokumentacja dostępna jest pod adresem ai.google.dev/gemma/docs/mtp/overview.
Gdzie to wszystko zmierza?
MTP draftery to dobry przykład tego, że wyścig AI toczy się nie tylko na poziomie zdolności modeli, ale coraz bardziej na poziomie efektywności wnioskowania. Przy rosnących kosztach infrastruktury każde realne przyspieszenie bez utraty jakości ma bezpośrednie przełożenie na ekonomikę wdrożeń. To właśnie tutaj, w tej „drugiej warstwie” optymalizacji, w najbliższych miesiącach będzie działa się naprawdę dużo ciekawej inżynierii.
