Google ogłosił DiffusionGemma. Cztery razy szybciej, ale czy to koniec autoregresji?

Autor i odp. redakcyjna: Natalia Woś | Data: 11 czerwca 2026, godz. 06:55 | Czas czytania: około 6 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Google wypuściło wczoraj DiffusionGemma, eksperymentalny model językowy, który generuje tekst zupełnie inaczej niż wszystko, co do tej pory znaliśmy z rodziny Gemma. Zamiast przewidywać słowo po słowie, jak maszyna do pisania, model ten drukuje całe akapity naraz. I podobno robi to nawet cztery razy szybciej.

Kluczowe fakty:

DiffusionGemma to eksperymentalny model Google, który zamiast generować tekst token po tokenie, produkuje całe bloki tekstu równocześnie, osiągając do czterokrotnie większą szybkość na dedykowanych GPU.
Model wykorzystuje mechanizm dyfuzji – zaczyna od "płótna" z losowymi tokenami zastępczymi, a następnie w kolejnych przejściach stopniowo zastępuje szum poprawnymi tokenami, generując 256 tokenów równolegle w każdym przejściu.
DiffusionGemma została udostępniona publicznie na licencji Apache 2.0, a Google po raz pierwszy zaprezentowało tę technologię podczas ubiegłorocznego Google I/O jako Gemini Diffusion.

Spis treści:

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Koniec z podejściem „jedno słowo na raz”

Większość modeli językowych, które znamy, działa autoregresyjnie. Czyli generuje jeden token, potem kolejny, i kolejny, za każdym razem patrząc wstecz na to, co już napisało. DiffusionGemma porzuca to podejście i generuje całe bloki tekstu równocześnie, dostarczając do czterech razy szybszego wyjścia na dedykowanych GPU.

Sam mechanizm to nic nowego w świecie AI. Dyfuzja od dawna stanowi standard w generowaniu obrazów, chociażby w Stable Diffusion. Ale zastosowanie tego samego podejścia do tekstu na tej skali to już inna historia. Środowisko badawcze eksperymentowało z dyfuzją w generowaniu tekstu od lat, ale przeniesienie jej na duże modele pozostawało sporym wyzwaniem.

Google pokazało pierwsze demos Gemini Diffusion jeszcze na ubiegłorocznym I/O. A potem cisza. Teraz firma przerwała milczenie, wypuszczając DiffusionGemma pod licencją Apache 2.0.

Jak to działa w praktyce?

Wyobraź sobie, że zamiast maszyny do pisania, masz wielką prasę drukarską. Maszyna do pisania uderza w jeden klawisz naraz. Prasa stampluje całą stronę jednocześnie. Taki właśnie jest sens DiffusionGemma.

Model zaczyna od „płótna” wypełnionego losowymi tokenami zastępczymi. Następnie w kolejnych przejściach stopniowo „oczyszcza” ten szum, blokując poprawne tokeny i używając ich jako wskazówek kontekstowych do dopracowania reszty. To dokładnie to samo, co robią generatory obrazów, tyle że zamiast pikseli, mamy tutaj słowa.

Model generuje 256 tokenów równolegle w każdym przejściu, co oznacza, że każdy token może „widzieć” wszystkie inne. To daje mu przewagę w nieliniowych zadaniach, takich jak wypełnianie kodu, sekwencje aminokwasów czy grafy matematyczne.

Co do liczb: prędkość generowania przekracza 1000 tokenów na sekundę na GPU NVIDIA H100, a na GeForce RTX 5090 wynosi ponad 700 tokenów na sekundę. Dla porównania, typowe lokalne modele autoregresyjne osiągają zazwyczaj kilkadziesiąt do maksymalnie kilkuset tokenów na sekundę na tym samym sprzęcie.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Nie jest bez kompromisów

I tu trzeba zatrzymać się na chwilę. Bo liczby robią wrażenie, ale nie są całą historią.

DiffusionGemma to jeden z ciekawszych ruchów technologicznych Google w ostatnich miesiącach, bo atakuje problem od innej strony niż wszyscy inni. Szybkość lokalna, niskie zużycie VRAM, licencja Apache 2.0, wszystko to brzmi jak prezent dla deweloperów. Ale pamiętajmy: jest to model eksperymentalny, który sam Google opisuje jako słabszy jakościowo od standardowego Gemma 4. Pytanie nie jest więc „czy jest szybszy”, bo jest. Pytanie brzmi: do czego konkretnie warto go użyć? W zastosowaniach, gdzie liczy się czas reakcji i pewna interaktywność, ma szansę całkowicie zmienić sposób pracy. Ale w produkcyjnych środowiskach, gdzie liczy się jakość odpowiedzi, na razie nie zastąpi sprawdzonych rozwiązań. Obserwuję tę technologię i powiem szczerze: to dopiero początki. Traktujmy DiffusionGemma jak sygnał kierunku, nie gotowy produkt.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Sam Google przyznaje otwarcie: ogólna jakość wyników DiffusionGemma jest niższa niż standardowego Gemma 4. Dla aplikacji wymagających maksymalnej jakości firma rekomenduje wdrożenie standardowej wersji Gemma 4.

To istotna informacja. Cztery razy szybciej to brzmi świetnie w nagłówku. W praktyce oznacza to, że model celowo poświęca jakość na rzecz prędkości.

Architektura i wymagania sprzętowe

DiffusionGemma opiera się na architekturze Mixture of Experts z 26 miliardami parametrów, ale podczas wnioskowania aktywuje tylko 3,8 miliarda. Pozwala to modelowi zmieścić się w około 18 GB VRAM po kwantyzacji, co czyni go dostępnym na wysokiej klasy kartach graficznych dla konsumentów.

Warto jednak zaznaczyć jedno ograniczenie, o którym Google wspomina w przypisie: przyspieszenie działa przede wszystkim na dedykowanych GPU. Układy z pamięcią zunifikowaną, jak te w Apple Silicon, mogą nie odczuć tej samej przewagi. Powód jest techniczny: architektura dyfuzyjna przenosi wąskie gardło z przepustowości pamięci na obliczenia, a to faworyzuje układy NVIDIA, nie Mac.

Konkretne scenariusze, w których DiffusionGemma może błyszczeć:

Edycja inline (wstawianie tekstu w środek istniejącego dokumentu)
Code infilling (uzupełnianie luk w kodzie)
Szybka iteracja prototypów tekstowych
Nieliniowe struktury (tam, gdzie zwykłe LLM gubią się przez sekwencyjność)

Sudoku jako dowód słuszności pomysłu

Jeden z demonstracyjnych przykładów podanych przez Google robi wrażenie. Model został dostrojony do rozwiązywania sudoku, zadania, które sprawia trudności konwencjonalnym modelom autoregresyjnym, ponieważ późniejsze tokeny wpływają na wcześniejsze decyzje. DiffusionGemma, dzięki dwukierunkowej uwadze, radzi sobie z tym naturalnie.

To nie jest trywialne. Autoregresja z definicji patrzy tylko do przodu. Dyfuzja może patrzeć w obie strony jednocześnie. I to zmienia rodzaj problemów, które model może rozwiązać efektywnie.

Ekosystem i dostępność

Wagi modelu są dostępne na Hugging Face pod licencją Apache 2.0. Google współpracowało z kilkoma partnerami przy optymalizacji:

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

NVIDIA (wsparcie dla GeForce RTX 5090 i 4090 po kwantyzacji, a także dla układów Hopper i Blackwell)
Red Hat (checkpointy FP8 i NVFP4 w ich hubie)
vLLM (pierwszy dyfuzyjny LLM natywnie wspierany przez tę biblioteczkę serwowania)
Unsloth i NVIDIA NeMo (fine-tuning)
MLX i Hugging Face Transformers (integracja)

Wkrótce ma dojść również natywne wsparcie dla llama.cpp.

Sygnał dla całej branży

Przez ostatnie trzy lata wyścig AI kręcił się głównie wokół jednego pytania: który model jest mądrzejszy? Benchmarki, MMLU, reasoning, matematyka. Teraz Google dodaje do tej rozmowy nowy wymiar: a co z prędkością na urządzeniu użytkownika?

Modele dyfuzyjne sygnalizują przesunięcie w kierunku wydajniejszych architektur, które mogą zdominować przyszły rozwój AI. To odważna teza, ale nie bez podstaw. Jeśli okaże się, że dyfuzja tekstowa dojrzeje do poziomu jakości porównywalnego z autoregresją, będziemy mieli do czynienia z realną zmianą paradygmatu.

Na razie DiffusionGemma to eksperyment. Otwarty, szybki i ciekawy. Google pokazuje, że wyścig technologiczny nie musi iść tylko w jednym kierunku.

Oceń artykuł

Średnia: 4.9 (13 ocen)

Google ogłosił DiffusionGemma. Cztery razy szybciej, ale czy to koniec autoregresji?

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Google ogłosił DiffusionGemma. Cztery razy szybciej, ale czy to koniec autoregresji?

Kluczowe fakty:

Koniec z podejściem „jedno słowo na raz”

Jak to działa w praktyce?

Nie jest bez kompromisów

Architektura i wymagania sprzętowe

Sudoku jako dowód słuszności pomysłu

Ekosystem i dostępność

Sygnał dla całej branży

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas