Google wypuściło wczoraj DiffusionGemma, eksperymentalny model językowy, który generuje tekst zupełnie inaczej niż wszystko, co do tej pory znaliśmy z rodziny Gemma. Zamiast przewidywać słowo po słowie, jak maszyna do pisania, model ten drukuje całe akapity naraz. I podobno robi to nawet cztery razy szybciej.
Kluczowe fakty:
- DiffusionGemma to eksperymentalny model Google, który zamiast generować tekst token po tokenie, produkuje całe bloki tekstu równocześnie, osiągając do czterokrotnie większą szybkość na dedykowanych GPU.
- Model wykorzystuje mechanizm dyfuzji – zaczyna od "płótna" z losowymi tokenami zastępczymi, a następnie w kolejnych przejściach stopniowo zastępuje szum poprawnymi tokenami, generując 256 tokenów równolegle w każdym przejściu.
- DiffusionGemma została udostępniona publicznie na licencji Apache 2.0, a Google po raz pierwszy zaprezentowało tę technologię podczas ubiegłorocznego Google I/O jako Gemini Diffusion.
Koniec z podejściem „jedno słowo na raz”
Większość modeli językowych, które znamy, działa autoregresyjnie. Czyli generuje jeden token, potem kolejny, i kolejny, za każdym razem patrząc wstecz na to, co już napisało. DiffusionGemma porzuca to podejście i generuje całe bloki tekstu równocześnie, dostarczając do czterech razy szybszego wyjścia na dedykowanych GPU.
Sam mechanizm to nic nowego w świecie AI. Dyfuzja od dawna stanowi standard w generowaniu obrazów, chociażby w Stable Diffusion. Ale zastosowanie tego samego podejścia do tekstu na tej skali to już inna historia. Środowisko badawcze eksperymentowało z dyfuzją w generowaniu tekstu od lat, ale przeniesienie jej na duże modele pozostawało sporym wyzwaniem.
Google pokazało pierwsze demos Gemini Diffusion jeszcze na ubiegłorocznym I/O. A potem cisza. Teraz firma przerwała milczenie, wypuszczając DiffusionGemma pod licencją Apache 2.0.
Jak to działa w praktyce?
Wyobraź sobie, że zamiast maszyny do pisania, masz wielką prasę drukarską. Maszyna do pisania uderza w jeden klawisz naraz. Prasa stampluje całą stronę jednocześnie. Taki właśnie jest sens DiffusionGemma.
Model zaczyna od „płótna” wypełnionego losowymi tokenami zastępczymi. Następnie w kolejnych przejściach stopniowo „oczyszcza” ten szum, blokując poprawne tokeny i używając ich jako wskazówek kontekstowych do dopracowania reszty. To dokładnie to samo, co robią generatory obrazów, tyle że zamiast pikseli, mamy tutaj słowa.
Model generuje 256 tokenów równolegle w każdym przejściu, co oznacza, że każdy token może „widzieć” wszystkie inne. To daje mu przewagę w nieliniowych zadaniach, takich jak wypełnianie kodu, sekwencje aminokwasów czy grafy matematyczne.
Co do liczb: prędkość generowania przekracza 1000 tokenów na sekundę na GPU NVIDIA H100, a na GeForce RTX 5090 wynosi ponad 700 tokenów na sekundę. Dla porównania, typowe lokalne modele autoregresyjne osiągają zazwyczaj kilkadziesiąt do maksymalnie kilkuset tokenów na sekundę na tym samym sprzęcie.
Nie jest bez kompromisów
I tu trzeba zatrzymać się na chwilę. Bo liczby robią wrażenie, ale nie są całą historią.
DiffusionGemma to jeden z ciekawszych ruchów technologicznych Google w ostatnich miesiącach, bo atakuje problem od innej strony niż wszyscy inni. Szybkość lokalna, niskie zużycie VRAM, licencja Apache 2.0, wszystko to brzmi jak prezent dla deweloperów. Ale pamiętajmy: jest to model eksperymentalny, który sam Google opisuje jako słabszy jakościowo od standardowego Gemma 4. Pytanie nie jest więc „czy jest szybszy”, bo jest. Pytanie brzmi: do czego konkretnie warto go użyć? W zastosowaniach, gdzie liczy się czas reakcji i pewna interaktywność, ma szansę całkowicie zmienić sposób pracy. Ale w produkcyjnych środowiskach, gdzie liczy się jakość odpowiedzi, na razie nie zastąpi sprawdzonych rozwiązań. Obserwuję tę technologię i powiem szczerze: to dopiero początki. Traktujmy DiffusionGemma jak sygnał kierunku, nie gotowy produkt.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Sam Google przyznaje otwarcie: ogólna jakość wyników DiffusionGemma jest niższa niż standardowego Gemma 4. Dla aplikacji wymagających maksymalnej jakości firma rekomenduje wdrożenie standardowej wersji Gemma 4.
To istotna informacja. Cztery razy szybciej to brzmi świetnie w nagłówku. W praktyce oznacza to, że model celowo poświęca jakość na rzecz prędkości.
Architektura i wymagania sprzętowe
DiffusionGemma opiera się na architekturze Mixture of Experts z 26 miliardami parametrów, ale podczas wnioskowania aktywuje tylko 3,8 miliarda. Pozwala to modelowi zmieścić się w około 18 GB VRAM po kwantyzacji, co czyni go dostępnym na wysokiej klasy kartach graficznych dla konsumentów.
Warto jednak zaznaczyć jedno ograniczenie, o którym Google wspomina w przypisie: przyspieszenie działa przede wszystkim na dedykowanych GPU. Układy z pamięcią zunifikowaną, jak te w Apple Silicon, mogą nie odczuć tej samej przewagi. Powód jest techniczny: architektura dyfuzyjna przenosi wąskie gardło z przepustowości pamięci na obliczenia, a to faworyzuje układy NVIDIA, nie Mac.
Konkretne scenariusze, w których DiffusionGemma może błyszczeć:
- Edycja inline (wstawianie tekstu w środek istniejącego dokumentu)
- Code infilling (uzupełnianie luk w kodzie)
- Szybka iteracja prototypów tekstowych
- Nieliniowe struktury (tam, gdzie zwykłe LLM gubią się przez sekwencyjność)
Sudoku jako dowód słuszności pomysłu
Jeden z demonstracyjnych przykładów podanych przez Google robi wrażenie. Model został dostrojony do rozwiązywania sudoku, zadania, które sprawia trudności konwencjonalnym modelom autoregresyjnym, ponieważ późniejsze tokeny wpływają na wcześniejsze decyzje. DiffusionGemma, dzięki dwukierunkowej uwadze, radzi sobie z tym naturalnie.
To nie jest trywialne. Autoregresja z definicji patrzy tylko do przodu. Dyfuzja może patrzeć w obie strony jednocześnie. I to zmienia rodzaj problemów, które model może rozwiązać efektywnie.
Ekosystem i dostępność
Wagi modelu są dostępne na Hugging Face pod licencją Apache 2.0. Google współpracowało z kilkoma partnerami przy optymalizacji:
- NVIDIA (wsparcie dla GeForce RTX 5090 i 4090 po kwantyzacji, a także dla układów Hopper i Blackwell)
- Red Hat (checkpointy FP8 i NVFP4 w ich hubie)
- vLLM (pierwszy dyfuzyjny LLM natywnie wspierany przez tę biblioteczkę serwowania)
- Unsloth i NVIDIA NeMo (fine-tuning)
- MLX i Hugging Face Transformers (integracja)
Wkrótce ma dojść również natywne wsparcie dla llama.cpp.
Sygnał dla całej branży
Przez ostatnie trzy lata wyścig AI kręcił się głównie wokół jednego pytania: który model jest mądrzejszy? Benchmarki, MMLU, reasoning, matematyka. Teraz Google dodaje do tej rozmowy nowy wymiar: a co z prędkością na urządzeniu użytkownika?
Modele dyfuzyjne sygnalizują przesunięcie w kierunku wydajniejszych architektur, które mogą zdominować przyszły rozwój AI. To odważna teza, ale nie bez podstaw. Jeśli okaże się, że dyfuzja tekstowa dojrzeje do poziomu jakości porównywalnego z autoregresją, będziemy mieli do czynienia z realną zmianą paradygmatu.
Na razie DiffusionGemma to eksperyment. Otwarty, szybki i ciekawy. Google pokazuje, że wyścig technologiczny nie musi iść tylko w jednym kierunku.
