Google Research ogłosiło coś, co część branży już zdążyła nazwać swoim momentem DeepSeek. Algorytm kompresji o nazwie TurboQuant potrafi zmniejszyć zużycie pamięci przez modele AI nawet sześciokrotnie – bez żadnej utraty dokładności. Wall Street zareagowało błyskawicznie, a akcje producentów pamięci poleciały w dół.
Co to jest TurboQuant i dlaczego to ważne
Żeby zrozumieć, dlaczego ta publikacja wywołała takie poruszenie, trzeba najpierw uchwycić, czym jest KV cache. To swego rodzaju „roboczy notatnik” modelu językowego, w którym przechowuje on kontekst rozmowy w postaci wektorów. Im dłuższa rozmowa i im większe okno kontekstowe modelu, tym więcej pamięci GPU ten notatnik pochłania. To jeden z głównych wąskich gardeł w dzisiejszych systemach AI.
Google Research ogłosiło rodzinę trzech algorytmów: TurboQuant (który zostanie zaprezentowany na konferencji ICLR 2026), PolarQuant (na AISTATS 2026) oraz Quantized Johnson-Lindenstrauss, czyli QJL. Wszystkie trzy mają redukować tzw. bottlenecki KV cache bez pogarszania jakości modeli.
TurboQuant kompresuje dane cache do zaledwie 3 bitów na wartość, w porównaniu do standardowych 16 bitów, redukując ślad pamięciowy co najmniej sześciokrotnie – bez mierzalnej utraty dokładności według benchmarków Google.
Jak działa ten mechanizm
Algorytm pracuje dwuetapowo. PolarQuant obsługuje główny krok kompresji, konwertując standardowe wektory kartezjańskie na reprezentację biegunową. Zamiast przechowywać wiele składowych kierunkowych, system kondensuje informacje do wartości promienia i kąta, eliminując kosztowne kroki normalizacji wymagane przez tradycyjne metody kwantyzacji.
QJL obsługuje błąd resztkowy. Używając transformacji Johnsona-Lindenstraussa, QJL redukuje każdą pozostałą wartość wektora do pojedynczego bitu znaku, co nie generuje żadnego narzutu pamięciowego.
Wyniki benchmarków są imponujące. Na kartach graficznych NVIDIA H100 implementacja 4-bitowa TurboQuant osiągnęła ośmiokrotne przyspieszenie w obliczaniu logitów uwagi w porównaniu do niekompresowanych kluczy 32-bitowych. W testach „Needle in a Haystack” – jednym z najtrudniejszych testów dla modeli długiego kontekstu – algorytm osiągnął perfekcyjne wyniki.
Kluczowe właściwości TurboQuant to:
- redukcja KV cache co najmniej 6 razy
- kompresja do 3 bitów bez utraty dokładności
- brak potrzeby ponownego trenowania modeli
- zerowy narzut pamięciowy dla QJL
- lepsza wydajność od istniejących metod jak Product Quantization czy RabbiQ
Internet natychmiast porównał to do Pied Piper
Reakcja społeczności technicznej była równie szybka co entuzjastyczna. Wielu użytkowników platformy X zaczęło porównywać TurboQuant do fikcyjnego algorytmu kompresji Pied Piper z serialu HBO „Dolina Krzemowa”. Cloudflare CEO Matthew Prince napisał wprost, że to „Google’s DeepSeek moment” – nawiązując do efektu wydajnościowego, który osiągnął chiński model DeepSeek, trenowany za ułamek kosztu zachodnich konkurentów.
https://twitter.com/eastdakota/status/1904542378296054249
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: TurboQuant to bez wątpienia istotne osiągnięcie algorytmiczne – i nie zdziwiłem się ani trochę, że rynek zareagował tak nerwowo. Ale trzeba zachować chłodną głowę. Efektywność w inferencji to nie to samo co mniejsze zapotrzebowanie na sprzęt w całym cyklu życia modeli AI. Trening wciąż pochłania ogromne ilości pamięci HBM i tutaj TurboQuant niczego nie zmienia. Pytanie, które naprawdę warto zadać, brzmi: czy algorytmiczne innowacje zmienią dynamikę zakupów sprzętu na poziomie hurtowym, czy tylko pozwolą tym samym firmom zrobić więcej za te same pieniądze? Historia branży pokazuje, że zwykle to drugie. Ale możliwe, że tym razem coś się przesuwa.
Wall Street zareagowało wyprzedażą
Odpowiedź rynków kapitałowych nie pozostawiała złudzeń co do powagi, jaką inwestorzy przypisują tej publikacji. Akcje Micron, Western Digital i innych producentów pamięci spadły. Analityk Wells Fargo Andrew Rocha zauważył, że TurboQuant bezpośrednio atakuje krzywą kosztów pamięci w systemach AI i szybko rodzi pytanie o to, ile pojemności pamięci przemysł faktycznie potrzebuje. Jednocześnie Rocha i inni analitycy ostrzegli, że popyt na pamięć AI pozostaje silny, a algorytmy kompresji istniały przez lata bez fundamentalnej zmiany wolumenów zakupów.
Google opublikowało te wyniki 24 marca, a wyprzedaż uderzyła w sektor w sposób, który – według wielu analityków – mógł być częściowo wywołany przez osoby wychodzące z zatłoczonych pozycji i realizujące zyski, nie tylko przez nagłą zmianę oczekiwań co do popytu na rynku końcowym.
Dodatkowy kontekst absurdalności sytuacji dostarczyło to, co wydarzyło się tego samego dnia: Nanya Technology ogłosiła, że Sandisk Technologies zapisał się na 138,685 miliona akcji zwykłych Nanya w prywatnej emisji. Sandisk był największym inwestorem w tym finansowaniu o wartości około 2,5 miliarda dolarów i podpisał długoterminowy kontrakt na dostawy DRAM z Nanya – właśnie na potrzeby popytu napędzanego przez AI.
Czy to naprawdę koniec ery memory-hungry AI?
To pytanie jest dziś bardziej otwarte niż kiedykolwiek. Trzeba odróżnić dwa zupełnie różne scenariusze. TurboQuant jest technologią optymalizacji inferencji i nie dotknął logiki pamięci potrzebnej do trenowania od momentu swojego zaprojektowania. HBM jako kluczowe medium pamięci dla scenariuszy treningowych AI jest praktycznie odporne na jakikolwiek wpływ TurboQuant.
Co więcej, raport branżowy TrendForce za pierwszy kwartał 2026 roku wskazuje, że ceny kontraktowe standardowego DRAM oczekiwane są na poziomie wzrostu o 55-60% kwartał do kwartału, bo luka między podażą a popytem wciąż się poszerza.
Przemysł przesuwa się od skupienia na „większych modelach” do „lepszej pamięci” – zmiana, która mogłaby globalnie obniżyć koszty obsługi AI. To brzmi rewolucyjnie, ale pamiętajmy, że TurboQuant dopiero trafi na konferencję ICLR 2026 w przyszłym miesiącu. Implementacje open source w środowiskach takich jak llama.cpp są planowane dopiero na trzeci kwartał tego roku.
Google uderza w swój własny problem
Jest jeszcze jeden wymiar tej historii, który często umyka w dyskusji o akcjach Micron. TurboQuant ma dla Google bezpośrednie zastosowanie komercyjne. Algorytm poprawia wyszukiwanie wektorowe, technologię leżącą u podstaw semantycznych wyszukiwań podobieństwa wśród miliardów elementów – a to zasila wszystko, od Google Search po rekomendacje YouTube i targetowanie reklamowe, czyli fundamenty przychodów całego Alphabet.
Firma, która kilka tygodni wcześniej ogłosiła plan wydatków kapitałowych na 2026 rok w przedziale 175-185 miliardów dolarów, teraz pokazuje algorytm, który pozwoli jej zrobić więcej za te same pieniądze. To nie przypadek. To strategia.
Pytanie, czy Wall Street potrafi to rozróżnić, pozostaje otwarte.
