Xiaomi właśnie pokazało, że nie potrzebujesz niestandardowego krzemu wartego setki milionów dolarów, żeby osiągnąć szybkość inferencji, o której firmy pokroju Cerebras i Groq mogły tylko marzyć. Model MiMo-V2.5-Pro-UltraSpeed, opracowany we współpracy z grupą TileRT, przekroczył barierę 1000 tokenów na sekundę na modelu o bilionowej liczbie parametrów. Na standardowym węźle ośmiu kart graficznych dostępnych w każdym data center.
Kluczowe fakty:
- Model MiMo-V2.5-Pro-UltraSpeed, opracowany przez Xiaomi we współpracy z grupą TileRT, osiągnął prędkość ponad 1000 tokenów na sekundę (w szczytach do 1200) na modelu o bilionowej liczbie parametrów, działając na standardowym węźle ośmiu kart graficznych.
- Dla porównania, popularne modele konkurencji generują znacznie mniej tokenów na sekundę: GPT-5.5 osiąga 68, Claude Opus 4.6 – 71, a Gemini Flash – 192 tokeny na sekundę.
- Specjalistyczny układ Cerebras, zaprojektowany wyłącznie z myślą o szybkiej inferencji, osiągnął 969 tokenów na sekundę na modelu Llama 3.1 405B, który jest mniejszy niż połowa rozmiarów modelu Xiaomi.
To nie jest mały krok. To dość fundamentalna zmiana w tym, co jest możliwe bez własnego sprzętu.
Kontekst, który robi różnicę
Żeby rozumieć, dlaczego liczba „1000 tokenów na sekundę” robi wrażenie, trzeba wiedzieć, gdzie leży reszta stawki. GPT-5.5, z którym rozmawia większość użytkowników ChatGPT, generuje 68 tokenów na sekundę. Claude Opus 4.6 ląduje mniej więcej na 71, a niższy model Haiku dobija do 98. Gemini Flash osiąga 192 tokeny na sekundę. MiMo-V2.5-Pro-UltraSpeed robi dziesięć razy więcej, na modelu dorównującym największym pod względem liczby parametrów. W szczytach demonstracyjnych wynik zbliża się do 1200 tokenów na sekundę.
Dla porównania: wcześniejszy model z rodziny MiMo, MiMo-V2-Flash, generował odpowiedzi z prędkością 150 tokenów na sekundę już w grudniu 2025. To przekłada się na około 110 słów na sekundę, czyli szybciej niż najszybszy człowiek jest w stanie czytać lub mówić. UltraSpeed przesuwa tę granicę radykalnie wyżej.
Cerebras zbudował cały biznes wokół tego problemu, projektując układ o wielkości talerza obiadowego, pakujący 44 GB pamięci na chipie, żeby wyeliminować wąskie gardło przepustowości, które spowalnia inferencję na GPU. Osiągnął 969 tokenów na sekundę na modelu Llama 3.1 405B, ale to model mniejszy niż połowa rozmiarów MiMo-V2.5-Pro. Architektura LPU Groqa zatrzymuje się w okolicach 300-750 tokenów na sekundę, zależnie od modelu.
Xiaomi to robi na sprzęcie, który już stoi w serwerowniach.
Jak to działa: trzy warstwy jednocześnie
Xiaomi nazwało to podejście „ultimate model-system codesign” i szczerze mówiąc, samo słowo codesign może brzmieć jak marketingowy bełkot, ale tu opisuje konkretny mechanizm. Żadna z trzech technik nie wystarczy samodzielnie. Tylko razem przebijają tysiąc.
Warstwa pierwsza: kwantyzacja FP4. Format MXFP4 jest zastosowany selektywnie, wyłącznie do warstw eksperckich w architekturze Mixture-of-Experts. Pozostałe moduły zachowują wyższą precyzję FP8. Eksperci przechowują większość parametrów i najlepiej tolerują redukcję precyzji, więc kompromis jest korzystny. Trening z uwzględnieniem kwantyzacji (QAT) utrzymuje jakość modelu praktycznie na tym samym poziomie co oryginał.
Warstwa druga: DFlash Speculative Decoding. Standardowe speculative decoding używa małego modelu pomocniczego do zgadywania kolejnych tokenów, które duży model weryfikuje równolegle. Problem: model pomocniczy nadal generuje tokeny jeden po jednym. DFlash przewiduje cały blok zamaskowanych pozycji w jednym przejściu. TileRT skupia się na utrzymaniu ciągłości wykonania GPU i eliminacji narzutu związanego z uruchamianiem poszczególnych operatorów. Wyniki akceptacji dla DFlash są imponujące: w kodowaniu około 6,30 tokenu akceptowanego na rundę, w matematyce i rozumowaniu 5,56, w zadaniach agentowych 4,29.
Warstwa trzecia: TileRT. Przy 1000 tokenach na sekundę każda operacja trwa mikrosekundy. Tradycyjne systemy uruchamiają operatory sekwencyjnie i każde uruchomienie kosztuje czas. Persistent Engine Kernel TileRT pozostaje rezydentem w GPU, eliminując te przerwy.
Komentarz redaktora
To jest ogłoszenie, które powinnno zainteresować każdego, kto śledzi wyścig o infrastrukturę AI, bo zmienia matematykę kosztów. Do tej pory jeśli potrzebowałeś naprawdę szybkiej inferencji na dużą skalę, byłeś praktycznie skazany na Cerebras, Groq lub drogi cloud z niestandardowym krzemem. Teraz Xiaomi pokazuje, że przy odpowiednim podejściu do co-designu modelu i systemu można to zrobić na standardowych GPU.
Ale zanim wszyscy zaczniemy się cieszyć z demokratyzacji prędkości AI, mam kilka pytań. Po pierwsze: czy te wyniki są niezależnie zweryfikowane? Xiaomi samo chwali własny produkt, demo pokazuje liczby, ale nie widziałem jeszcze żadnego zewnętrznego audytu. Po drugie: cena trzykrotnie wyższa niż standardowy dostęp to nie jest drobnostka. Dla konkretnych zastosowań, gdzie latencja jest krytyczna, np. automatyczny trading czy detekcja fraudów w czasie rzeczywistym, to może być uzasadnione. Ale dla większości projektów? Niekoniecznie. Po trzecie, i może najważniejsze: Xiaomi to firma, która sprzedaje telefony i odkurzacze robotyczne. Ich rosnąca rola w wyścigu AI na poziomie infrastruktury to ciekawy sygnał o tym, gdzie zmierza całą branża. Czy to dobra wiadomość dla otwartości ekosystemu? Pewnie tak. Czy stawia nowe pytania o koncentrację tej wiedzy? Też tak.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Gdzie to ma sens: zastosowania wymagające prędkości
Kiedy pojawia się ważna wiadomość rynkowa, model analizuje jej wpływ i generuje sygnały handlowe w ciągu milisekund, zamykając pętlę decyzyjną zanim rynek zdąży zareagować. Platforma umożliwia też przeprowadzenie złożonego rozumowania na potrzeby oceny fraudów i oceny ryzyka w ciągu setek milisekund przed rozliczeniem transakcji. Xiaomi wymienia też agenty kodujące (gdzie czas oczekiwania między krokami agenta bezpośrednio przekłada się na UX) oraz interaktywne prototypowanie.
W demo Xiaomi pokazało generowanie gry Snake w około 10 sekund i interfejsu w stylu macOS w około minutę. To nie jest tylko efektowne, to realna zmiana w tym, co jest możliwe w pętli człowiek-AI.
Równoległe uruchamianie wielu ścieżek rozumowania (Best-of-N, przeszukiwanie drzewa) w tym samym oknie czasowym to kolejny scenariusz, gdzie ta prędkość przestaje być luksusem, a staje się podstawowym wymogiem.
Dostępność, ceny i open source
API trial uruchamia się od 9 do 23 czerwca 2026 roku w ograniczonej formie aplikacyjnej, z ceną trzykrotnie wyższą od standardowego MiMo-V2.5-Pro, ale z około dziesięciokrotnie wyższą prędkością generowania. Token Plan nie jest obsługiwany. Ci, którzy dostaną dostęp, mogą przez dwa tygodnie korzystać bezpłatnie z Chat, z ograniczeniami: 10 wejść do kolejki dziennie, sesje do 30 minut, automatyczne zwolnienie zasobów po 5 minutach bezczynności.
Jednocześnie Xiaomi udostępniło checkpoint modelu MiMo-V2.5-Pro-FP4-DFlash publicznie na Hugging Face, a TileRT otworzył wybrane moduły na GitHubie. To ważne, bo pozwala społeczności samodzielnie zweryfikować to, co Xiaomi deklaruje w materiałach marketingowych.
Xiaomi wcześniej podało koszt standardowego MiMo-V2.5-Pro na poziomie około 0,43 dolara za milion tokenów wejściowych i 0,87 dolara za milion tokenów wyjściowych. UltraSpeed trzykrotnie podnosi tę stawkę, ale do zaoferowania ma też dziesięciokrotne przyspieszenie.
Reszta rynku ma teraz dobre powody, żeby sprawdzić dokładnie, jak to zrobili.
