Zespół MiMo z Xiaomi oficjalnie udostępnił dwa nowe modele: MiMo-V2.5-Pro oraz MiMo-V2.5. Oba są dostępne przez API od razu, a ich ceny mają być konkurencyjne wobec zamkniętych modeli czołowych graczy rynku.
Czym właściwie jest model agentyczny?
Zanim przejdziemy do liczb, warto wyjaśnić, dlaczego te premiery są w ogóle istotne.
Większość benchmarków LLM sprawdza, czy model poprawnie odpowiada na pojedyncze pytanie. Benchmarki agentyczne badają coś trudniejszego: czy model potrafi samodzielnie realizować wieloetapowe zadanie, korzystając po drodze z narzędzi takich jak wyszukiwanie w sieci, wykonywanie kodu, operacje na plikach i wywołania API, nie gubiąc przy tym celu nadrzędnego. Różnica jest trochę jak między kimś, kto potrafi wytłumaczyć, jak działa kompilator, a kimś, kto go rzeczywiście napisze, uruchomi testy, znajdzie regesje i je naprawi, bez żadnej ingerencji człowieka.
MiMo-V2.5-Pro: flagowiec
MiMo-V2.5-Pro to aktualnie najmocniejszy model Xiaomi, wyraźnie wyprzedzający swojego poprzednika, MiMo-V2-Pro, w zakresie ogólnych zdolności agentycznych, złożonego software engineeringu i zadań długoterminowych.
Kluczowe wyniki benchmarkowe: SWE-bench Pro 57.2, Claw-Eval 63.8 i τ3-Bench 72.9, co stawia go w jednym rzędzie z Claude Opus 4.6 i GPT-5.4. Model potrafi utrzymać koncentrację na złożonym zadaniu przez ponad tysiąc wywołań narzędzi.
Jedną z cech odróżniających V2.5-Pro od wcześniejszych modeli jest to, co zespół Xiaomi MiMo nazywa „harness awareness”: model aktywnie korzysta z możliwości swojego środowiska uruchomieniowego, zarządza własną pamięcią i kształtuje kontekst z myślą o końcowym celu. Nie wykonuje poleceń mechanicznie, lecz optymalizuje własne środowisko pracy.
Trzy demonstracje, które mówią więcej niż benchmarki
Xiaomi opublikowało trzy demo ilustrujące, co „długoterminowe zdolności agentyczne” oznaczają w praktyce.
Demo 1 — kompilator SysY w Rust: model miał zaimplementować od zera pełny kompilator języka SysY w Ruscie (lekser, parser, AST, generowanie kodu Koopa IR, backend RISC-V, optymalizacja wydajności). To projekt, który studentowi informatyki z Peking University zajmuje zwykle kilka tygodni. MiMo-V2.5-Pro ukończył go w 4,3 godziny przy 672 wywołaniach narzędzi, uzyskując wynik 233/233 w ukrytym zestawie testów.
Demo 2 — desktopowy edytor wideo: na podstawie kilku prostych poleceń model zbudował działającą aplikację desktopową z wielościeżkową oś czasu, przycinaniem klipów, cross-fade’ami, miksowaniem audio i pipeline’em eksportu. Finalna wersja to 8192 linie kodu, wygenerowane w ciągu 1868 wywołań narzędzi przez 11,5 godziny autonomicznej pracy.
Demo 3 — projekt układu analogowego FVF-LDO: zadanie na poziomie magistra inżynierii analogowej. Model musiał zaprojektować i zoptymalizować regulator napięcia FVF-LDO w procesie TSMC 180nm CMOS, spełniając jednocześnie sześć wskaźników: margines fazowy, regulację liniową, regulację obciążeniową, prąd spoczynkowy, PSRR i odpowiedź przejściową. W zamkniętej pętli z symulatorem ngspice, po około godzinie iteracji, model osiągnął projekt spełniający wszystkie kryteria, przy czym cztery kluczowe wskaźniki poprawiły się o rząd wielkości względem jego własnej pierwszej próby.
Komentarz redaktora
Te wyniki robią wrażenie, a demo z kompilatorem w Ruscie to akurat rodzaj testu, który trudno zbagatelizować. Ale zanim zaczniemy ogłaszać koniec zawodu programisty, warto zachować pewną rezerwę. Po pierwsze: testy przeprowadziło samo Xiaomi na własnych modelach, a niezależna weryfikacja takich wyników zawsze zajmuje czas. Po drugie: skuteczność agentycznych modeli w środowiskach produkcyjnych bywa zaskakująco różna od wyników w kontrolowanych warunkach benchmarkowych. Pytanie, które mnie najbardziej interesuje, brzmi: jak te modele radzą sobie z zadaniami niezdefiniowanymi do końca, gdzie wymagania zmieniają się w połowie realizacji? Bo takie jest większość prawdziwych projektów. Jeśli odpowiedź jest pozytywna, to faktycznie mamy do czynienia z czymś istotnym. Jeśli nie, to kolejny świetny benchmark na papierze.
— Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Efektywność tokenowa: frontierowe możliwości taniej
Inteligencja na poziomie frontier ma wartość tylko wtedy, gdy jest opłacalna w użyciu.
Na benchmarku ClawEval V2.5-Pro osiąga 64% Pass^3, zużywając przy tym ok. 70 tysięcy tokenów na trajektorię, czyli o 40-60% mniej niż Claude Opus 4.6, Gemini 3.1 Pro i GPT-5.4 przy porównywalnych wynikach. Dla zespołów budujących produkcyjne pipeline’y agentyczne to realna oszczędność, nie marketingowy slogan.
Xiaomi pozycjonuje V2.5-Pro jako zamiennik backendu dla popularnych scaffold’ów, w tym Claude Code, OpenCode i Kilo.
MiMo-V2.5: multimodalność i połowa ceny
MiMo-V2.5 to model z natywnym rozumieniem obrazu i dźwięku, zaprojektowany tak, że percepcja i działanie są zintegrowane od podstaw, a nie doklejone na zasadzie „wizja na wierzchu modelu tekstowego.” Obsługuje do 1 miliona tokenów kontekstu.
Na benchmarkach multimodalnych:
- Claw-Eval (ogólny podzbiór): 62.3
- Claw-Eval Multimodal: 23.8, co oznacza dorównanie Claude Sonnet 4.6 i niemalże Claude Opus 4.6 (różnica jednego punktu)
- Video-MME: 87.7, praktycznie remis z Gemini 3 Pro (88.4)
- CharXiv RQ: 81.0
- MMMU-Pro: 77.9
Na benchmarku MiMo Coding Bench model dorównuje wynikami MiMo-V2.5-Pro w codziennych zadaniach kodowania, kosztując przy tym o połowę mniej (wycena 1x zamiast 2x).
Cennik i dostępność
Xiaomi uprościło model rozliczeniowy:
- MiMo-V2.5: 1 token = 1 credit
- MiMo-V2.5-Pro: 1 token = 2 credits
Token Plans nie stosują już dodatkowego mnożnika za korzystanie z okna kontekstowego 1M tokenów, co wcześniej było istotnym kosztem przy długich zadaniach agentycznych.
Oba modele są dostępne przez API i gotowe do integracji z Claude Code, OpenCode oraz Kilo.
