Xiaomi wypuszcza MiMo-V2.5-Pro i MiMo-V2.5: modele agentyczne na poziomie frontierowym, ale tańsze w użyciu

0:00

Zespół MiMo z Xiaomi oficjalnie udostępnił dwa nowe modele: MiMo-V2.5-Pro oraz MiMo-V2.5. Oba są dostępne przez API od razu, a ich ceny mają być konkurencyjne wobec zamkniętych modeli czołowych graczy rynku.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Czym właściwie jest model agentyczny?

Zanim przejdziemy do liczb, warto wyjaśnić, dlaczego te premiery są w ogóle istotne.

Większość benchmarków LLM sprawdza, czy model poprawnie odpowiada na pojedyncze pytanie. Benchmarki agentyczne badają coś trudniejszego: czy model potrafi samodzielnie realizować wieloetapowe zadanie, korzystając po drodze z narzędzi takich jak wyszukiwanie w sieci, wykonywanie kodu, operacje na plikach i wywołania API, nie gubiąc przy tym celu nadrzędnego. Różnica jest trochę jak między kimś, kto potrafi wytłumaczyć, jak działa kompilator, a kimś, kto go rzeczywiście napisze, uruchomi testy, znajdzie regesje i je naprawi, bez żadnej ingerencji człowieka.

MiMo-V2.5-Pro: flagowiec

MiMo-V2.5-Pro to aktualnie najmocniejszy model Xiaomi, wyraźnie wyprzedzający swojego poprzednika, MiMo-V2-Pro, w zakresie ogólnych zdolności agentycznych, złożonego software engineeringu i zadań długoterminowych.

Kluczowe wyniki benchmarkowe: SWE-bench Pro 57.2, Claw-Eval 63.8 i τ3-Bench 72.9, co stawia go w jednym rzędzie z Claude Opus 4.6 i GPT-5.4. Model potrafi utrzymać koncentrację na złożonym zadaniu przez ponad tysiąc wywołań narzędzi.

Jedną z cech odróżniających V2.5-Pro od wcześniejszych modeli jest to, co zespół Xiaomi MiMo nazywa „harness awareness”: model aktywnie korzysta z możliwości swojego środowiska uruchomieniowego, zarządza własną pamięcią i kształtuje kontekst z myślą o końcowym celu. Nie wykonuje poleceń mechanicznie, lecz optymalizuje własne środowisko pracy.

Trzy demonstracje, które mówią więcej niż benchmarki

Xiaomi opublikowało trzy demo ilustrujące, co „długoterminowe zdolności agentyczne” oznaczają w praktyce.

Demo 1 — kompilator SysY w Rust: model miał zaimplementować od zera pełny kompilator języka SysY w Ruscie (lekser, parser, AST, generowanie kodu Koopa IR, backend RISC-V, optymalizacja wydajności). To projekt, który studentowi informatyki z Peking University zajmuje zwykle kilka tygodni. MiMo-V2.5-Pro ukończył go w 4,3 godziny przy 672 wywołaniach narzędzi, uzyskując wynik 233/233 w ukrytym zestawie testów.

Demo 2 — desktopowy edytor wideo: na podstawie kilku prostych poleceń model zbudował działającą aplikację desktopową z wielościeżkową oś czasu, przycinaniem klipów, cross-fade’ami, miksowaniem audio i pipeline’em eksportu. Finalna wersja to 8192 linie kodu, wygenerowane w ciągu 1868 wywołań narzędzi przez 11,5 godziny autonomicznej pracy.

Demo 3 — projekt układu analogowego FVF-LDO: zadanie na poziomie magistra inżynierii analogowej. Model musiał zaprojektować i zoptymalizować regulator napięcia FVF-LDO w procesie TSMC 180nm CMOS, spełniając jednocześnie sześć wskaźników: margines fazowy, regulację liniową, regulację obciążeniową, prąd spoczynkowy, PSRR i odpowiedź przejściową. W zamkniętej pętli z symulatorem ngspice, po około godzinie iteracji, model osiągnął projekt spełniający wszystkie kryteria, przy czym cztery kluczowe wskaźniki poprawiły się o rząd wielkości względem jego własnej pierwszej próby.

Komentarz redaktora

Te wyniki robią wrażenie, a demo z kompilatorem w Ruscie to akurat rodzaj testu, który trudno zbagatelizować. Ale zanim zaczniemy ogłaszać koniec zawodu programisty, warto zachować pewną rezerwę. Po pierwsze: testy przeprowadziło samo Xiaomi na własnych modelach, a niezależna weryfikacja takich wyników zawsze zajmuje czas. Po drugie: skuteczność agentycznych modeli w środowiskach produkcyjnych bywa zaskakująco różna od wyników w kontrolowanych warunkach benchmarkowych. Pytanie, które mnie najbardziej interesuje, brzmi: jak te modele radzą sobie z zadaniami niezdefiniowanymi do końca, gdzie wymagania zmieniają się w połowie realizacji? Bo takie jest większość prawdziwych projektów. Jeśli odpowiedź jest pozytywna, to faktycznie mamy do czynienia z czymś istotnym. Jeśli nie, to kolejny świetny benchmark na papierze.

— Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Efektywność tokenowa: frontierowe możliwości taniej

Inteligencja na poziomie frontier ma wartość tylko wtedy, gdy jest opłacalna w użyciu.

Na benchmarku ClawEval V2.5-Pro osiąga 64% Pass^3, zużywając przy tym ok. 70 tysięcy tokenów na trajektorię, czyli o 40-60% mniej niż Claude Opus 4.6, Gemini 3.1 Pro i GPT-5.4 przy porównywalnych wynikach. Dla zespołów budujących produkcyjne pipeline’y agentyczne to realna oszczędność, nie marketingowy slogan.

Xiaomi pozycjonuje V2.5-Pro jako zamiennik backendu dla popularnych scaffold’ów, w tym Claude Code, OpenCode i Kilo.

MiMo-V2.5: multimodalność i połowa ceny

MiMo-V2.5 to model z natywnym rozumieniem obrazu i dźwięku, zaprojektowany tak, że percepcja i działanie są zintegrowane od podstaw, a nie doklejone na zasadzie „wizja na wierzchu modelu tekstowego.” Obsługuje do 1 miliona tokenów kontekstu.

Na benchmarkach multimodalnych:

Claw-Eval (ogólny podzbiór): 62.3
Claw-Eval Multimodal: 23.8, co oznacza dorównanie Claude Sonnet 4.6 i niemalże Claude Opus 4.6 (różnica jednego punktu)
Video-MME: 87.7, praktycznie remis z Gemini 3 Pro (88.4)
CharXiv RQ: 81.0
MMMU-Pro: 77.9

Na benchmarku MiMo Coding Bench model dorównuje wynikami MiMo-V2.5-Pro w codziennych zadaniach kodowania, kosztując przy tym o połowę mniej (wycena 1x zamiast 2x).

Cennik i dostępność

Xiaomi uprościło model rozliczeniowy:

MiMo-V2.5: 1 token = 1 credit
MiMo-V2.5-Pro: 1 token = 2 credits

Token Plans nie stosują już dodatkowego mnożnika za korzystanie z okna kontekstowego 1M tokenów, co wcześniej było istotnym kosztem przy długich zadaniach agentycznych.

Oba modele są dostępne przez API i gotowe do integracji z Claude Code, OpenCode oraz Kilo.

Oceń artykuł

Średnia: 4.9 (17 ocen)

Xiaomi wypuszcza MiMo-V2.5-Pro i MiMo-V2.5: modele agentyczne na poziomie frontierowym, ale tańsze w użyciu

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Google Photos zmienia perspektywę zdjęcia po jego zrobieniu. Oto jak to działa

AI w urzędach: technologia gotowa, ludzie i organizacje jeszcze nie

Google Workspace dostaje AI do obsługi biurowego życia. Nowe narzędzia w Docs, Sheets i Gmail

Google Photos zmienia perspektywę zdjęcia po jego zrobieniu. Oto jak to działa

AI w urzędach: technologia gotowa, ludzie i organizacje jeszcze nie

Google Workspace dostaje AI do obsługi biurowego życia. Nowe narzędzia w Docs, Sheets i Gmail

Xiaomi wypuszcza MiMo-V2.5-Pro i MiMo-V2.5: modele agentyczne na poziomie frontierowym, ale tańsze w użyciu

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Google Photos zmienia perspektywę zdjęcia po jego zrobieniu. Oto jak to działa

AI w urzędach: technologia gotowa, ludzie i organizacje jeszcze nie

Google Workspace dostaje AI do obsługi biurowego życia. Nowe narzędzia w Docs, Sheets i Gmail

Xiaomi wypuszcza MiMo-V2.5-Pro i MiMo-V2.5: modele agentyczne na poziomie frontierowym, ale tańsze w użyciu

AIport.pl - o nas

Xiaomi wypuszcza MiMo-V2.5-Pro i MiMo-V2.5: modele agentyczne na poziomie frontierowym, ale tańsze w użyciu

Czym właściwie jest model agentyczny?

MiMo-V2.5-Pro: flagowiec

Trzy demonstracje, które mówią więcej niż benchmarki

Komentarz redaktora

Efektywność tokenowa: frontierowe możliwości taniej

MiMo-V2.5: multimodalność i połowa ceny

Cennik i dostępność

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas