Z.AI, platforma stojąca za rodziną modeli GLM, właśnie wypuściła GLM-5.1 – flagowy model agentowy z 754 miliardami parametrów, który osiągnął najlepszy wynik na świecie w benchmarku SWE-Bench Pro. Co więcej, potrafi pracować autonomicznie przez 8 godzin z rzędu.
To nie jest kolejny model „lepszy od poprzednika o 3%”. GLM-5.1 wyprzedza GPT-5.4, Claude Opus 4.6 oraz Gemini 3.1 Pro na benchmarku SWE-Bench Pro, który mierzy zdolność do rozwiązywania rzeczywistych problemów w repozytoriach kodu. Wynik 58.4 punktu to aktualnie najlepszy publicznie udokumentowany rezultat w tej kategorii.
Architektura, która robi różnicę
GLM-5.1 nie jest zwykłym, gęstym transformerem. Model opiera się na architekturze MoE (Mixture of Experts) połączonej z DSA (Dynamic Sparse Attention), co znacząco obniża koszty trenowania i inferencji przy zachowaniu wysokiej jakości na długich kontekstach. W praktyce oznacza to, że model aktywuje tylko część swoich parametrów podczas każdego przebiegu – dużo efektywniej niż porównywalny model gęsty, choć wymaga specyficznej infrastruktury do wdrożenia.
Na etapie trenowania zastosowano nową, asynchroniczną infrastrukturę uczenia ze wzmocnieniem (RL), która rozdziela proces generowania od procesu uczenia. To właśnie ten mechanizm pozwala modelowi uczyć się z długich, złożonych sekwencji działań – zamiast krótkich, jednoetapowych interakcji.
Problem plateau i jak GLM-5.1 go rozwiązuje
Każdy, kto pracował z modelami językowymi jako agentami kodowania, zna ten problem: model szybko wyczerpuje swój repertuar technik, osiąga plateau i niezależnie od tego, ile czasu mu dasz, przestaje robić postęp. Dokładnie na to cierpiał GLM-5 i większość podobnych modeli.
GLM-5.1 został zaprojektowany od podstaw, żeby z tym skończyć. Model rozkłada złożone problemy na mniejsze kroki, przeprowadza eksperymenty, analizuje wyniki, identyfikuje blokady – i co kluczowe, wraca do swojego rozumowania, rewizuje strategię i iteruje przez setki rund oraz tysiące wywołań narzędzi.
GLM-5.1 robi coś, czego naprawdę brakowało w agentowych modelach AI: potrafi pracować długo. 8 godzin autonomicznej pracy to nie tylko feature marketingowy – to zmiana modelu użytkowania. Zamiast orkiestrować model przez dziesiątki krótkich sesji, możesz po prostu postawić mu cel i wrócić po zakończeniu. Brzmi świetnie, ale rodzi też poważne pytania. Jak weryfikować, co model „robił” przez 8 godzin? Jak reagować na błędy, które model popełnił godzinę temu, a które teraz zaważyły na całym projekcie? Autonomia bez interpretowalności to wciąż słaby punkt całej branży. Cieszę się z tego wyniku, ale nie myślę, że jesteśmy gotowi przekazać kluczowe zadania produkcyjne modelowi, który sam decyduje o strategii przez pół dnia roboczego.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Wyniki benchmarków
Warto przyjrzeć się pełnemu obrazowi, bo GLM-5.1 nie jest modelem jednej sztuczki:
- SWE-Bench Pro: 58.4 pkt (lepszy od GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro)
- AIME 2026: 95.3 pkt
- GPQA-Diamond: 86.2 pkt (rozumowanie naukowe na poziomie doktoranckim)
- CyberGym: 68.7 pkt (wobec 48.3 w GLM-5 – wyraźny skok)
- BrowseComp: 68.0 pkt
- Terminal-Bench 2.0: 63.5 pkt (66.5 z Claude Code jako scaffolding)
- MCP-Atlas (Public Set): 71.8 pkt
Autorzy podkreślają, że ogólne możliwości GLM-5.1 są porównywalne z Claude Opus 4.6, ale w specjalistycznych zadaniach inżynierskich model Z.AI wysuwa się na prowadzenie.
8 godzin autonomicznej pracy – co to znaczy w praktyce
To nie jest liczba wzięta z sufitu. Z.AI pokazuje konkretne demonstracje:
- Zbudowanie kompletnego środowiska desktopowego Linux od zera w ciągu 8 godzin
- 178 rund autonomicznych iteracji na zadaniu związanym z bazą wektorową, skutkujących 1.5-krotną poprawą wydajności względem wyjściowej wersji
- Optymalizacja kernela CUDA z 2.6x do 35.7x przyspieszenia przez autonomiczne, wieloetapowe dostrajanie
Ten ostatni wynik jest szczególnie interesujący dla inżynierów ML. Poprawa kernela z przyspieszenia 2.6x do 35.7x to zadanie, które zajęłoby wykwalifikowanemu człowiekowi wiele dni intensywnej pracy.
Specyfikacja i dostępność
GLM-5.1 jest dostępny na otwartej licencji MIT, co oznacza praktycznie brak ograniczeń w użyciu komercyjnym. Podstawowe dane techniczne:
- Parametry: 754 miliardów (architektura MoE)
- Okno kontekstu: 200 000 tokenów
- Maksymalny output: 128 000 tokenów
- Licencja: MIT (open-weight, dostępny na HuggingFace)
Model obsługuje tryb myślenia (thinking mode), strumieniowanie, function calling, context caching, structured output oraz MCP do integracji z zewnętrznymi narzędziami i źródłami danych.
Jeśli chodzi o lokalne wdrożenie, GLM-5.1 współpracuje z następującymi frameworkami: SGLang (v0.5.10+), vLLM (v0.19.0+), xLLM (v0.8.0+), Transformers (v0.5.3+) oraz KTransformers (v0.5.3+). Dostęp przez API jest możliwy przez platformę Z.AI z kompatybilnością ze standardem OpenAI SDK.
Otwartość jako strategia
Wypuszczenie 754-miliardowego modelu na licencji MIT to odważny ruch. W chwili, gdy OpenAI i Anthropic coraz szczelniej zamykają swoje flagowe modele, Z.AI idzie w przeciwnym kierunku. To może przyciągnąć szeroką społeczność deweloperów i badaczy, choć postawimy też uczciwe pytanie: jak długo utrzymanie tak dużego modelu w trybie open-weight będzie opłacalne dla firmy?
Wagi modelu oraz dokumentację techniczną znajdziecie na stronie huggingface.co/zai-org/GLM-5.1 oraz w blogu Z.AI pod adresem z.ai/blog/glm-5.1.
