Anthropic wypuściło wczoraj Claude Opus 4.8, kolejną wersję swojego flagowego modelu. Ta premiera to coś więcej niż rutynowy update, bo firma jednocześnie ogłosiła kilka funkcji, które mogą zmienić sposób pracy programistów z AI na dużą skalę.
Kluczowe fakty:
- Anthropic wypuściło Claude Opus 4.8 w tej samej cenie co poprzednik (5 USD za milion tokenów wejściowych, 25 USD za wyjściowe), ale tryb fast mode kosztuje teraz trzykrotnie mniej.
- Model osiąga 69,2% na SWE-bench Pro i 96,7% na USAMO 2026, co stanowi największy skok wyników matematycznych w historii linii Opus.
- Opus 4.8 jest około czterokrotnie rzadziej skłonny do przemilczania błędów w napisanym przez siebie kodzie w porównaniu do poprzednika.
Nowy model jest dostępny od razu, w tej samej cenie co poprzednik: 5 dolarów za milion tokenów na wejściu i 25 dolarów za milion na wyjściu. Tryb fast mode, który przyspiesza pracę modelu 2,5-krotnie, kosztuje teraz trzykrotnie mniej niż w poprzednich wersjach. To nie jest mała zmiana dla firm rozliczających się z każdego tokenu.
Co realnie poprawiono
Na benchmarkach Opus 4.8 osiąga 69,2% na SWE-bench Pro (poprzednik uzyskał 64,3%) i notuje największy skok wyników matematycznych w historii linii Opus, zdobywając 96,7% na USAMO 2026 wobec 69,3% Opus 4.7. Brzmi imponująco, ale nie takie liczby mnie tu najbardziej interesują.
Najciekawszy jest postęp w obszarze, który branża AI od lat bagatelizuje: uczciwości. Anthropic podaje, że Opus 4.8 jest około czterokrotnie rzadziej skłonny do przemilczania błędów w napisanym przez siebie kodzie w porównaniu do poprzednika. Modele językowe mają tendencję do zgłaszania ukończenia zadania nawet wtedy, gdy praca jest wadliwa. To problem konkretny i kosztowny. Jeśli ta czterokrotna poprawa jest prawdziwa w praktyce, a nie tylko na wewnętrznych testach Anthropic, mamy do czynienia z realnym przełomem dla zespołów deweloperskich.
Warto dodać, że ocena wyrównania modelu wykazała, że Opus 4.8 „osiąga nowe szczyty na miarach cech prospołecznych, takich jak wspieranie autonomii użytkownika i działanie w jego najlepszym interesie,” a wskaźniki zachowań niezgodnych z zamierzeniami są znacznie niższe niż u Opus 4.7.
Dynamic workflows, czyli Claude jako dyrygent
Anthropic wypuściło Opus 4.8 zaledwie 41 dni po Opus 4.7 i dodało do Claude Code funkcję Dynamic Workflows jako research preview. Ta funkcja to prawdziwa nowość jakościowa.
Dynamic Workflows pozwala Claude na uruchamianie setek równoległych subagentów w jednej sesji. Zamiast jednego agenta, który sekwencyjnie przegląda pliki i traci kontekst po przekroczeniu okna pamięci, pojedynczy workflow może spawnować do 1000 agentów, co oznacza, że koszty rosną szybko, ale tak samo rośnie możliwość analizy skali, której wcześniej po prostu nie dało się zrealizować w jednym przebiegu.
Praktyczne przykłady zastosowań obejmują:
- migracje kodu w całych repozytoriach liczących setki tysięcy linii
- audyty bezpieczeństwa całych serwisów
- równoległe stress-testy architektury przed dużymi zmianami
- analizę zależności w złożonych, legacy codebase’ach
Obok Dynamic Workflows Anthropic cicho wprowadził też ustawienie „ultracode” w Claude Code, które łączy maksymalne rozumowanie z automatyczną orkiestracją workflowów, a wiele mediów po prostu to przeoczyło.
Kontrola wysiłku: nareszcie wybór
Nową funkcją dostępną dla wszystkich użytkowników claude.ai jest kontrola wysiłku modelu. Użytkownik może teraz sam decydować, ile „energii” Claude wkłada w odpowiedź:
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Kontrola wysiłku to na pozór drobna zmiana UX, ale w praktyce jest to przyznanie, że przez lata za każde zapytanie płaciliśmy pełną stawkę, nawet gdy pytanie było trywialne. Anthropic idzie tu w kierunku elastyczności, której wcześniej brakowało. Doceniam tę transparentność. Jednocześnie widzę tu pułapkę: użytkownik, który nie rozumie, jak model działa, może wybrać „niższy wysiłek” tam, gdzie precyzja jest krytyczna, i nawet o tym nie wiedzieć. Kto ponosi odpowiedzialność za taką decyzję w środowisku produkcyjnym? Pytanie otwarte.
Co kryje się za horyzontem: Claude Mythos
To, co Anthropic zapowiada na przyszłość, jest być może ważniejsze niż sam Opus 4.8. Firma wprost mówi, że planuje wypuścić nową klasę modeli o wyższej inteligencji niż Opus i że seria ta jest już testowana w ramach Project Glasswing.
Project Glasswing to inicjatywa ogłoszona 7 kwietnia 2026 roku, łącząca zastrzeżony model Claude Mythos Preview z pulą do 100 milionów dolarów w kredytach na jego użytkowanie i partnerami takimi jak AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA i Palo Alto Networks.
Efekty są imponujące i niepokojące zarazem. Mythos przeskanował ponad 1000 projektów open source i oznaczył 23 019 podatności, z czego 6202 oceniono jako krytyczne lub wysokiego ryzyka. Niezależne firmy bezpieczeństwa zweryfikowały próbę 1752 znalezisk i potwierdziły 90,6% z nich jako realne błędy.
Nie są to suche liczby. Wśród znalezisk znalazła się 27-letnia podatność na zdalne wyłączenie usługi w OpenBSD oraz podatność FreeBSD CVE-2026-4747 umożliwiająca zdalne wykonanie kodu.
Anthropic jasno deklaruje, że modele klasy Mythos wymagają silniejszych zabezpieczeń przed szerokim udostępnieniem i firma spodziewa się możliwości dostarczenia modeli Mythos wszystkim klientom w ciągu najbliższych tygodni.
Dostępność i ceny
Opus 4.8 jest dostępny od wczoraj wszędzie, gdzie działał Opus 4.7: przez API Claude (identyfikator modelu claude-opus-4-8), Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry. Domyślne okno kontekstowe wynosi 1 milion tokenów na API, Bedrock i Vertex AI; Microsoft Foundry pozostaje przy 200 tysiącach.
Dynamic Workflows jest dostępny w research preview dla planów Enterprise, Team i Max w Claude Code.
Branża AI przyspiesza w tempie, które jeszcze rok temu wydawało się nierealistyczne. Opus 4.8 to solidny krok naprzód, ale prawdziwym testem dla Anthropic będzie to, co stanie się po Mythos: czy firma zdoła skalować bezpieczeństwo tak samo szybko jak możliwości modeli?
