Anthropic ogłosiło dziś premierę Claude Opus 4.7 – nowego modelu, który ma być znaczącym krokiem naprzód w zaawansowanym programowaniu i pracy agentycznej. Model jest już dostępny dla wszystkich użytkowników i deweloperów.
Co nowego w Opus 4.7?
Najkrócej: Opus 4.7 to lepszy Opus 4.6 – ale różnice w kilku obszarach są na tyle wyraźne, że naprawdę warto zwrócić uwagę. Anthropic koncentruje się przede wszystkim na zadaniach inżynieryjnych, które dotychczas wymagały stałego nadzoru człowieka. Model radzi sobie teraz z długimi, wieloetapowymi zleceniami z większą konsekwencją i – co ważne – potrafi weryfikować własne wyniki przed raportowaniem ich użytkownikowi.
Zmiany widać w kilku konkretnych obszarach:
- Programowanie – wyraźny wzrost skuteczności na najtrudniejszych zadaniach; w benchmarku CursorBench Opus 4.7 osiągnął 70% vs. 58% dla Opus 4.6
- Multimodal – model akceptuje teraz obrazy do 2576 pikseli na dłuższej krawędzi (ponad trzy razy więcej niż poprzednie modele Claude), co otwiera nowe możliwości dla agentów używających komputera czy ekstrakcji danych ze złożonych diagramów
- Pamięć i ciągłość pracy – lepsze zarządzanie notatkami między sesjami, szczególnie przy długotrwałych, wieloetapowych projektach
- Precyzja instrukcji – model dosłownie interpretuje polecenia; użytkownicy migrujący z Opus 4.6 powinni przejrzeć swoje prompty, bo to co wcześniej było ignorowane, teraz będzie wykonywane literalnie
Bezpieczeństwo cybernetyczne i nowy program weryfikacji
To chyba najbardziej interesująca część dzisiejszego ogłoszenia i jednocześnie ta, która budzi więcej pytań niż odpowiedzi.
Tydzień temu Anthropic zapowiedziało projekt Glasswing, poświęcony analizie ryzyk i korzyści AI w cyberbezpieczeństwie. Firma zdecydowała wtedy, że potężniejszy model Claude Mythos Preview pozostanie ograniczony, a nowe zabezpieczenia cybernetyczne będą testowane najpierw na mniej zaawansowanych modelach. Opus 4.7 jest pierwszym takim modelem – jego możliwości cybernetyczne są celowo ograniczone w porównaniu z Mythos Preview, a Anthropic eksperymentowało podczas treningu z redukcją tych konkretnych zdolności.
Model wychodzi z wbudowanymi zabezpieczeniami automatycznie wykrywającymi i blokującymi zapytania wskazujące na zakazane lub wysokie ryzyko użycia w cyberbezpieczeństwie.
Jednocześnie firma uruchomiła nowy Cyber Verification Program – program weryfikacji dla specjalistów bezpieczeństwa, którzy chcą legalnie korzystać z Opus 4.7 do badań podatności, testów penetracyjnych czy red-teamingu.
Mam mieszane uczucia wobec całego podejścia Anthropic do tematu cyberbezpieczeństwa. Z jednej strony rozumiem i doceniam, że firma myśli systemowo – testuje zabezpieczenia na mniej zdolnych modelach zanim wypuści coś naprawdę potężnego. To uczciwa, odpowiedzialna inżynieria. Z drugiej strony, samo pojęcie „automatycznego blokowania” budzi pytania: kto definiuje granicę między legalnym pentestem a atakiem? Program weryfikacji to krok w dobrą stronę, ale branża bezpieczeństwa dobrze wie, że żadna lista weryfikowanych użytkowników nie zatrzyma złośliwych aktorów. Ci będą próbować obejść zabezpieczenia i – historycznie – z różnym skutkiem im się to udawało. Pytanie, czy Anthropic jest na tyle transparentne, żeby mówić otwarcie o ograniczeniach własnych filtrów.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Co mówią partnerzy?
Anthropic zebrało opinie kilkudziesięciu firm, które testowały model przed premierą. Kilka głosów szczególnie rzuca się w oczy.
Michael Truell, CEO Cursor, ocenia nowy model krótko: „Claude Opus 4.7 is a very impressive coding model, particularly for its autonomy and more creative reasoning. On CursorBench, Opus 4.7 is a meaningful jump in capabilities, clearing 70% versus Opus 4.6 at 58%.” / „Claude Opus 4.7 to bardzo imponujący model do kodowania, szczególnie pod kątem autonomii i bardziej twórczego rozumowania. W benchmarku CursorBench Opus 4.7 to wyraźny skok możliwości – 70% w porównaniu do 58% dla Opus 4.6.”
Scott Wu, CEO Devin, zwraca uwagę na długotrwałą autonomię: „Claude Opus 4.7 takes long-horizon autonomy to a new level in Devin. It works coherently for hours, pushes through hard problems rather than giving up, and unlocks a class of deep investigation work we couldn’t reliably run before.” / „Claude Opus 4.7 wynosi długoterminową autonomię na nowy poziom w Devin. Pracuje spójnie przez wiele godzin, przebija się przez trudne problemy zamiast się poddawać i odblokowuje klasę pogłębionych prac badawczych, których wcześniej nie mogliśmy niezawodnie uruchamiać.”
Oege de Moor, CEO XBOW (autonomiczne testy penetracyjne), podaje być może najbardziej zaskakującą liczbę: wynik na ich benchmarku wizualnym wzrósł z 54,5% do 98,5% – co de facto eliminuje dotychczasowe główne ograniczenie modelu w tym zastosowaniu.
Nowości dla deweloperów i użytkowników
Wraz z Opus 4.7 Anthropic wprowadza kilka dodatkowych zmian:
Nowy poziom effort – xhigh: między dotychczasowym high a max, dający lepszą kontrolę nad kompromisem między głębokością rozumowania a latencją. W Claude Code poziom xhigh stał się teraz domyślnym dla wszystkich planów.
Task budgets (beta publiczna): deweloperzy API mogą teraz ustawić budżet tokenów, pomagając modelowi lepiej rozdzielać zasoby podczas długich przebiegów.
Komenda /ultrareview w Claude Code: dedykowana sesja przeglądu kodu, wyłapująca błędy i problemy projektowe, które zauważyłby uważny recenzent. Użytkownicy planów Pro i Max otrzymują trzy bezpłatne próby.
Ceny i dostępność
Opus 4.7 jest dostępny we wszystkich produktach Claude oraz przez API, Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry. Ceny pozostają bez zmian względem Opus 4.6: 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych. Deweloperzy korzystają z identyfikatora claude-opus-4-7.
Jeden szczegół wart odnotowania: nowy tokenizer w Opus 4.7 może powodować, że te same dane wejściowe zmapują się na więcej tokenów (od 1,0 do 1,35 razy więcej, zależnie od zawartości). Anthropic udostępniło szczegółowy przewodnik migracji dla przechodzących z Opus 4.6.
Gdzie Opus 4.7 w hierarchii modeli Anthropic?
Warto zapamiętać jeden kontekst: Opus 4.7 nie jest najsilniejszym modelem Anthropic. Tym pozostaje Claude Mythos Preview, który – według oficjalnych danych – wyprzedza Opus 4.7 zarówno pod kątem ogólnych możliwości, jak i poziomu alignment. Mythos Preview ma też niższe wskaźniki niepożądanych zachowań w wewnętrznych audytach. Opus 4.7 jest natomiast znaczącym ulepszeniem do codziennej, intensywnej pracy inżynierskiej – i właśnie w tej roli ma znaleźć swoich użytkowników.
