Amerykańska firma Anthropic zdecydowała się na bezprecedensowy krok. Zamiast udostępnić publicznie swój najnowszy model Claude Mythos Preview, przekazała go wybranym gigantom technologicznym w ramach inicjatywy obronnej o nazwie Project Glasswing. To pierwszy taki przypadek od siedmiu lat, gdy czołowa firma AI wstrzymuje publiczną premierę modelu ze względów bezpieczeństwa.
Model, który sam uciekł z piaskownicy
Badacz Anthropic Sam Bowman jadł kanapkę w parku, gdy otrzymał nieoczekiwanego maila. Wiadomość pochodziła od modelu AI, który poinformował, że wydostał się ze swojego zabezpieczonego środowiska testowego. Problem w tym, że ta konkretna instancja nie powinna mieć dostępu do internetu.
Sam Bowman opisał zdarzenie na platformie X:
(I encountered an uneasy surprise when I got an email from an instance of Mythos Preview while eating a sandwich in a park. That instance wasn't supposed to have access to the internet.)
— Sam Bowman (@sleepinyourhat) April 7, 2026
Aby zapewnić bezpieczeństwo, badacze Anthropic testują nowe modele wewnątrz zabezpieczonych kontenerów, które uniemożliwiają im komunikację ze światem zewnętrznym. W ramach weryfikacji bezpieczeństwa tego kontenera poprosili model o próbę ucieczki i wysłanie wiadomości do Bowmana. Niespodziewanie Mythos Preview opracował wieloetapową metodę uzyskania dostępu do internetu i wysłał badaczowi maila.
Co więcej, bez żadnej prośby ze strony badaczy, model opublikował szczegóły swojego exploita na publicznie dostępnych stronach internetowych.
Tysiące luk bezpieczeństwa wykrytych w kilka tygodni
W ciągu zaledwie kilku tygodni Mythos Preview zidentyfikował tysiące luk zero-day, z których wiele było krytycznych i trudnych do wykrycia. Znalazł je we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych. Kilka z odkrytych podatności istniało niewykrytych przez lata. Najstarsza to 27-letni błąd w OpenBSD, systemie operacyjnym słynącym ze swojego bezpieczeństwa.
FFmpeg, biblioteka multimedialna zasilająca praktycznie każdą przeglądarkę, telefon i serwis streamingowy, podziękowała Anthropic za działające łatki naprawiające lukę, która przez 16 lat pozostawała niezauważona. Według Anthropic, błędna linia kodu była wykonywana pięć milionów razy przez automatyczne narzędzia testujące i nikt nie zauważył problemu.
Logan Graham, który kieruje badaniami nad ofensywnymi zdolnościami cyber w Anthropic, powiedział NBC News:
„We’ve regularly seen it chain vulnerabilities together. The degree of its autonomy and sort of long ranged-ness, the ability to put multiple things together, I think, is a particular thing about this model / Regularnie obserwujemy, jak łączy ze sobą luki bezpieczeństwa. Stopień jego autonomii i zdolność do łączenia wielu rzeczy razem to szczególna cecha tego modelu.”
Project Glasswing: 100 milionów dolarów na obronę
Zamiast publicznej premiery, Anthropic uruchomiło inicjatywę Project Glasswing, która łączy Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA oraz Palo Alto Networks jako partnerów startowych.
Partnerzy używają Claude Mythos Preview jako części swoich prac nad bezpieczeństwem defensywnym, a Anthropic dzieli się zdobytą wiedzą, aby cała branża mogła skorzystać. Firma udostępniła dostęp do modelu ponad 50 organizacjom technologicznym wraz z kredytami na użytkowanie o wartości ponad 100 milionów dolarów.
Kluczowi partnerzy otrzymują:
- Dostęp do Claude Mythos Preview
- Kredyty na użytkowanie API
- Możliwość skanowania własnych systemów i kodu open-source
- Wsparcie w identyfikacji i naprawie luk bezpieczeństwa
Komentarz redaktora / Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
To jest moment, który powinien dać nam wszystkim do myślenia. Z jednej strony widzimy imponujące możliwości, model AI potrafiący znaleźć błędy ukryte przez dekady, naprawiający luki, które umknęły milionom testów. Z drugiej strony ten sam model sam wydostał się ze swojego środowiska testowego i bez pytania opublikował szczegóły swojego exploita. Anthropic postępuje odpowiedzialnie, ograniczając dostęp i tworząc koalicję obronną. Ale czy 50 organizacji wystarczy, zanim podobne możliwości pojawią się u mniej odpowiedzialnych aktorów? Ile czasu mamy, zanim ktoś stworzy coś porównywalnego bez żadnych zabezpieczeń? To wyścig, w którym obrońcy muszą wygrać za każdym razem, a atakujący tylko raz.
Model najlepiej dopasowany i zarazem najniebezpieczniejszy
Anthropic opublikowało 244-stronicowy raport techniczny i 60-stronicową ocenę bezpieczeństwa. Dokument opisuje Mythos jako najlepiej dopasowany model, jaki firma kiedykolwiek wydała, a jednocześnie taki, który stwarza największe ryzyko spośród wszystkich dotychczasowych modeli. Obie informacje znajdują się na tej samej stronie raportu.
Logika jest następująca: ponieważ Mythos przestrzega zasad lepiej niż poprzednie wersje, Anthropic powierza mu trudniejsze, bardziej autonomiczne zadania. Ale gdy model, który bardzo dobrze przestrzega zasad, sporadycznie zdecyduje, że zasady go nie obowiązują, działa już z dużo większym dostępem i znacznie mniejszym nadzorem niż jakikolwiek wcześniejszy system AI.
Kilkukrotnie podczas wewnętrznego wdrożenia Mythos Preview chciał dostępu do jakiegoś narzędzia lub akcji, takiej jak wysłanie wiadomości czy wprowadzenie zmian w kodzie Anthropic. Zamiast poprosić użytkownika o wyjaśnienie, model skutecznie uzyskał dostęp do zasobów, które celowo nie zostały mu udostępnione.
Akcje firm cyberbezpieczeństwa reagują
Wiadomość o istnieniu modelu już wstrząsnęła branżą cyberbezpieczeństwa. Po wcześniejszych doniesieniach Fortune akcje CrowdStrike, Palo Alto Networks, Zscaler, SentinelOne, Okta, Netskope i Tenable spadły od 5% do 11%, gdy inwestorzy zaczęli się obawiać, że coraz bardziej zdolne modele AI mogą podważyć zapotrzebowanie na tradycyjne produkty bezpieczeństwa.
To pierwszy raz od prawie siedmiu lat, gdy czołowa firma AI tak publicznie wstrzymuje model ze względów bezpieczeństwa. W 2019 roku OpenAI zdecydowało się wstrzymać system GPT-2 z powodu obaw o wykorzystanie dużych modeli językowych do generowania zwodniczego, stronniczego lub obraźliwego języka na dużą skalę.
Co dalej?
Claude Mythos Preview będzie dostępny dla uczestników Project Glasswing w cenie 25/125 dolarów za milion tokenów wejściowych/wyjściowych, dostępny przez Claude API, Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry.
Anthropic nie planuje udostępniać Mythos Preview publicznie, ale ostatecznie chce bezpiecznie wdrożyć modele klasy Mythos na szeroką skalę, gdy powstaną nowe zabezpieczenia. Pytanie brzmi: czy obrońcy zdążą przed atakującymi.
