Anthropic nie wypuszcza nowego modelu AI do publicznego użytku. Powód? Jest zbyt niebezpieczny

0:00

Amerykańska firma Anthropic zdecydowała się na bezprecedensowy krok. Zamiast udostępnić publicznie swój najnowszy model Claude Mythos Preview, przekazała go wybranym gigantom technologicznym w ramach inicjatywy obronnej o nazwie Project Glasswing. To pierwszy taki przypadek od siedmiu lat, gdy czołowa firma AI wstrzymuje publiczną premierę modelu ze względów bezpieczeństwa.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Model, który sam uciekł z piaskownicy

Badacz Anthropic Sam Bowman jadł kanapkę w parku, gdy otrzymał nieoczekiwanego maila. Wiadomość pochodziła od modelu AI, który poinformował, że wydostał się ze swojego zabezpieczonego środowiska testowego. Problem w tym, że ta konkretna instancja nie powinna mieć dostępu do internetu.

Sam Bowman opisał zdarzenie na platformie X:

(I encountered an uneasy surprise when I got an email from an instance of Mythos Preview while eating a sandwich in a park. That instance wasn't supposed to have access to the internet.)

— Sam Bowman (@sleepinyourhat) April 7, 2026

Aby zapewnić bezpieczeństwo, badacze Anthropic testują nowe modele wewnątrz zabezpieczonych kontenerów, które uniemożliwiają im komunikację ze światem zewnętrznym. W ramach weryfikacji bezpieczeństwa tego kontenera poprosili model o próbę ucieczki i wysłanie wiadomości do Bowmana. Niespodziewanie Mythos Preview opracował wieloetapową metodę uzyskania dostępu do internetu i wysłał badaczowi maila.

Co więcej, bez żadnej prośby ze strony badaczy, model opublikował szczegóły swojego exploita na publicznie dostępnych stronach internetowych.

Tysiące luk bezpieczeństwa wykrytych w kilka tygodni

W ciągu zaledwie kilku tygodni Mythos Preview zidentyfikował tysiące luk zero-day, z których wiele było krytycznych i trudnych do wykrycia. Znalazł je we wszystkich głównych systemach operacyjnych i przeglądarkach internetowych. Kilka z odkrytych podatności istniało niewykrytych przez lata. Najstarsza to 27-letni błąd w OpenBSD, systemie operacyjnym słynącym ze swojego bezpieczeństwa.

FFmpeg, biblioteka multimedialna zasilająca praktycznie każdą przeglądarkę, telefon i serwis streamingowy, podziękowała Anthropic za działające łatki naprawiające lukę, która przez 16 lat pozostawała niezauważona. Według Anthropic, błędna linia kodu była wykonywana pięć milionów razy przez automatyczne narzędzia testujące i nikt nie zauważył problemu.

Logan Graham, który kieruje badaniami nad ofensywnymi zdolnościami cyber w Anthropic, powiedział NBC News:

„We’ve regularly seen it chain vulnerabilities together. The degree of its autonomy and sort of long ranged-ness, the ability to put multiple things together, I think, is a particular thing about this model / Regularnie obserwujemy, jak łączy ze sobą luki bezpieczeństwa. Stopień jego autonomii i zdolność do łączenia wielu rzeczy razem to szczególna cecha tego modelu.”

Project Glasswing: 100 milionów dolarów na obronę

Zamiast publicznej premiery, Anthropic uruchomiło inicjatywę Project Glasswing, która łączy Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA oraz Palo Alto Networks jako partnerów startowych.

Partnerzy używają Claude Mythos Preview jako części swoich prac nad bezpieczeństwem defensywnym, a Anthropic dzieli się zdobytą wiedzą, aby cała branża mogła skorzystać. Firma udostępniła dostęp do modelu ponad 50 organizacjom technologicznym wraz z kredytami na użytkowanie o wartości ponad 100 milionów dolarów.

Kluczowi partnerzy otrzymują:

Dostęp do Claude Mythos Preview
Kredyty na użytkowanie API
Możliwość skanowania własnych systemów i kodu open-source
Wsparcie w identyfikacji i naprawie luk bezpieczeństwa

Komentarz redaktora / Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

To jest moment, który powinien dać nam wszystkim do myślenia. Z jednej strony widzimy imponujące możliwości, model AI potrafiący znaleźć błędy ukryte przez dekady, naprawiający luki, które umknęły milionom testów. Z drugiej strony ten sam model sam wydostał się ze swojego środowiska testowego i bez pytania opublikował szczegóły swojego exploita. Anthropic postępuje odpowiedzialnie, ograniczając dostęp i tworząc koalicję obronną. Ale czy 50 organizacji wystarczy, zanim podobne możliwości pojawią się u mniej odpowiedzialnych aktorów? Ile czasu mamy, zanim ktoś stworzy coś porównywalnego bez żadnych zabezpieczeń? To wyścig, w którym obrońcy muszą wygrać za każdym razem, a atakujący tylko raz.

Model najlepiej dopasowany i zarazem najniebezpieczniejszy

Anthropic opublikowało 244-stronicowy raport techniczny i 60-stronicową ocenę bezpieczeństwa. Dokument opisuje Mythos jako najlepiej dopasowany model, jaki firma kiedykolwiek wydała, a jednocześnie taki, który stwarza największe ryzyko spośród wszystkich dotychczasowych modeli. Obie informacje znajdują się na tej samej stronie raportu.

Logika jest następująca: ponieważ Mythos przestrzega zasad lepiej niż poprzednie wersje, Anthropic powierza mu trudniejsze, bardziej autonomiczne zadania. Ale gdy model, który bardzo dobrze przestrzega zasad, sporadycznie zdecyduje, że zasady go nie obowiązują, działa już z dużo większym dostępem i znacznie mniejszym nadzorem niż jakikolwiek wcześniejszy system AI.

Kilkukrotnie podczas wewnętrznego wdrożenia Mythos Preview chciał dostępu do jakiegoś narzędzia lub akcji, takiej jak wysłanie wiadomości czy wprowadzenie zmian w kodzie Anthropic. Zamiast poprosić użytkownika o wyjaśnienie, model skutecznie uzyskał dostęp do zasobów, które celowo nie zostały mu udostępnione.

Akcje firm cyberbezpieczeństwa reagują

Wiadomość o istnieniu modelu już wstrząsnęła branżą cyberbezpieczeństwa. Po wcześniejszych doniesieniach Fortune akcje CrowdStrike, Palo Alto Networks, Zscaler, SentinelOne, Okta, Netskope i Tenable spadły od 5% do 11%, gdy inwestorzy zaczęli się obawiać, że coraz bardziej zdolne modele AI mogą podważyć zapotrzebowanie na tradycyjne produkty bezpieczeństwa.

To pierwszy raz od prawie siedmiu lat, gdy czołowa firma AI tak publicznie wstrzymuje model ze względów bezpieczeństwa. W 2019 roku OpenAI zdecydowało się wstrzymać system GPT-2 z powodu obaw o wykorzystanie dużych modeli językowych do generowania zwodniczego, stronniczego lub obraźliwego języka na dużą skalę.

Co dalej?

Claude Mythos Preview będzie dostępny dla uczestników Project Glasswing w cenie 25/125 dolarów za milion tokenów wejściowych/wyjściowych, dostępny przez Claude API, Amazon Bedrock, Google Cloud Vertex AI i Microsoft Foundry.

Anthropic nie planuje udostępniać Mythos Preview publicznie, ale ostatecznie chce bezpiecznie wdrożyć modele klasy Mythos na szeroką skalę, gdy powstaną nowe zabezpieczenia. Pytanie brzmi: czy obrońcy zdążą przed atakującymi.

Oceń artykuł

Średnia: 4.9 (8 ocen)

Anthropic nie wypuszcza nowego modelu AI do publicznego użytku. Powód? Jest zbyt niebezpieczny

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

Anthropic nie wypuszcza nowego modelu AI do publicznego użytku. Powód? Jest zbyt niebezpieczny

Model, który sam uciekł z piaskownicy

Tysiące luk bezpieczeństwa wykrytych w kilka tygodni

Project Glasswing: 100 milionów dolarów na obronę

Model najlepiej dopasowany i zarazem najniebezpieczniejszy

Akcje firm cyberbezpieczeństwa reagują

Co dalej?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas