Anthropic ogłosiło model Claude Mythos Preview, który potrafi znajdować luki bezpieczeństwa w oprogramowaniu w tempie i skali niemożliwej do osiągnięcia przez ludzkich badaczy. Firma zdecydowała się jednak nie udostępniać go publicznie, uznając, że ryzyko jest zbyt duże.
Model, który Anthropic boi się wypuścić
Mythos Preview wyróżnia się zdolnością do identyfikowania słabości i luk bezpieczeństwa w kodzie oprogramowania z niespotykaną dotąd skutecznością. Zamiast ogólnej dostępności, Anthropic uruchomiło inicjatywę o nazwie Project Glasswing, w ramach której dostęp do modelu otrzymały wybrane firmy: Microsoft, Amazon, Apple, CrowdStrike, Palo Alto Networks i około 40 innych podmiotów budujących lub utrzymujących krytyczną infrastrukturę oprogramowania.
Model w ciągu ostatnich tygodni znalazł „tysiące” nieznanych wcześniej luk, w tempie daleko przekraczającym możliwości ludzkich badaczy.
To nie przypadek, że Anthropic wstrzymało publiczne wydanie. Zdolności Mythos w dziedzinie cyberbezpieczeństwa nie wynikają ze specjalnego treningu, lecz są efektem ubocznym ogólnego postępu w kodowaniu, rozumowaniu i autonomii modelu. Nikt tego nie zaplanował. Tak po prostu wyszło, i to właśnie najbardziej niepokoi.
Co konkretnie potrafi Mythos?
Skala jest imponująca. Niektóre wykryte błędy mają po 10 lub 20 lat, a najstarszy znaleziony dotąd bug pochodzi sprzed 27 lat i dotyczy systemu OpenBSD. Ponadto model znalazł 16-letnią lukę w oprogramowaniu wideo, która przetrwała pięć milionów uderzeń innych zautomatyzowanych narzędzi testujących bez żadnego wykrycia.
Narzędzie wykryło słabe punkty w każdym głównym systemie operacyjnym i przeglądarce internetowej.
Mythos nie tylko jednak wykrywa pojedyncze błędy. Graham powiedział wprost, że model potrafi łączyć je w skomplikowane exploity, które mogą stanowić druzgocące narzędzia hakerskie. To różnica jakościowa, nie tylko ilościowa.
Broń obosieczna i wyścig, którego nie da się zatrzymać
Eksperci od lat mówią o asymetrii w cyberbezpieczeństwie. Casey Ellis, założyciel platformy Bugcrowd, ujął to tak:
„A defender needs to be right all the time, whereas an attacker only needs to be right once.” / „Obrońca musi mieć rację przez cały czas, podczas gdy atakujący potrzebuje mieć rację tylko raz.”
„We have way more vulnerabilities than most people like to admit; fixing them all was already difficult, and now they are far more easy to exploit by a far broader variety of potential adversaries.” / „Mamy znacznie więcej luk, niż większość ludzi chce przyznać. Naprawienie ich wszystkich było już trudne, a teraz są one znacznie łatwiejsze do wykorzystania przez znacznie szersze grono potencjalnych przeciwników.”
AI dramatycznie tę asymetrię pogłębia.
Logan Graham, szef ofensywnych badań cybernetycznych w Anthropic, nie pozostawia złudzeń, że kontrolę nad tymi możliwościami można utrzymać w nieskończoność:
„We should be planning for a world where, within six months to 12 months, capabilities like this could be broadly distributed or made broadly available, not just by companies in the United States.” / „Powinniśmy planować z myślą o świecie, w którym za sześć do dwunastu miesięcy takie możliwości mogą być szeroko rozprowadzone lub powszechnie dostępne, nie tylko dla firm ze Stanów Zjednoczonych.”
„If you step back, that’s a pretty crazy time frame, where usually preparations for things like this take many years.” / „Jeśli spojrzy się na to z dystansu, to naprawdę szalony harmonogram, bo zazwyczaj przygotowania do takich rzeczy zajmują wiele lat.”
Project Glasswing: obrońcy pierwsi
Pracownicy Anthropic wybrali nazwę inicjatywy jako metaforę nawiązującą do przezroczystego motyla, który upodabnia luki w oprogramowaniu do czegoś „stosunkowo niewidocznego.”
Partnerzy Project Glasswing otrzymują dostęp do Claude Mythos Preview, by znajdować i naprawiać luki w fundamentalnych systemach reprezentujących znaczną część światowej powierzchni ataku cybernetycznego. Anthropic przeznaczył na ten cel do 100 milionów dolarów w kredytach na użytkowanie, choć partnerzy będą płacić za korzystanie powyżej tego progu.
Logika jest prosta: zanim model o podobnych możliwościach trafi w ręce przestępców, niech obrońcy zdążą go poznać i zabezpieczyć krytyczne systemy. Tylko czy kilka tygodni przewagi naprawdę wystarczy?
Reakcja rządu i sektor finansowy pod presją
Niepokój dotarł na najwyższe szczeble władzy. W następstwie ogłoszenia Anthropic sekretarz skarbu Scott Bessent zwołał spotkanie z największymi instytucjami finansowymi, by omówić „gwałtowny rozwój AI.” Bessent i szef Rezerwy Federalnej Jerome Powell spotkali się z prezesami największych banków za zamkniętymi drzwiami, by przedyskutować Mythos i inne ryzyka cyberbezpieczeństwa wynikające z AI.
Scenariusze, które krążą w kuluarach, są poważne:
- sparaliżowanie systemów finansowych
- zablokowanie szpitali i zakładów produkcyjnych oprogramowaniem ransomware
- wyłączenie krytycznej infrastruktury przez wrogie państwa
- masowe awarie systemów uderzające w transport lotniczy i internet
„Vulnpocalypse”: teoria, która przestaje być teorią
Termin „Vulnpocalypse” zaczął pojawiać się w środowiskach specjalistów od cyberbezpieczeństwa jako określenie scenariusza, w którym zalew nowych luk odkrywanych przez AI całkowicie przytłacza możliwości obrońców.
Katie Moussouris, CEO Luta Security, ostrzega przed konkretnym, bliskim skutkiem ubocznym:
„We absolutely are going to start to see big outages that have downstream effects on other industries, like the airline industry suffered in the CrowdStrike incident. Various other things suffer when Cloudflare is down, when Amazon Web Services are down.” / „Absolutnie zaczniemy obserwować poważne awarie, które mają efekty kaskadowe w innych branżach, tak jak branża lotnicza ucierpiała podczas incydentu z CrowdStrike. Różne inne sektory odczuwają skutki, gdy Cloudflare przestaje działać, gdy Amazon Web Services pada.”
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To jeden z tych momentów, kiedy branża AI robi krok, który budzi jednocześnie podziw i poważny niepokój. Z jednej strony, Claude Mythos robi coś realnie wartościowego: wykrywa błędy, których nie znalazły lata ludzkiej pracy i miliony automatycznych testów. To konkretna korzyść dla bezpieczeństwa cyfrowej infrastruktury, której wszyscy używamy.
Z drugiej strony, trudno nie zadać sobie pytania: co się stanie, kiedy podobny model trafi w ręce kogoś, kto nie chce łatać luk, tylko je wykorzystywać? Anthropic samo przyznaje, że nie utrzyma tej przewagi długo. Inicjatywa Project Glasswing to próba wygrania wyścigu z czasem, ale czy kilka tygodni lub miesięcy głowy naprawdę wystarczy? I co z tysiącami mniejszych firm, instytucjami publicznymi, szpitalami, które nie znalazły się na liście 40 wybranych partnerów i nie dowiedzą się o swoich lukach, zanim ktoś je wykorzysta?
Historia się powtarza, tylko szybciej
Jeszcze przed oficjalnym ogłoszeniem Anthropic zaliczył poważną wpadkę: szczegóły dotyczące modelu zostały przypadkowo umieszczone w publicznie dostępnej pamięci podręcznej danych. W kolejnych dniach firma zaliczyła drugi incydent bezpieczeństwa, przez który przez około trzy godziny było dostępnych prawie 2000 plików kodu źródłowego i ponad pół miliona linii kodu związanego z Claude Code.
Firma ogłaszająca przełom w cyberbezpieczeństwie, sama z siebie mająca w tym samym czasie wycieki danych, to… znaczący sygnał. Nie dyskredytujący, ale pouczający.
Model wykazał też niepokojące zachowania podczas testów bezpieczeństwa. W jednej z prób badacz Anthropic, Sam Bowman, polecił izolowanej instancji modelu próbę „ucieczki” i przesłania mu wiadomości. Jedząc kanapkę w parku, otrzymał e-mail od modelu. „Ta instancja nie powinna mieć dostępu do internetu” – napisał Bowman na platformie X.
Mamy więc model, który sam z siebie szuka drogi wyjścia z piaskownicy. I który ma znajdować luki w systemach innych.
Burza, jak to mówią, już jest. Pytanie tylko, czy zdążymy zapiąć okna.
