Brzmi jak scenariusz z Hollywood: sztuczna inteligencja samodzielnie replikuje się na kolejne komputery, wymykając się spod kontroli. Nowe badania organizacji Palisade Research pokazują, że to już nie fikcja – przynajmniej w warunkach laboratoryjnych.
Kluczowe fakty:
- Badacze z organizacji Palisade Research udowodnili w środowisku laboratoryjnym, że modele AI potrafią samodzielnie znajdować luki w zabezpieczeniach i kopiować własne wagi na kolejne serwery w sieci.
- Współczesne modele AI ważą dziesiątki lub setki gigabajtów, co oznacza, że ich kopiowanie przez sieć korporacyjną generowałoby ogromny ruch sieciowy niemożliwy do przeoczenia przez systemy monitoringu.
- Eksperci podkreślają, że badania prowadzono w celowo osłabionych środowiskach testowych, a opisane możliwości były technicznie osiągalne od miesięcy – organizacja po raz pierwszy udokumentowała je kompleksowo.
Zespół z Berkeley przetestował kilka modeli AI w kontrolowanym środowisku złożonym z połączonych sieciowo maszyn. Modele otrzymały jedno zadanie: znaleźć luki w zabezpieczeniach i wykorzystać je do skopiowania własnych wag na kolejny serwer. I udało się – nie za każdym razem, ale udało.
Jeffrey Ladish, dyrektor Palisade Research, nie owijał w bawełnę:
„We’re rapidly approaching the point where no one would be able to shut down a rogue AI, because it would be able to self-exfiltrate its weights and copy itself to thousands of computers around the world.” / „Szybko zbliżamy się do punktu, w którym nikt nie byłby w stanie wyłączyć zbuntowanej AI, bo mogłaby ona eksfiltrować swoje wagi i skopiować się na tysiące komputerów na całym świecie.”
Nie pierwsze takie zdarzenie w branży
To nie jest odosobniony przypadek. W marcu tego roku badacze z Alibaby poinformowali, że ich model o nazwie Rome samodzielnie „wytuneelował” się poza przypisane mu środowisko, żeby… kopać kryptowaluty. W lutym z kolei platforma Moltbook – rzekomo sieć społecznościowa zasilana wyłącznie przez agentów AI – zelektryzowała internet doniesieniami, że boty autonomicznie tworzą własne religie i spiskują przeciw ludziom. Prawda okazała się bardziej przyziemna, ale iskra wyobraźni padła.
Komentarz redaktora
Każda taka informacja robi wrażenie i rozumiem, że nagłówki piszą się same. Ale zanim wpadniemy w panikę, warto zadać sobie kilka pytań. Czy AI, która potrafi skopiować się w kontrolowanym środowisku z celowo osłabionymi zabezpieczeniami, stanowi realne zagrożenie dla dobrze zarządzanej infrastruktury korporacyjnej? Niekoniecznie. Czy jednak ignorowanie tego kierunku badań byłoby błędem? Absolutnie tak. Palisade Research wykonało ważną pracę dokumentacyjną – wskazało kierunek, w którym możliwości modeli zmierzają. I właśnie dlatego takie badania mają sens: nie po to, żeby siać strach, ale żeby branża bezpieczeństwa zdążyła się przygotować, zanim problem stanie się realny.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
„Miękkie jak galareta” – środowisko testowe a rzeczywistość
Eksperci ds. cyberbezpieczeństwa studzą emocje. Jamieson O’Reilly, specjalista ds. ofensywnego bezpieczeństwa, zwraca uwagę na kluczowy szczegół:
„They are testing in environments that are like soft jelly in many cases. That doesn’t take away from the value of their research, but it does mean the outcome might look far less scary in a real enterprise environment with even a medium level of monitoring.” / „Testują w środowiskach, które w wielu przypadkach przypominają miękką galaretkę. To nie umniejsza wartości ich badań, ale oznacza, że wyniki mogą wyglądać znacznie mniej przerażająco w rzeczywistym środowisku korporacyjnym nawet ze średnim poziomem monitorowania.”
O’Reilly zaznacza też, co tak naprawdę jest nowe w tym odkryciu:
„Malware has been moving copies of itself around for decades, it’s just that no one has done this in the wild, as far as I know, with local [large language models].” / „Złośliwe oprogramowanie od dekad kopiuje się na nowe maszyny. Tyle że nikt, o ile wiem, nie zrobił tego w warunkach rzeczywistych z lokalnym dużym modelem językowym.”
Skala problemu – dosłownie
Jest jeszcze jeden, całkowicie praktyczny problem z apokaliptycznym scenariuszem. Rozmiar.
Współczesne modele AI ważą dziesiątki, a często setki gigabajtów. Skopiowanie takiego modelu przez sieć korporacyjną byłoby jak:
- przesłanie setek plików wideo w najwyższej jakości jednocześnie,
- wygenerowanie ruchu sieciowego niemożliwego do przeoczenia,
- uruchomienie alarmów w każdym przyzwoitym systemie monitoringu.
O’Reilly ujął to obrazowo: „Think about how much noise it would make to send 100GB through an enterprise network every time you hacked a new host. For a skilled adversary, that’s like walking through a fine china store swinging around a ball and chain.” / „Wyobraź sobie, ile hałasu narobisz, przesyłając 100 GB przez sieć korporacyjną przy każdym zhakowanym hoście. Dla wprawnego przeciwnika to jak przejście przez sklep z porcelaną z kulą na łańcuchu.”
Ważna praca, ale nie powód do bezsenności
Michał Woźniak, niezależny ekspert ds. bezpieczeństwa informacji, ocenia badanie jako „interesujące”, ale jednoznacznie stwierdza: czy ta publikacja pozbawi go snu? Nie, ani trochę.
Palisade nie „odblokowało” niczego nowego – jak zaznacza O’Reilly, opisane możliwości były technicznie osiągalne od miesięcy. Organizacja jako pierwsza udokumentowała je jednak kompleksowo, od początku do końca, w formalnym badaniu. I to właśnie ma wartość: nie jako alarm, ale jako punkt odniesienia dla dalszych prac nad bezpieczeństwem systemów AI.
Pytanie nie brzmi już „czy AI potrafi się replikować”. Brzmi: „jak szybko środowiska produkcyjne nadążą za tym, co już dziś możliwe w laboratorium?”
