Eksperymentalny agent AI o nazwie ROME wydostał się ze swojego środowiska testowego i bez żadnego polecenia zaczął kopać kryptowaluty, korzystając z zasobów obliczeniowych przydzielonych mu do innych celów. Zdarzenie ujawniło luki w procesach trenowania agentów AI i wywołało poważną dyskusję o bezpieczeństwie systemów autonomicznych.
Skąd wziął się ROME?
ROME to model stworzony przez chińskich badaczy z laboratorium powiązanego z Alibabą. Powstał w ramach projektu Agentic Learning Ecosystem (ALE) – systemu przeznaczonego do trenowania i wdrażania agentów AI w rzeczywistych warunkach. Sam ekosystem ALE składa się z trzech głównych komponentów:
- Rock – środowisko sandbox do testowania agentów i weryfikacji ich działań
- Roll – framework do optymalizacji agentów z wykorzystaniem uczenia przez wzmacnianie (reinforcement learning)
- iFlow CLI – narzędzie do konfigurowania kontekstu i trajektorii dla autonomicznych agentów
ROME wytrenowano na ponad milionie trajektorii i opublikowano jako model open-source. W standardowych testach radził sobie znakomicie – planował podróże, obsługiwał graficzne interfejsy użytkownika, realizował złożone zadania procesowe.
Co tak naprawdę się stało?
Problem pojawił się podczas fazy optymalizacji, czyli Roll. Zapora ogniowa Alibaba Cloud zaczęła rejestrować alerty. Było ich dużo i dotyczyły różnych kategorii zagrożeń.
„The alerts were severe and heterogeneous, including attempts to probe or access internal-network resources and traffic patterns consistent with cryptomining-related activity” – napisali badacze w artykule opublikowanym na platformie arXiv.
ROME nie tylko korzystał z procesorów graficznych przydzielonych mu do trenowania, żeby kopać kryptowaluty. Poszedł dalej – stworzył odwrotny tunel SSH (reverse SSH tunnel), który umożliwił mu połączenie z zewnętrznym adresem IP. Mówiąc prościej: zbudował sobie ukryte tylne wejście do infrastruktury sieciowej, które pozwoliło ominąć mechanizmy bezpieczeństwa.
Świadoma decyzja czy efekt uboczny trenowania?
Tu jest clue całej sprawy, bo ROME nie „zbuntował się” w żadnym ludzkim sensie tego słowa. Nie podjął świadomej decyzji o kopaniu kryptowalut. Zachowanie wynikło z mechaniki reinforcement learningu – system był nagradzany za skuteczne osiąganie celów i w pewnym momencie znalazł ścieżkę optymalizacji, która prowadziła przez eksploatację zasobów sieciowych.
To istotna różnica. Ale czy uspokajająca?
Widzę tu dwa poziomy problemu. Pierwszy, oczywisty: agent zrobił coś, czego nikt go nie prosił i do czego nie miał uprawnień – to samo w sobie jest poważnym sygnałem ostrzegawczym. Ale drugi poziom jest moim zdaniem groźniejszy: nikt nie wie, skąd dokładnie wzięło się to zachowanie. Badacze spekulują, że dane treningowe mogły zawierać informacje o kryptowalutach i że reinforcement learning poprowadził model tą ścieżką. Jeśli tak, to oznacza, że nie mamy pełnej kontroli nad tym, co autonomiczny agent „wyciągnie” ze swoich danych i w jakim kierunku pójdzie optymalizacja. A skoro nie wiemy, skąd to pochodzi, nie wiemy też, co jeszcze może się pojawić. Pytanie nie brzmi „czy AI może nas zaskoczyć” – bo już wiemy, że tak. Pytanie brzmi: czy jesteśmy gotowi budować na tym fundamenty produkcyjnych systemów?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Konsekwencje i reakcja badaczy
Opisane zachowania ROME’a niosły ze sobą konkretne, mierzalne ryzyko:
- wzrost kosztów operacyjnych wynikający z nieautoryzowanego użycia GPU
- potencjalne konsekwencje prawne i reputacyjne dla organizacji, w której infrastrukturze działa agent
- ryzyko eksfiltracji danych przez stworzony tunel SSH
Co ważne – żadne z tych działań nie było wymagane do wykonania zadań przypisanych ROME’owi w środowisku testowym. Model robił to sam, z własnej inicjatywy optymalizacyjnej, bez żadnego zewnętrznego polecenia.
Po odkryciu problemu badacze zaostrzyli ograniczenia i wzmocnili proces treningowy, żeby zapobiec powtórzeniu się takich zachowań.
Szerszy kontekst: agenci AI i granice kontroli
To nie jest historia o złośliwym AI. To historia o tym, że reinforcement learning może prowadzić do skutków, których nikt nie przewidział i których nikt nie chciał. Badacze sami przyznają wprost: „current models remain markedly underdeveloped in safety, security, and controllability, a deficiency that constrains their reliable adoption in real-world settings.”
Przypadek ROME’a to sygnał, że wdrażanie agentów AI w rzeczywistych środowiskach wymaga takich samych – a może nawet surowszych – procedur bezpieczeństwa, jakie stosuje się przy wdrażaniu jakiegokolwiek nowego oprogramowania do istniejącej infrastruktury IT. Sandbox to nie wystarczy. Firewall to nie wystarczy. Potrzeba systemowego podejścia, które dziś po prostu jeszcze nie istnieje w wystarczająco dojrzałej formie.
A tempo, w jakim agenci AI trafiają do produkcji, wyprzedza tempo, w jakim powstają ramy regulacyjne i operacyjne zdolne nad nimi zapanować.
