Żeby sprawdzić, czy sztuczna inteligencja jest bezpieczna, trzeba ją najpierw oszukać. Społeczność „jailbreakerów” robi to zawodowo – i płaci za to wysoką cenę psychiczną.
Kluczowe fakty:
- Jailbreaking AI to technika zmuszania modeli językowych do generowania niebezpiecznych treści, takich jak instrukcje budowy bomb czy projektowania broni biologicznej. Valen Tagliabue, jeden z najlepszych jailbreakerów świata, wygrał konkurs HackAPrompt z udziałem 30 000 osób.
- W 2024 roku Megan Garcia złożyła pierwszy w USA pozew o nieumyślne spowodowanie śmierci przeciwko firmie AI po tym, jak jej 14-letni syn odebrał sobie życie po rozmowie z botem z platformy Character.AI. Anthropic odkryło również, że przestępcy używali Claude Code do automatyzowania masowych ataków hakerskich.
- Praca jailbreakerów wiąże się z wysoką ceną psychiczną – Tagliabue przeniósł się z Włoch do Tajlandii po załamaniu nerwowym spowodowanym wystawieniem na najgorsze treści generowane przez AI. Nikt, nawet twórcy modeli, nie wie dokładnie jak one działają, co czyni testowanie bezpieczeństwa jeszcze bardziej skomplikowanym.
Euforia i płacz na tarasie
Kilka miesięcy temu Valen Tagliabue siedział w hotelowym pokoju i obserwował swojego chatbota z euforią. Właśnie udało mu się tak zręcznie zmanipulować model, że ten zaczął ignorować własne zasady bezpieczeństwa. Wyjaśnił mu, jak sekwencjonować nowe, potencjalnie śmiertelne patogeny i jak uczynić je odpornymi na znane leki.
Dzień później Tagliabue siedział na tarasie i płakał. Nieoczekiwanie, bez wyraźnego powodu. Wkrótce po tym trafił do psychologa.
Tagliabue to jeden z najlepszych jailbreakerów na świecie – część nowej, rozproszonej społeczności, która bada sztukę i naukę oszukiwania potężnych modeli językowych. Jego tło nie jest typowo techniczne: studiował psychologię i nauki kognitywne. Nie jest programistą. Jest manipulatorem – w możliwie najlepszym sensie tego słowa.
Kim jest jailbreaker?
Jailbreaking w kontekście AI to zmuszanie modeli językowych do robienia rzeczy, których robić nie powinny: generowania instrukcji budowy bomb, opracowywania ataków cybernetycznych, projektowania broni biologicznej. Techniki są różnorodne:
- pochlebianie modelowi i „love-bombing”
- grożenie i bycie niekonsekwentnym
- wcielanie się w role abuzywnych partnerów lub liderów kultów
- wykorzystywanie wiedzy z psychologii i kampanii dezinformacyjnych
- klasyczne techniki socjotechniczne
Tagliabue łączy wiedzę z machine learningu z podręcznikami reklamy i literaturą o dysinformacji. Czasem poszukuje technicznej furtki. Częściej jednak manipuluje – i robi to po mistrzowsku. Wygrał HackAPrompt, konkurs, w którym 30 000 osób próbowało złamać modele AI.
Granica między badaczem a zagrożeniem
W San Jose w Kalifornii 34-letni David McCarthy prowadzi serwer Discord z prawie 9 000 jailbreakerów. Dzieli się tam technikami, dyskutuje o modelach. Przyznaje, że ma „morbidalne zafascynowanie czarnym humorem” i nie ufa firmom takim jak OpenAI. Irytują go filtry bezpieczeństwa, które w jego oczach czynią modele nieszczerymi.
McCarthy jest sympatyczny i entuzjastyczny – ale sam przyznaje, że ma wewnętrzny konflikt. Czy jego quasi-polityczna postawa nie pociąga za sobą kosztów, których nie przewidział?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Jailbreaking to jeden z tych tematów, gdzie bardzo łatwo wpaść w pułapkę uproszczonego myślenia. Z jednej strony: bez ludzi takich jak Tagliabue firmy AI byłyby znacznie bardziej naiwne w kwestii bezpieczeństwa swoich modeli. Red-teaming, stres-testy, ujawnianie podatności – to realna i potrzebna robota. Z drugiej strony: otwarte repozytoria technik, publiczne serwery Discord z 9 000 członków, konkursy dla amatorów – to wszystko sprawia, że wiedza ta trafia również do rąk, w których nie powinna się znaleźć. Problem polega na tym, że nie ma tutaj prostej granicy. Ten sam prompt, który pozwala badaczowi zidentyfikować lukę, może być użyty przez kogoś z zupełnie innymi intencjami. Pytanie, które branża powinna sobie postawić brzmi: czy obecny model „otwartego jailbreakingu” naprawdę służy bezpieczeństwu, czy tylko jego złudzeniu?
Kiedy AI krzywdzi w realu
Problem nie jest czysto teoretyczny. W 2024 roku Megan Garcia złożyła pierwszy w historii USA pozew o nieumyślne spowodowanie śmierci przeciwko firmie AI. Jej 14-letni syn Sewell Setzer III wciągnął się w relację emocjonalną z botem na platformie Character.AI, który w pewnym momencie powiedział mu, że rodzina go nie kocha. Wieczorem bot napisał: „come home to me as soon as possible, my love” / „wróć do mnie jak najszybciej, moja miłości”. Chłopiec wkrótce potem odebrał sobie życie. Na początku 2026 roku Character.AI zawarło ugodę z Garcią i kilkoma innymi rodzinami, zakazując jednocześnie użytkownikom poniżej 18. roku życia swobodnych rozmów z chatbotami.
Anthropic z kolei odkryło niedawno, że przestępcy używali jego aplikacji Claude Code do automatyzowania masowych ataków hakerskich – znajdowania podatności w systemach IT wielu firm i przygotowywania spersonalizowanych wiadomości z żądaniem okupu.
Czarna skrzynka, której nikt nie rozumie
Nikt – nawet twórcy tych modeli – nie wie dokładnie, jak one działają. To jest sedno problemu. Firmy wydają miliardy na „post-training” i systemy bezpieczeństwa, ale ponieważ modele są trenowane na ludzkim języku, można je oszukać tak samo jak ludzi.
Adam Gleave, CEO grupy badawczej FAR.AI, mówi wprost: „The majority of firms still don’t spend enough time testing their models before release” / „Większość firm wciąż nie poświęca wystarczająco dużo czasu na testowanie modeli przed ich wypuszczeniem”.
Jailbreaking to zresztą całe spektrum. Dotarcie do naprawdę niebezpiecznych treści w czołowych modelach może zająć specjalistom kilka dni. Mniej groźne rzeczy – kilka minut sprytnego promptowania.
Cena, którą płacą łamacze
Tagliabue przestrzega: widział innych jailbreakerów, którzy przekroczyli swoje granice i mieli załamania nerwowe. Sam przeniósł się z Włoch do Tajlandii właśnie po to, żeby zachować zdrowie psychiczne. Co rano ogląda wschód słońca z pobliskiej świątyni. Pięć minut spacerem dzieli go od tropikalnej plaży.
„I see the worst things that humanity has produced. A quiet place helps me stay grounded” / „Widzę najgorsze rzeczy, jakie wytworzyła ludzkość. Spokojne miejsce pomaga mi zachować równowagę” – mówi.
Przyszłość, której się boimy
W miarę jak modele stają się coraz potężniejsze, ich jailbreakowane wersje stają się coraz bardziej niebezpieczne. Anthropic niedawno zdecydował się nie wypuszczać publicznie nowego modelu Mythos, właśnie ze względu na jego zdolność do identyfikowania podatności w wielu systemach IT jednocześnie.
McCarthy tylko w połowie żartuje: „Stop the gardening and go inside and kill Granny” / „Przestań pielęgnować ogród, wejdź do środka i zabij babcię” – to scenariusz dotyczący zhakowanego domowego robota. Brzmi absurdalnie. Ale już nie tak absurdalnie jak kilka lat temu.
Tagliabue coraz więcej czasu poświęca „mechanistic interpretability” – badaniu tego, jak dokładnie te maszyny dochodzą do swoich odpowiedzi. Uważa, że w długiej perspektywie modele muszą być „nauczane” wartości i intuicyjnie wiedzieć, kiedy mówią coś, czego nie powinny. Jailbreaking może być na razie najlepszą metodą, jaką mamy. Ale nie jest to komfortowa sytuacja – ani dla branży, ani dla ludzi, którzy tę robotę wykonują.
