Wyobraź sobie, że przez lata pisałeś pod pseudonimem na Reddicie, Hacker News czy innych forach – i nagle ktoś potrafi powiązać każdy twój wpis z twoim prawdziwym imieniem, nazwiskiem i profilem na LinkedIn. Całość kosztuje mniej niż taksówka z lotniska. To nie scenariusz z cyberpunkowej powieści – to wyniki opublikowanego właśnie badania naukowców z ETH Zurich i Anthropic.
Praca nosi tytuł „Large-scale online deanonymization with LLMs” i trafiła na arXiv pod koniec lutego. Jej autorzy – Simon Lermen, Daniel Paleka, Joshua Swanson, Michael Aerni (wszyscy ETH Zurich lub powiązane instytucje) oraz Nicholas Carlini z Anthropic – pokazują coś, czego wielu z nas wolałoby nie wiedzieć: modele językowe potrafią automatycznie, tanio i na masową skalę denanomizować pseudonimowe konta w sieci, kwestionując fundamentalne założenia dotyczące tego, jak działa prywatność online.
ESRC, czyli maszyna do zdejmowania masek
Badacze zbudowali czterostopniowy framework ataku, który nazwali ESRC: Extract, Search, Reason i Calibrate. Żaden z tych kroków nie wydaje się sam w sobie podejrzany – to właśnie czyni ten system wyjątkowo groźnym.
W praktyce wygląda to tak: system czyta posty użytkownika, buduje jego profil na podstawie drobiazgów (wzmianka o konferencji, niszowe hobby, charakterystyczna fraza, ton wypowiedzi), a następnie przeszukuje kandydatów z realnych baz danych. Model językowy porównuje profile, szuka sprzeczności i przypisuje wyniki pewności.
Podczas eksperymentu badacze poprawnie dopasowali 67% użytkowników Hacker News do ich prawdziwych profili na LinkedIn, przeszukując pulę 89 000 kandydatów – po uprzednim usunięciu wszystkich bezpośrednich identyfikatorów takich jak nazwy, adresy URL i loginy. Cały eksperyment kosztował mniej niż 2000 dolarów, a identyfikacja jednego konta zajęła od 1 do 4 dolarów.
W innym teście badacze osiągnęli recall na poziomie 68% przy precyzji do 90% – wyniki, które przewyższają tradycyjne, pracochłonne metody deanonimizacji.
Skala problemu jest większa, niż się wydaje
Dla mnie najważniejszy jest kontekst ekonomiczny. Rządy, zachęcone tanim dostępem, zyskują możliwość, której zawsze chciały, ale nie mogły wdrożyć na masową skalę. Zmotywowana służba wywiadowcza zawsze mogła zdemaskować konkretnego dysydenta przy odpowiedniej liczbie analityków. Przeprowadzenie tego samego procesu na każdym pseudonimowym koncie w ruchu protestacyjnym było jednak zbyt kosztowne. Przy 1-4 dolarach za identyfikację staje się to pozycją groszową w każdym budżecie bezpieczeństwa narodowego.
Artykuł wskazuje na inwigilację dziennikarzy, dysydentów i aktywistów jako realistyczne zagrożenie. Hipertargetowane reklamy łączące anonimowe posty z profilami klientów oraz spersonalizowany social engineering na masową skalę to kolejne scenariusze. Pracownicy polegający na pseudonimowości w celu ochrony mogą również zostać zdemaskowani.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To badanie ma wartość poznawczą i tę wartość należy docenić – naukowcy nie zbudowali narzędzia inwigilacji, ujawnili mechanizm, który i tak prędzej czy później zostałby odkryty przez kogoś z mniej szlachetnymi zamiarami. To klasyczny argument za tzw. „responsible disclosure”. Z drugiej strony mam pewien dyskomfort: blueprint leży teraz otwarty na arXiv i każdy zespół inżynierski może go podnieść jutro. Pytanie, które mnie nurtuje: czy środowisko badań nad AI wypracowało wystarczające standardy etyczne dotyczące publikowania narzędzi o podwójnym zastosowaniu? I czy „cena” 4 dolary to jeszcze cena odstraszająca, czy już nie?
Bezpieczne guardrails? Niekoniecznie
Badacze przetestowali komercyjne zabezpieczenia LLM podczas swoich eksperymentów i uznali je za niewystarczające, aby zapobiec deanonimizacji. W niektórych scenariuszach agenci odmawiali pomocy, ale niewielkie zmiany w promptach za każdym razem omijały te odmowy.
Do testów użyto modeli Grok 4.1 Fast od xAI, GPT-5.2 od OpenAI oraz Gemini 3 Flash i Gemini 3 Pro od Google. Co ciekawe – żaden model Claude nie pojawia się na liście, mimo że Nicholas Carlini z Anthropic figuruje jako doradca przy badaniu.
Kluczową obserwacją jest to, że pipeline ataku składa się z indywidualnie nieszkodliwych kroków: podsumowywanie tekstu, generowanie embeddingów, ranking kandydatów i wnioskowanie nad dopasowaniami. Żaden pojedynczy komponent nie wydaje się z natury złośliwy, co utrudnia wykrywanie lub ograniczanie przez konwencjonalne zabezpieczenia.
Tu jest pies pogrzebany. Systemy moderacji szukają wyraźnie szkodliwych zapytań. Ten atak wygląda jak normalne użycie modelu.
Co to oznacza dla zwykłego użytkownika
Pseudonimowa aktywność stanowi fundament dla sygnalistów, aktywizmu, społeczności ofiar przemocy i politycznego sprzeciwu. Autorzy ostrzegają, że rządy, korporacje lub złośliwi aktorzy mogą wdrożyć podobne techniki, aby powiązać anonimowe posty z prawdziwymi tożsamościami.
Badacze sugerują kilka konkretnych kroków dla użytkowników, którym zależy na prywatności:
- unikaj konsekwentnego zamieszczania identyfikujących mikroszczegółów na różnych platformach
- ostrożnie podchodź do wzmianek o pracodawcach, konkretnych projektach lub unikalnych wydarzeniach z życia
- regularnie usuwaj stare treści, które mogą gromadzić identyfikatory
- ogranicz dostępność swoich danych publicznych
Autorzy postulują też zmiany systemowe: limity szybkości dostępu do danych, solidne wykrywanie automatycznego scrapingu i guardrails w systemach AI ograniczające nadużycia.
Praktyczna anonimowość przestaje istnieć
Szerszą implikacją jest to, że „praktyczna niejednoznaczność” – idea, że rozproszone pseudonimowe posty są bezpieczne, bo ich łączenie jest zbyt pracochłonne – może już nie obowiązywać.
Modele językowe nie odkrywają ukrytych tajemnic – automatyzują to, co wykwalifikowani śledczy mogli już robić ręcznie. To zdanie powinno dać do myślenia. Anonimowość w sieci nigdy nie była techniczna – była ekonomiczna. AI właśnie drastycznie obniżyła cenę jej złamania.
Pełna praca dostępna jest na arXiv.
