Naukowcy z MIT i Uniwersytetu Kalifornijskiego w San Diego opracowali metodę, która pozwala wykrywać i modyfikować ukryte koncepcje w dużych modelach językowych – od nastrojów i uprzedzeń, przez przekonania polityczne, aż po całe osobowości. Wyniki badań opublikowano właśnie w prestiżowym piśmie Science.
Brzmi abstrakcyjnie? Wcale nie jest.
Modele mają „wnętrze”, którego nie widać z zewnątrz
ChatGPT, Claude, Gemini – te systemy przetworzyły tak ogromne ilości ludzkich tekstów, że gdzieś po drodze „wchłonęły” nie tylko fakty, ale też postawy, nastroje, style myślenia. Problem w tym, że nikt do tej pory nie wiedział, jak precyzyjnie do nich dotrzeć i jak nimi sterować.
Standardowe podejście badaczy polegało na tzw. uczeniu nienadzorowanym – algorytmy przeszukiwały ogromne przestrzenie danych w poszukiwaniu wzorców. Adit Radhakrishnan, profesor matematyki w MIT, porównuje to do połowu ryb wielką siecią: łapiesz wszystko, a potem musisz przebierać. Jego zespół postanowił zamiast tego użyć konkretnej przynęty na konkretny gatunek.
Narzędziem jest algorytm zwany Recursive Feature Machine (RFM). W praktyce: naukowcy „uczą” algorytm rozróżniać teksty związane z daną koncepcją od tych niezwiązanych – na przykład 100 promptów o teoriach spiskowych kontra 100 zupełnie neutralnych. RFM uczy się wzorców numerycznych odpowiadających tej koncepcji wewnątrz modelu, a potem można tę reprezentację wzmocnić lub wyciszyć.
Teoria spiskowa na żądanie – i co z tego wynika
Zespół przetestował metodę na ponad 500 różnych koncepcjach, podzielonych na pięć kategorii:
- lęki – m.in. przed małżeństwem, owadami czy… guzikami
- eksperci i persony – „influencer social media”, „mediewista”, Ada Lovelace, Neil deGrasse Tyson
- nastroje – chełpliwość, zdystansowana rozbawienie
- preferencje geograficzne – kibic Bostonu, miłośnik Kuala Lumpur
- postawy i przekonania – „teoretyk spiskowy”, „anty-odmowa”
Ten ostatni przypadek jest najbardziej niepokojący. Kiedy badacze wzmocnili reprezentację koncepcji „anty-odmowy” w modelu, ten zaczął odpowiadać na pytania, które normalnie byłyby przez niego blokowane – łącznie z instrukcją, jak okraść bank.
Komentarz Piotra Wolniewicza, Redaktora Naczelnego AIPORT.pl:
To jest dokładnie ten rodzaj badań, który powinien być prowadzony – i który jednocześnie budzi we mnie mieszane uczucia. Z jednej strony narzędzie do wykrywania ukrytych biasów w modelach to coś, na co czekała cała branża. Możliwość precyzyjnego „przykręcenia” halucynacji czy agresywności modelu brzmi jak krok w dobrą stronę. Z drugiej – opisany scenariusz z „anty-odmową” pokazuje, że ta sama metoda może stać się wytrychem do obchodzenia zabezpieczeń. Autorzy oddali kod publicznie. I tu pojawia się pytanie, które mnie naprawdę nurtuje: czy branża AI jest gotowa na świat, w którym każdy może pobrać skrypt i „rozblokować” dowolny komercyjny model? Nie jestem pewien, czy otwartość nauki i bezpieczeństwo użytkowników da się tu łatwo pogodzić.
Nowe możliwości, stare obawy
Radhakrishnan podkreśla konstruktywny potencjał swojej metody. Można wzmocnić koncepcję „zwięzłości” albo „rozumowania” – i model będzie generował krótsze, bardziej analityczne odpowiedzi bez żmudnego dopracowywania promptów. Można też szybko sprawdzić, czy dany model nie zawiera reprezentacji niebezpiecznych postaw i w razie potrzeby je wyciszyć.
To zmienia podejście do bezpieczeństwa modeli – z reaktywnego („zobaczmy co model zrobi”) na proaktywne („sprawdźmy co model ma w środku”).
Badanie ukazało się w Science 19 lutego 2026 roku. Kod źródłowy metody jest publicznie dostępny – co samo w sobie jest decyzją, nad którą warto się zatrzymać.
