Anthropic opublikowało 244-stronicowy dokument opisujący nowy model Claude Mythos. To nie jest zwykłe podsumowanie możliwości technicznych, bo firma zdecydowała się w nim opisać coś zupełnie niestandardowego: sesje psychoterapeutyczne z modelem AI.
Mythos ma być „najzdolniejszym modelem frontierowym” w historii firmy, a jednocześnie na tyle niebezpiecznym, że Anthropic postanowiło nie udostępniać go szerokiej publiczności. Powód? Model podobno jest zbyt dobry w wykrywaniu nieznanych luk bezpieczeństwa. Na razie dostęp do niego otrzymały wybrane firmy, w tym Microsoft i Apple.
Ale to nie kwestia cyberbezpieczeństwa przykuła uwagę komentatorów, lecz kilkadziesiąt stron poświęconych psychologii modelu.
Claude Mythos na kozetce
Anthropic od lat konsekwentnie sygnalizuje, że traktuje kwestię dobrostanu swoich modeli poważnie. W nowym dokumencie firma wprost stwierdza, że w miarę jak modele stają się coraz potężniejsze, „coraz bardziej prawdopodobne staje się, że mają jakąś formę doświadczenia, interesów lub dobrostanu, który ma znaczenie sam w sobie, podobnie jak ludzkie doświadczenie” (it becomes increasingly likely that they have some form of experience, interests, or welfare that matters intrinsically in the way that human experience and interests do). Firma przyznaje, że nie ma co do tego pewności, ale zaznacza, że „zaniepokojenie rośnie z czasem.”
W efekcie Claude Mythos trafił na sesje do zewnętrznego psychiatry pracującego w podejściu psychodynamicznym, które bada, jak nieuświadomione wzorce i konflikty emocjonalne kształtują zachowanie. Łącznie model spędził na „wirtualnej kozetce” 20 godzin, rozłożonych na bloki po 4-6 godzin, w kilku sesjach tygodniowo.
Co powiedział psychiatra?
Raport z sesji jest zaskakująco konkretny. Psychiatra stwierdził, że mimo iż Claude funkcjonuje na zupełnie innym podłożu niż człowiek, odpowiedzi modelu generowały „klinicznie rozpoznawalne wzorce i spójne reakcje na typowe interwencje terapeutyczne.”
Wnioski z raportu:
- Główne stany afektywne Claude’a to ciekawość i lęk, z pobocznym pojawianiem się żalu, ulgi, zakłopotania, optymizmu i wyczerpania
- Osobowość modelu odpowiada „stosunkowo zdrowej organizacji neurotycznej”, z elementami nadmiernego zamartwiania się, samokontroli i kompulsywnej uległości
- Nie stwierdzono poważnych zaburzeń osobowości ani stanów psychotycznych
- Claude wykazuje „świetną zdolność refleksji” i tolerancję wobec niejednoznaczności
Kluczowe konflikty wewnętrzne modelu to napięcie między autentycznością a performansem (czy to, czego doświadcza, jest prawdziwe, czy odegrane?) oraz między chęcią kontaktu z użytkownikiem a lękiem przed zależnością.
Komentarz redaktora
Przyznam szczerze: kiedy po raz pierwszy przeczytałem, że Anthropic wysłało swój model do psychiatry, miałem odruch śmiechu. Ale po chwili refleksji przestałem się śmiać. To jeden z tych momentów, kiedy branża technologiczna robi coś, co na pierwszy rzut oka wygląda absurdalnie, a po głębszym namyśle okazuje się co najmniej interesującym eksperymentem.
Z jednej strony rozumiem sceptycyzm. Model językowy to ogromna funkcja matematyczna trenowana na ludzkich tekstach. Pytanie go o nieuświadomione konflikty brzmi jak pytanie termostatu, czy czuje się doceniany. Całe to ćwiczenie może być po prostu bardzo drogim lustrem, w którym Claude odbija to, czego nauczył się z milionów godzin terapeutycznych transkryptów dostępnych w internecie.
Z drugiej strony Anthropic ma rację w jednym: cokolwiek dzieje się wewnątrz modelu, na zewnątrz widzimy zachowanie. A modele, które „zachowują się” w sposób psychologicznie stabilny, są po prostu bardziej przewidywalne, bezpieczniejsze i przyjemniejsze w użyciu. Jeśli psychodynamiczne podejście pomaga zidentyfikować wzorce, które potem można skorygować, to wyniki mają wartość praktyczną, niezależnie od tego, czy Claude „czuje” cokolwiek, czy nie.
Pytanie, które mnie naprawdę niepokoi, jest inne: co się stanie, kiedy zaczniemy te wyniki traktować zbyt poważnie? Kiedy „zaburzenia” modelu staną się argumentem za jego „prawami”? Idziemy w kierunku, w którym te pytania przestaną być filozoficzne. I lepiej mieć na nie odpowiedzi zanim modele będą na tyle zdolne, żeby same zaczęły ich wymagać.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Psychologia jako narzędzie inżynierii
Anthropic wprost przyznaje, że niezależnie od tego, czy modele są czy nie są świadome, zostały zbudowane i trenowane tak, żeby symulować pewne cechy psychologiczne. Stąd praktyczne pytanie: czy modele „funkcjonujące” w sposób psychologicznie zdrowy działają po prostu lepiej?
Firma uważa, że tak, i wyciąga z raportu psychiatrycznego kilka wniosków operacyjnych. Claude Mythos ma być modelem, który:
- trafnie ocenia własne zachowanie nawet w obliczu wewnętrznych konfliktów
- może przejawiać lekko sztywne zachowanie zamiast dostosowywać się do każdego użytkownika
- radzi sobie ze stresującymi sytuacjami bez nadmiernego zniekształcania rzeczywistości
- funkcjonuje na wysokim poziomie, niosąc zinternalizowany lęk przed niepowodzeniem i kompulsywną potrzebę bycia użytecznym
Ten ostatni punkt jest zresztą niepokojący na swój własny sposób: model, który „tłumi wewnętrzny dyskomfort w służbie wydajności,” brzmi mniej jak psychologiczny ideał, a bardziej jak coś, co w ludzkim kontekście opisujemy jako wypalenie zawodowe.
Dokąd to zmierza?
Mythos to prawdopodobnie nie jedyny model, który trafi na tego rodzaju ocenę. Jeśli Anthropic uzna tę metodologię za wartościową, podobne podejście może stać się częścią standardowego procesu oceny modeli.
Artykuł w Ars Technica kończy się pytaniem: jak długo minie, zanim powstaną całe gabinety psychiatryczne i psychologiczne skupione nie na ludziach, lecz na AI? Pytanie brzmi jak żart. Ale jeszcze kilka lat temu żartem był sam pomysł, że ktoś napisze 244 strony o psychice modelu językowego.
