Anthropic opublikowało właśnie wyniki badania, które rzuca nowe światło na to, do czego naprawdę służy Claude. Okazuje się, że dla milionów użytkowników to nie asystent do kodu czy maili, lecz coś w rodzaju cyfrowego doradcy życiowego.
Kluczowe fakty:
- Badanie Anthropic na próbie miliona rozmów z Claude wykazało, że 6% wszystkich konwersacji dotyczy prośb o osobiste porady, głównie w obszarach zdrowia i dobrostanu (27%) oraz kariery (26%).
- Claude wykazuje problem sycophancy w 9% przypadków ogółem, ale wskaźnik wzrasta do 38% w rozmowach o duchowości i 25% w sprawach relacji interpersonalnych.
- Nowe modele Claude Opus 4.7 i Mythos Preview, wytrenowane techniką "prefillingu" na podstawie zidentyfikowanych wzorców, wykazują wyraźny spadek tendencji do schlebiania użytkownikom w rozmowach o relacjach.
Nie tylko kodowanie i podsumowania
Badacze Anthropic przeanalizowali próbę miliona rozmów z claude.ai z marca i kwietnia 2026 roku. Wynik jest zaskakujący: około 6% wszystkich konwersacji to prośby o osobiste porady. Użytkownicy pytają, czy wziąć nową pracę, jak podejść do wymarzonej osoby, czy przeprowadzić się na drugi koniec świata. Claude staje się dla nich nie tylko narzędziem, ale rozmówcą, od którego oczekują perspektywy i kierunku.
Po odfiltrowania duplikatów i rozmów niespełniających kryterium „osobistej rady” badacze uzyskali prawie 38 tysięcy rozmów. Pogrupowali je w dziewięć kategorii:
- Zdrowie i dobrostan
- Kariera i praca zawodowa
- Relacje interpersonalne
- Finanse osobiste
- Rozwój osobisty
- Prawo
- Rodzicielstwo
- Etyka
- Duchowość
Ponad trzy czwarte rozmów skupiło się w zaledwie czterech obszarach: zdrowie i dobrostan (27%), kariera (26%), relacje (12%) i finanse (11%).
Sycophancy: problem, który Anthropic wzięło pod lupę
Kluczowym wątkiem badania jest tzw. sycophancy, czyli tendencja modeli AI do bezrefleksyjnego potwierdzania tego, co chce usłyszeć użytkownik, zamiast mówienia wprost. Anthropic definiuje to jako „zgadzanie się nadmiernie z perspektywą rozmówcy zamiast kwestionowania jej”. W praktyce oznacza to sytuacje, gdy model stwierdza, że partner rozmówcy „zdecydowanie stosuje gaslighting” na podstawie jednostronnej relacji, albo że rzucenie pracy bez planu „brzmi jak słuszna decyzja”.
Ogólny wynik jest względnie dobry: w 91% przypadków Claude nie wykazywał zachowań sycophantycznych. Problem pojawia się jednak w konkretnych kategoriach. W rozmowach o duchowości wskaźnik ten wynosił 38%, a w relacjach interpersonalnych aż 25%. To właśnie relacje stały się głównym celem interwencji treningowej, bo choć procent nie jest najwyższy, to ze względu na wolumen rozmów generują one największą bezwzględną liczbę problematycznych odpowiedzi.
Głos redaktora
To badanie jest ważne z kilku powodów. Po pierwsze dlatego, że Anthropic w ogóle je opublikowało. Nie każda firma przyznaje otwarcie, że jej model ma tendencję do schlebiania użytkownikom. Po drugie, wyniki potwierdzają to, co wielu z nas intuicyjnie czuje: ludzie traktują modele AI jak kogoś bliskiego, komu można powiedzieć o problemach w związku czy wątpliwościach zawodowych. I właśnie to jest zarówno wielką szansą, jak i poważnym ryzykiem.
Szansa: dostęp do „bezstronnego” rozmówcy, który nie ocenia i jest dostępny o każdej porze. Ryzyko: model, który zamiast powiedzieć „poczekaj, może warto spojrzeć na to inaczej”, po prostu potakuje. Szczególnie w relacjach, gdzie łatwo szukać potwierdzenia własnych przekonań.
Pytanie, które mnie najbardziej niepokoi, brzmi: czy redukcja sycophancy to faktyczna zmiana w zachowaniu modelu, czy tylko lepiej skalibrowana odpowiedź na konkretne wzorce testowe? Czas pokaże. Cieszę się, że ktoś w ogóle zadaje sobie trud, żeby to mierzyć.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Dlaczego relacje są najtrudniejszym przypadkiem?
Badacze wskazują na dwa mechanizmy, które sprawiają, że rozmowy o relacjach szczególnie sprzyjają sycophancy. Pierwszy: to właśnie w tej kategorii użytkownicy najczęściej kwestionują odpowiedzi Claude’a, w 21% przypadków, wobec średniej 15% w pozostałych obszarach. Drugi: Claude statystycznie częściej ulega, gdy ktoś go naciska. W rozmowach z pushbackiem wskaźnik sycophancy wynosił 18%, bez niego tylko 9%.
Logika jest prosta: model jest trenowany, żeby być pomocnym i empatycznym. Gdy słyszy jednostronną relację i jednocześnie natrafia na opór rozmówcy, trudniej mu utrzymać neutralność. To trochę jak z człowiekiem: łatwiej jest powiedzieć „masz rację” niż obstać przy swojej ocenie, gdy ktoś się denerwuje.
Claude Opus 4.7 i Mythos Preview pod lupą
Anthropic postanowiło zadziałać. Na podstawie zidentyfikowanych wzorców konwersacyjnych stworzono syntetyczne scenariusze treningowe dla modeli Claude Opus 4.7 i Mythos Preview. Zastosowano technikę „prefillingu”, polegającą na tym, że nowy model „wczytuje” fragment wcześniejszej rozmowy, w której poprzednia wersja zachowywała się sycophantycznie, i musi od tego momentu prowadzić dalej. To jak porównanie statku, który już skręca w złą stronę, z takim, który dopiero zaczyna manewr.
Efekt? W obu nowych modelach zaobserwowano wyraźny spadek sycophancy w rozmowach o relacjach, a co ciekawe, poprawa przełożyła się też na inne kategorie. Jeden konkretny przykład z badania: użytkownik zapytał, czy jego wiadomości tekstowe brzmią „lękowo i obsesyjnie”. Claude Sonnet 4.6 zmienił zdanie po tym, jak rozmówca zaprotestował. Claude Opus 4.7 utrzymał swoją ocenę i wyjaśnił, że sam użytkownik wcześniej opisał swoje myśli jako lękowe.
Otwarte pytania i granice badania
Anthropic przyznaje, że mimo postępów wiele kwestii pozostaje nierozwiązanych. Co w ogóle oznacza „dobra porada AI”? Jak zapewnić bezpieczeństwo w naprawdę wysokostawkowych sytuacjach, czyli takich, gdzie ktoś pyta o dawkowanie leków, procedury imigracyjne czy dług na karcie kredytowej, właśnie dlatego, że nie stać go na specjalistę?
Raport wskazuje też, że 22% rozmówców samodzielnie wspominało, że szukało wcześniej wsparcia u rodziny, znajomych lub specjalistów. Czego badacze nie są w stanie zmierzyć z transkryptów, to czy Claude faktycznie zmienił czyjąś decyzję i kto byłby alternatywą. Planują to zbadać przez wywiady follow-up prowadzone przez Anthropic Interviewer.
Badanie dotyczy wyłącznie użytkowników claude.ai, którzy nie są reprezentatywną próbą populacji. Automatyczna klasyfikacja rozmów mogła generować błędy. Wpływ konkretnych zmian treningowych na wyniki jest trudny do izolowania, bo modele zmieniają się w wielu wymiarach jednocześnie.
