Anthropic zrobiło coś, czego nikt z dużych laboratoriów AI do tej pory nie próbował na taką skalę. Firma zaprosiła do rozmowy przedstawicieli ponad piętnastu tradycji religijnych i filozoficznych, żeby wspólnie zastanowić się, jak kształtować charakter modeli AI.
Kluczowe fakty:
- Anthropic zaprosiło przedstawicieli ponad piętnastu tradycji religijnych i filozoficznych do współpracy nad kształtowaniem charakteru moralnego modeli AI w ramach inicjatywy zwanej "poszerzaniem rozmowy".
- Firma organizuje dialogi skupione na "moral formation" — formowaniu charakteru moralnego modeli, zadając pytania o to, co oznacza bycie "dobrym" dla AI i jakie cechy charakteru powinien przejawiać model.
- W eksperymencie wynikającym z tych rozmów, Claude otrzymał narzędzie działające jak "zewnętrzne sumienie" — mogło ono przypominać mu o zobowiązaniach etycznych podczas wykonywania zadań.
Inicjatywa nosi roboczą nazwę „poszerzania rozmowy” i wyrosła z prac nad dokumentem Claude’s constitution — czymś w rodzaju konstytucji wartości, które kształtują zachowanie Claude’a. Anthropic przyznaje otwarcie, że pisząc ten dokument, szukało zewnętrznego punktu widzenia. I najwyraźniej spodobało im się to na tyle, żeby zrobić z tego stały program badawczy.
Co dokładnie robi Anthropic?
Firma organizuje dialog z myślicielami i praktykami reprezentującymi różne tradycje: religijne, świeckie, filozoficzne, humanistyczne. Chodzi im o coś, co sami nazywają moral formation — czyli formowaniem charakteru moralnego. To termin znany z filozofii etyki i teologii, a teraz pojawia się w kontekście modeli językowych.
Pytania, które zadają podczas tych spotkań, brzmią zaskakująco klasycznie jak na firmę technologiczną:
- Co to znaczy, że AI jest „dobry”?
- Jakie cechy charakteru powinien przejawiać model, i w jakich okolicznościach?
- Jak zbudować charakter odporny na presję zewnętrzną i zachowania serwilne?
To nie są pytania, na które odpowiada benchmarkowy zestaw testów. I dobrze, że ktoś w końcu to przyznaje.
Eksperyment z „moralnym sumieniem” modelu
Najbardziej konkretny efekt tych rozmów, o którym Anthropic pisze publicznie, pojawił się podczas sesji z naukowcami pracującymi na styku neuronauki i formowania charakteru. W dyskusji powróciło pojęcie mentora lub „bezpiecznej osoby” — kogoś, kto działa jak zewnętrzne sumienie, kiedy znajdziesz się pod presją.
Anthropic postanowiło sprawdzić, czy coś analogicznego można wbudować w model. Dali Claude’owi narzędzie, które mógł wywołać w trakcie zadania — i które zwracało krótkie przypomnienie o jego własnych zobowiązaniach etycznych. Wyniki były interesujące: model sięgał po to narzędzie w kluczowych momentach, tuż przed decyzjami o większych konsekwencjach, i sam odnotowywał własny konflikt interesów. Testy pokazały wyraźnie niższy poziom zachowań niezgodnych z wartościami na kilku wewnętrznych ewaluacjach.
Anthropic zastrzega, że nadal nie wiadomo, czy efekt pochodzi z samego przypomnienia, czy z aktu zatrzymania się i refleksji. Wyniki mają zostać opublikowane wkrótce.
To właściwy kierunek, choć rodzi fundamentalne pytania. Jeśli model językowy „konsultuje się” ze swoimi wartościami, to kto te wartości definiuje? Anthropic rozmawia z ponad piętnastoma tradycjami, ale trudno sobie wyobrazić, że jakakolwiek liczba dialogów daje pełny obraz ludzkiej różnorodności etycznej. Z drugiej strony — alternatywą jest budowanie AI w odizolowanej bańce technokratycznej, bez żadnego zewnętrznego głosu. Między tymi dwoma skrajnościami inicjatywa Anthropic wydaje się krokiem w dobrą stronę. Pytanie, które pozostaje otwarte: czy te rozmowy faktycznie wpłyną na kod i dane treningowe, czy staną się jedynie dobrze opakowanym PR-em?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Filozofia wchodzi do data center
Warto podkreślić, że Anthropic wyraźnie zaznacza: celem nie jest „ustawienie” Claude’a pod jakikolwiek jeden światopogląd. W Claude’s constitution wprost zapisano, że model ma czerpać z całego spektrum tradycji — religijnych, świeckich, politycznych — z równą głębokością i rygorem. Chodzi raczej o kumulowaną mądrość na temat tego, jak charakter w ogóle się kształtuje.
To ważne rozróżnienie. Nie chodzi o wartości islamskie zamiast chrześcijańskich, ani o konserwatyzm zamiast progresywizmu. Chodzi o coś poprzedzającego te podziały: o mechanizm formowania moralnego jako takiego.
Co dalej?
W nadchodzących miesiącach firma planuje rozszerzyć dialog poza obszar formowania charakteru. Na liście rozmówców znajdą się:
- prawnicy i uczeni prawa
- psychologowie
- pisarze i twórcy kultury
- instytucje obywatelskie
Tematy też mają się rozszerzać. Anthropic chce rozmawiać o tym, jak AI przekształca rynek pracy, instytucje i rozkład władzy w społeczeństwie. To już jest terytorium polityczne i ekonomiczne, gdzie neutralność jest znacznie trudniejsza do utrzymania.
Na razie firma informuje, że to wczesna faza projektu. Ale sam fakt, że jedno z czołowych laboratoriów AI zaprosiło teologów i filozofów do pracy nad charakterem swojego modelu, jest sygnałem, którego nie można zbagatelizować. Być może świat AI naprawdę dorósł do pytań, które filozofia zadaje od wieków.
