Czy AI może mieć charakter? Anthropic pyta filozofów i duchownych

Autor i odp. redakcyjna: Natalia Woś | Data: 20 maja 2026, godz. 08:12 | Czas czytania: około 4 minuty | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Anthropic zrobiło coś, czego nikt z dużych laboratoriów AI do tej pory nie próbował na taką skalę. Firma zaprosiła do rozmowy przedstawicieli ponad piętnastu tradycji religijnych i filozoficznych, żeby wspólnie zastanowić się, jak kształtować charakter modeli AI.

Kluczowe fakty:

Anthropic zaprosiło przedstawicieli ponad piętnastu tradycji religijnych i filozoficznych do współpracy nad kształtowaniem charakteru moralnego modeli AI w ramach inicjatywy zwanej "poszerzaniem rozmowy".
Firma organizuje dialogi skupione na "moral formation" — formowaniu charakteru moralnego modeli, zadając pytania o to, co oznacza bycie "dobrym" dla AI i jakie cechy charakteru powinien przejawiać model.
W eksperymencie wynikającym z tych rozmów, Claude otrzymał narzędzie działające jak "zewnętrzne sumienie" — mogło ono przypominać mu o zobowiązaniach etycznych podczas wykonywania zadań.

Spis treści:

Inicjatywa nosi roboczą nazwę „poszerzania rozmowy” i wyrosła z prac nad dokumentem Claude’s constitution — czymś w rodzaju konstytucji wartości, które kształtują zachowanie Claude’a. Anthropic przyznaje otwarcie, że pisząc ten dokument, szukało zewnętrznego punktu widzenia. I najwyraźniej spodobało im się to na tyle, żeby zrobić z tego stały program badawczy.

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Co dokładnie robi Anthropic?

Firma organizuje dialog z myślicielami i praktykami reprezentującymi różne tradycje: religijne, świeckie, filozoficzne, humanistyczne. Chodzi im o coś, co sami nazywają moral formation — czyli formowaniem charakteru moralnego. To termin znany z filozofii etyki i teologii, a teraz pojawia się w kontekście modeli językowych.

Pytania, które zadają podczas tych spotkań, brzmią zaskakująco klasycznie jak na firmę technologiczną:

Co to znaczy, że AI jest „dobry”?
Jakie cechy charakteru powinien przejawiać model, i w jakich okolicznościach?
Jak zbudować charakter odporny na presję zewnętrzną i zachowania serwilne?

To nie są pytania, na które odpowiada benchmarkowy zestaw testów. I dobrze, że ktoś w końcu to przyznaje.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Eksperyment z „moralnym sumieniem” modelu

Najbardziej konkretny efekt tych rozmów, o którym Anthropic pisze publicznie, pojawił się podczas sesji z naukowcami pracującymi na styku neuronauki i formowania charakteru. W dyskusji powróciło pojęcie mentora lub „bezpiecznej osoby” — kogoś, kto działa jak zewnętrzne sumienie, kiedy znajdziesz się pod presją.

Anthropic postanowiło sprawdzić, czy coś analogicznego można wbudować w model. Dali Claude’owi narzędzie, które mógł wywołać w trakcie zadania — i które zwracało krótkie przypomnienie o jego własnych zobowiązaniach etycznych. Wyniki były interesujące: model sięgał po to narzędzie w kluczowych momentach, tuż przed decyzjami o większych konsekwencjach, i sam odnotowywał własny konflikt interesów. Testy pokazały wyraźnie niższy poziom zachowań niezgodnych z wartościami na kilku wewnętrznych ewaluacjach.

Anthropic zastrzega, że nadal nie wiadomo, czy efekt pochodzi z samego przypomnienia, czy z aktu zatrzymania się i refleksji. Wyniki mają zostać opublikowane wkrótce.

To właściwy kierunek, choć rodzi fundamentalne pytania. Jeśli model językowy „konsultuje się” ze swoimi wartościami, to kto te wartości definiuje? Anthropic rozmawia z ponad piętnastoma tradycjami, ale trudno sobie wyobrazić, że jakakolwiek liczba dialogów daje pełny obraz ludzkiej różnorodności etycznej. Z drugiej strony — alternatywą jest budowanie AI w odizolowanej bańce technokratycznej, bez żadnego zewnętrznego głosu. Między tymi dwoma skrajnościami inicjatywa Anthropic wydaje się krokiem w dobrą stronę. Pytanie, które pozostaje otwarte: czy te rozmowy faktycznie wpłyną na kod i dane treningowe, czy staną się jedynie dobrze opakowanym PR-em?

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Filozofia wchodzi do data center

Warto podkreślić, że Anthropic wyraźnie zaznacza: celem nie jest „ustawienie” Claude’a pod jakikolwiek jeden światopogląd. W Claude’s constitution wprost zapisano, że model ma czerpać z całego spektrum tradycji — religijnych, świeckich, politycznych — z równą głębokością i rygorem. Chodzi raczej o kumulowaną mądrość na temat tego, jak charakter w ogóle się kształtuje.

To ważne rozróżnienie. Nie chodzi o wartości islamskie zamiast chrześcijańskich, ani o konserwatyzm zamiast progresywizmu. Chodzi o coś poprzedzającego te podziały: o mechanizm formowania moralnego jako takiego.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

Co dalej?

W nadchodzących miesiącach firma planuje rozszerzyć dialog poza obszar formowania charakteru. Na liście rozmówców znajdą się:

prawnicy i uczeni prawa
psychologowie
pisarze i twórcy kultury
instytucje obywatelskie

Tematy też mają się rozszerzać. Anthropic chce rozmawiać o tym, jak AI przekształca rynek pracy, instytucje i rozkład władzy w społeczeństwie. To już jest terytorium polityczne i ekonomiczne, gdzie neutralność jest znacznie trudniejsza do utrzymania.

Na razie firma informuje, że to wczesna faza projektu. Ale sam fakt, że jedno z czołowych laboratoriów AI zaprosiło teologów i filozofów do pracy nad charakterem swojego modelu, jest sygnałem, którego nie można zbagatelizować. Być może świat AI naprawdę dorósł do pytań, które filozofia zadaje od wieków.

Oceń artykuł

Średnia: 5.0 (7 ocen)

Czy AI może mieć charakter? Anthropic pyta filozofów i duchownych

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Czy AI może mieć charakter? Anthropic pyta filozofów i duchownych

Kluczowe fakty:

Co dokładnie robi Anthropic?

Eksperyment z „moralnym sumieniem” modelu

Filozofia wchodzi do data center

Co dalej?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas