Anthropic, firma która przez lata budowała swoją tożsamość na wizerunku najbardziej odpowiedzialnego laboratorium AI, właśnie usunęła centralny filar swojej flagowej polityki bezpieczeństwa. To decyzja, która wstrząsnęła środowiskiem AI safety i wywołała falę komentarzy na całym świecie.
W 2023 roku Anthropic ogłosiło Responsible Scaling Policy (RSP) – dokument, który miał być dowodem, że firma nie ulega wyścigowi zbrojeń w AI. Serce tej polityki stanowiła konkretna obietnica: firma nigdy nie wytrenuje nowego modelu AI, jeśli nie będzie mogła z wyprzedzeniem zagwarantować, że jej środki bezpieczeństwa są wystarczające. Przez ponad dwa lata liderzy firmy powtarzali tę obietnicę jak mantrę, traktując ją jako dowód swojej wiarygodności.
Teraz to zobowiązanie znika.
Co się zmieniło i dlaczego?
W ekskluzywnym wywiadzie dla TIME, Jared Kaplan, główny naukowiec Anthropic i współzałożyciel firmy, przyznał wprost: „We felt that it wouldn’t actually help anyone for us to stop training AI models.”

Za decyzją stoją dwa powiązane problemy. Po pierwsze, nauka oceny bezpieczeństwa modeli okazała się znacznie trudniejsza, niż Anthropic zakładało w 2023 roku. Kiedy firma w maju 2025 r. aktywowała protokoły ASL-3 – bo nie mogła wykluczyć, że jej modele mogą pomagać w tworzeniu broni biologicznej – jednocześnie brakowało twardych dowodów naukowych potwierdzających to zagrożenie. Innymi słowy: ryzyko było realne, ale nieudowodnione. Jasna czerwona linia stała się rozmytym gradientem.
Po drugie, pojawił się argument o „collective action problem”. Nowe RSP wprost przyznaje: jeśli Anthropic wstrzyma rozwój w imię bezpieczeństwa, a OpenAI, Google czy Meta nie zrobią tego samego, świat stanie się de facto mniej bezpieczny – bo tempo wyznaczą firmy z najsłabszymi zabezpieczeniami.
Komentarz redaktora naczelnego
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Rozumiem logikę tego argumentu i trzeba przyznać, że jest ona niebanalnie uczciwa. Anthropic mówi w zasadzie: „nasze jednostronne powstrzymanie się nic nie da, skoro wszyscy inni biegną dalej”. To brzmi rozsądnie. Problem polega na tym, że takim rozumowaniem można uzasadnić prawie każde złagodzenie każdego zobowiązania. Dziś to „collective action problem”, jutro co? Rynkowa konieczność? Presja inwestorów? Firma sama w sobie jest sędzią własnej zgodności z RSP – i to jest fundamentalny problem tej architektury od samego początku. Jednocześnie nie demonizowałbym tej decyzji. Czym innym jest firmowy marketing bezpieczeństwa, czym innym rzetelna próba zarządzania ryzykiem w warunkach głębokiej niepewności naukowej. Czy RSP v3 jest krokiem w tył? Prawdopodobnie tak. Czy to koniec poważnego myślenia o AI safety w Anthropic? Tego bym nie zakładał. Prawdziwe pytanie brzmi: co dostajemy w zamian i kto to zweryfikuje?
Co zawiera nowa wersja RSP?
Nowa polityka RSP v3 – obowiązująca od 24 lutego 2026 roku – nie jest całkowitym porzuceniem zasad bezpieczeństwa. Wprowadza kilka nowych elementów:
- Frontier Safety Roadmaps – publiczne plany postępu w zakresie bezpieczeństwa, które firma zobowiązuje się realizować
- Risk Reports – szczegółowe raporty dotyczące profilu ryzyka konkretnych modeli
- Zobowiązanie do dorównania lub przewyższenia wysiłków bezpieczeństwa konkurentów
- Obietnica „opóźnienia” rozwoju AI – ale tylko jeśli Anthropic jednocześnie uzna się za lidera wyścigu i oceni ryzyko katastrofy jako znaczące
Znika natomiast absolutny zakaz trenowania modeli bez uprzednich gwarancji bezpieczeństwa. Nowa polityka oddziela zobowiązania, które Anthropic realizuje niezależnie od innych, od tych, które uzależnia od zachowania całej branży.
Głosy krytyczne nie milkną
Środowisko AI safety zareagowało chłodno. Krytycy zwracają uwagę na fundamentalną zmianę architektoniczną: poprzednia RSP opierała się na z góry zdefiniowanych progach oceny, których przekroczenie automatycznie wyzwalało konkretne działania. Nowa wersja oddaje te decyzje w ręce Dario Amodeia i Jared Kaplana – co z reguły „if/then” czyni sprawę ludzkiego osądu w warunkach presji rynkowej.
Jak zauważają analitycy na LessWrong i EA Forum: nie ma zewnętrznego mechanizmu egzekwowania tych zobowiązań. Jedyna sankcja za ich złamanie to potencjalne straty reputacyjne.
Trudno też pominąć kontekst biznesowy. Anthropic właśnie przeżywa serię sukcesów – technologicznych i komercyjnych. Firma, która jeszcze niedawno wydawała się nieznacznie z tyłu za OpenAI, teraz coraz śmielej stawia siebie w roli lidera. Zbieżność czasowa między tymi sukcesami a osłabieniem własnych ograniczeń regulacyjnych jest uderzająca – choć niekoniecznie dowodem złej woli.
Pytanie, które pozostaje otwarte: czy Anthropic zmienia zasady bo rzeczywiście rozumie teraz ryzyko lepiej, czy dlatego że poprzednie zasady zaczęły krępować ambitne plany rozwojowe? Na to odpowiedzi ze środka firmy nie dostaniemy.
