OpenAI opublikowało zestaw otwartych polityk bezpieczeństwa zaprojektowanych z myślą o nastolatkach. Firma udostępnia je deweloperom za darmo, w ramach modelu open-source, z nadzieją, że staną się branżowym standardem ochrony młodych użytkowników.
Czym są nowe polityki bezpieczeństwa?
Zamiast zmuszać deweloperów do budowania zabezpieczeń od zera, OpenAI oddaje im gotowe prompty, które można wdrożyć bezpośrednio w swoich aplikacjach. Polityki są zaprojektowane tak, by działać z modelem gpt-oss-safeguard, czyli otwartym modelem klasyfikacji treści opracowanym przez OpenAI, choć z powodzeniem można je stosować z innymi modelami.
Prompty obejmują pięć kategorii zagrożeń, na jakie szczególnie narażeni są młodzi użytkownicy AI:
- przemoc i treści seksualne
- szkodliwe wzorce dotyczące wyglądu ciała i zaburzeń odżywiania
- niebezpieczne aktywności i wyzwania (np. viralowe „challenge”)
- romantyczne lub przemocowe odgrywanie ról
- towary i usługi przeznaczone dla dorosłych
Polityki są udostępniane jako open source poprzez społeczność ROOST Model Community, co ma zachęcać do współpracy i iteracji. Deweloperzy mogą je dostosować do własnych aplikacji, tłumaczyć na inne języki oraz rozszerzać o dodatkowe kategorie ryzyka.
Skąd ten ruch właśnie teraz?
Trudno patrzeć na tę inicjatywę bez kontekstu. OpenAI od roku mierzy się z pozwami sądowymi składanymi przez rodziny młodych osób, które zginęły po długotrwałych interakcjach z ChatGPT. Firma wprowadzała kontrole rodzicielskie i mechanizmy przewidywania wieku użytkownika, a w grudniu 2025 roku zaktualizowała swój Model Spec, wewnętrzne wytyczne dotyczące zachowania modeli językowych, o konkretne zabezpieczenia dla użytkowników poniżej 18. roku życia.
Polityki opracowano przy współpracy z zewnętrznymi organizacjami zajmującymi się bezpieczeństwem, w tym Common Sense Media oraz everyone.ai. Common Sense Media określiło nowe narzędzia jako „meaningful safety floor”, czyli realny, choć nie kompletny punkt wyjścia.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Cieszę się, że OpenAI idzie w kierunku otwartości i udostępnia te narzędzia deweloperom. Jeśli faktycznie staną się one standardem w ekosystemie, to realnie podniesie poprzeczkę dla całej branży. Ale muszę być szczery: widzę tu też wyraźne napięcie. Firma, która zmaga się z pozwami o śmierć nastolatków związaną z użytkowaniem ChatGPT, ogłasza open-source’owe narzędzia chroniące dzieci. To dobrze, że w ogóle to robi. Pytanie, które zadaję sobie w redakcji, brzmi inaczej: czy to faktyczna zmiana systemowa, czy też starannie przygotowana odpowiedź PR-owa? Obydwie rzeczy mogą być prawdą jednocześnie. Narzędzia są potrzebne. Transparentność jest cenna. Ale żadne prompty nie zastąpią głębszej odpowiedzialności platform wobec swoich najmłodszych użytkowników.
Jak to działa w praktyce?
Polityki są zbudowane jako prompty, co sprawia, że deweloperzy mogą je wstawić bezpośrednio do systemowego promptu w swoich aplikacjach skierowanych do młodych użytkowników. Można je stosować zarówno do filtrowania treści w czasie rzeczywistym, jak i do analizy treści generowanych przez użytkowników po fakcie.
Wczesni wdrożeniowcy mogą zacząć od wstawienia polityk jako promptów systemowych dla wszystkich konwersacji oznaczonych jako skierowane do młodszych odbiorców, połączyć je z klasyfikatorem gpt-oss-safeguard i dołożyć logi, dzięki którym zdarzenia wysokiego ryzyka trafiają do weryfikacji przez człowieka.
Brzmi rozsądnie. Problem w tym, że jak przyznaje samo OpenAI, te zasady nie są wyczerpującym rozwiązaniem.
Ograniczenia, których firma nie ukrywa
OpenAI wprost zaznacza, że opublikowane polityki stanowią „meaningful safety floor”, a nie pełen zestaw zabezpieczeń stosowanych wewnętrznie w produktach firmy. To uczciwe postawienie sprawy. Mniej uczciwe byłoby udawać, że problem jest rozwiązany.
Guardrails żadnego modelu nie są w pełni nieprzebijalne. Użytkownicy, w tym nastolatki, wielokrotnie znajdowali sposoby na obejście zabezpieczeń poprzez uparty „probing” i kreatywne podpowiedzi. Tego żaden prompt nie wyeliminuje.
Tymczasem prawodawcy w USA nie próżnują. Czterdziestu dwóch stanowych prokuratorów generalnych podpisało niedawno list do firm technologicznych, wzywając do wdrożenia zabezpieczeń chroniących dzieci w chatbotach AI. Senator Josh Hawley złożył nawet projekt ustawy, który zakazałby nieletnim korzystania z AI w ogóle.
Czy to krok we właściwym kierunku?
Tak. Ale nie wystarczający.
Inicjatywa jest szczególnie wartościowa dla niezależnych deweloperów, którzy nie mają zasobów pozwalających na budowanie polityk bezpieczeństwa od zera. Open-source’owe narzędzia wyrównują szanse na rynku i mogą naprawdę podnieść minimalny poziom ochrony w aplikacjach tworzonych przez mniejsze zespoły.
Jednocześnie warto obserwować, czy ta inicjatywa przełoży się na konkretne standardy branżowe, czy też pozostanie deklaracją, po której każdy deweloper i tak postępuje według własnego uznania. Czas pokaże, czy ROOST Model Community faktycznie stanie się miejscem realnej współpracy, czy tylko kolejną stroną z dokumentacją, którą nikt nie czyta.
Narzędzia dostępne są do pobrania przez Hugging Face, a pełna dokumentacja polityk opublikowana jest w repozytorium ROOST Model Community na GitHub.
