OpenAI ogłosiło uruchomienie publicznego programu Safety Bug Bounty, skierowanego wprost do badaczy bezpieczeństwa i specjalistów od red teamingu. Tym razem firma nie szuka klasycznych luk w infrastrukturze, ale czegoś znacznie trudniejszego do zdefiniowania: zagrożeń, które wynikają z samej natury AI.
Program działa jako uzupełnienie istniejącego już Security Bug Bounty i przyjmuje zgłoszenia dotyczące przypadków nadużyć oraz ryzyk dla bezpieczeństwa, nawet jeśli nie spełniają one klasycznej definicji podatności technicznej. Innymi słowy, OpenAI przyznaje wprost, że granica między „błędem” a „niebezpiecznym zachowaniem modelu” jest płynna i potrzebuje nowego podejścia.
Agenci na celowniku
Centrum całego programu są agenty AI. Coraz więcej produktów OpenAI, od ChatGPT Agent przez Browser po narzędzia oparte na MCP (Model Context Protocol), działa z rosnącą autonomią: przegląda strony, wykonuje kod, wysyła dane do zewnętrznych serwisów. I właśnie to stało się głównym obszarem zainteresowania programu.
W zakresie zgłoszeń znalazły się między innymi:
- Prompt injection od stron trzecich – ataki, w których złośliwy tekst jest w stanie przejąć kontrolę nad agentem użytkownika i nakłonić go do szkodliwego działania lub wycieku danych; warunkiem kwalifikacji jest powtarzalność na poziomie minimum 50%
- Niedozwolone działania agenta na skalę – sytuacje, w których produkty agentic OpenAI wykonują zakazane operacje na stronach firmy
- Wycieki zastrzeżonych informacji dotyczących modelu, w tym danych związanych z rozumowaniem
- Ominięcie mechanizmów anty-automatyzacji lub sygnałów zaufania do kont
Zgłoszenia trafiają do wspólnego triażu zespołów Safety i Security, po czym są kierowane do odpowiedniego programu w zależności od charakteru problemu.
Co się nie kwalifikuje i dlaczego to ważne
OpenAI postawiło wyraźną granicę: zwykłe jailbreaki są poza zakresem. Jeśli ktoś zdoła nakłonić model do używania wulgaryzmów albo udzielenia odpowiedzi, którą można znaleźć w pierwszych wynikach wyszukiwarki, nie dostanie nagrody. Kwalifikują się tylko te przypadki, które prowadzą do realnej szkody i posiadają konkretne, możliwe do wdrożenia kroki naprawcze.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To krok w dobrym kierunku, ale warto się zastanowić, czy nie jest to przyznanie się do czegoś niepokojącego. OpenAI płaci teraz za znajdowanie przypadków, kiedy jego własne agenty robią rzeczy, których nie powinny. Z jednej strony to dojrzałe podejście do bezpieczeństwa i dowód, że firma nie udaje, iż jej systemy są nieomylne. Z drugiej strony pojawia się pytanie: skoro agenci są na tyle autonomiczni, że potrzebują osobnego programu bug bounty skupionego na ich zachowaniach, to czy wdrażamy je do produktów konsumenckich zbyt wcześnie? Nie twierdzę, że tak jest, ale pytanie jest zasadne i myślę, że branża powinna je zadawać głośno.
MCP w zasięgu ryzyka
Osobną kategorię stanowią zagrożenia związane z MCP, czyli protokołem pozwalającym agentom na korzystanie z zewnętrznych narzędzi i źródeł danych. OpenAI zaznacza, że testowanie w tym obszarze musi być zgodne z regulaminami stron trzecich. To subtelna, ale istotna informacja: ekosystem MCP rozrasta się szybko, a każdy nowy konektor to potencjalnie nowy wektor ataku.
Nagrody i kontekst
Program realizowany jest we współpracy z platformą Bugcrowd. Choć oficjalna strona Safety Bug Bounty nie ujawnia konkretnych kwot nagród dla tego programu, warto przypomnieć, że w ramach powiązanego Security Bug Bounty OpenAI podniósł ostatnio maksymalną wypłatę do 100 000 dolarów. Dla kontekstu: poprzedni limit wynosił 20 000 dolarów.
Firma prowadzi równolegle zamknięte kampanie skupione na konkretnych typach zagrożeń. Aktualnie działają dwa takie programy:
- Bio Bug Bounty dla ChatGPT Agent (nabór od 17 lipca 2025)
- Bio Bug Bounty dla GPT-5 (zakończone, testowanie od września 2025)
Oba dotyczą prób znalezienia uniwersalnego jailbreaku pozwalającego ominąć dziesięciopoziomowy test pytań bio/chem. Nagroda za sukces: 25 000 dolarów.
Sygnał dla całej branży
Pojawienie się dedykowanego programu skupionego na bezpieczeństwie agentów to sygnał, który pozostali gracze rynkowi raczej zignorować nie mogą. Jeśli OpenAI, firma z gigantycznymi zasobami inżynieryjnymi, potrzebuje zewnętrznych badaczy do weryfikacji zachowań swoich agentów, to co to mówi o stanie branży w ogóle?
Programy bug bounty działają najlepiej wtedy, gdy firma traktuje je poważnie, a nie jako zabieg PR. Na razie OpenAI pokazuje, że rozumie różnicę. Czas pokaże, czy praktyka potwierdzi deklaracje.
