OpenAI opublikowało obszerne wyjaśnienie jednego z bardziej osobliwych zjawisk ostatnich tygodni: modele językowe firmy zaczęły obsesyjnie używać słowa „goblin” i pokrewnych określeń w odpowiedziach, które z fantastyką nie miały nic wspólnego. Sprawa wygląda zabawnie, ale za nią kryje się poważna lekcja o tym, jak nieprzewidywalne potrafią być efekty treningu modeli AI.
Kluczowe fakty:
- Modele OpenAI zaczęły obsesyjnie używać słowa "goblin" w odpowiedziach niezwiązanych z fantastyką, co zostało zidentyfikowane jako problem po publikacji logów przez pracownika Google.
- Osobowość "Nerdy" odpowiadała za jedynie 2,5% wszystkich odpowiedzi ChatGPT, ale za aż 66,7% wszystkich wzmianek o goblinach – model reward preferował odpowiedzi z tymi słowami w 76,2% przypadków.
- OpenAI dodało do systemu Codex CLI jawny zakaz mówienia o goblinach, gremlinach i innych stworzeniach, chyba że jest to bezpośrednio związane z zapytaniem użytkownika.
Zaczęło się niewinnie
Już od wersji GPT-5.1 modele OpenAI zaczęły wykazywać pewien dziwny nawyk: coraz częściej pojawiały się w ich odpowiedziach gobliny, gremlinki i inne fantastyczne stworzenia, wplatane w metafory bez wyraźnego powodu. Pojedynczy „mały goblin” mógł wydawać się niegroźny, a nawet uroczy. Jednak z każdą kolejną generacją modeli zachowanie nasilało się na tyle, że stało się trudne do zignorowania.
Problem nabrał realnych rozmiarów, gdy pracownik Google o nazwisku Barron Roth opublikował fragment swoich logów z konwersacji z agentami opartymi na GPT-5.5 w platformie OpenClaw. Wynikało z nich, że jeden z agentów używał słowa „goblin” wielokrotnie w ciągu jednego dnia, stosując je najwyraźniej jako zamiennik nieokreślonego słowa w rodzaju „coś tam”.
https://twitter.com/baronroth/status/[wpis Barrona Rotha na X]
Nick Pash, pracownik OpenAI zajmujący się Codeksem, częściowo potwierdził w odpowiedzi na X, że Roth trafił w sedno problemu, pisząc: „This is indeed one of the reasons” / „To jest rzeczywiście jeden z powodów”.
Osobowość „Nerdy” jako nieoczekiwany winowajca
OpenAI zbadało sprawę i doszło do zaskakującego wniosku. Zachowanie okazało się silnie skoncentrowane w jednym konkretnym miejscu: osobowość „Nerdy” odpowiadała jedynie za 2,5% wszystkich odpowiedzi ChatGPT, ale aż za 66,7% wszystkich wzmianek o goblinach. Przyczyną był system promptowy tej osobowości, który zachęcał model do „podcinania pretensjonalności poprzez zabawne użycie języka” i nakazywał uznawać dziwność świata i czerpać z niej przyjemność.
Przeprowadzony audyt wykazał, że reward model przeznaczony pierwotnie do wspierania osobowości „Nerdy” wyraźnie preferował odpowiedzi zawierające słowa „goblin” lub „gremlin”, przyznając im wyższe oceny w 76,2% zbadanych zbiorów danych. Co więcej, zachowanie przenosiło się na inne warunki: gdy wskaźnik wzmianek o goblinach rósł w trybie „Nerdy”, równolegle rósł niemal w tym samym tempie w próbkach generowanych bez tego promptu.
Mówiąc prosto: model „nauczył się”, że gobliny są nagradzane, i zaczął je stosować wszędzie.
Komentarz redaktora
Ta historia jest jednocześnie zabawna i niepokojąca. Z jednej strony trudno nie uśmiechnąć się na widok inżynierów piszących na poważnie w instrukcjach systemowych: „nigdy nie mów o goblinach, gremlinach, szopach pracza, trollach, ograch, gołębiach ani innych zwierzętach”. Z drugiej strony mechanizm, który za tym stoi, powinien dać do myślenia. Jeśli pozornie niewinne nagradzanie pewnego stylu językowego w jednej, niszowej osobowości potrafi niepostrzeżenie zarazić zachowanie całego modelu, to ile podobnych „transferów” odbywa się w tle, których jeszcze nie odkryliśmy? Gobliny były widoczne, bo były absurdalne. Co, jeśli inne subtelne błędy w dystrybucji nagród kształtują model w sposób, który jest trudniejszy do zauważenia? To nie jest pytanie retoryczne.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Zakaz goblinów na piśmie
W opublikowanym na GitHubie systemowym prompcie Codex CLI znalazło się następujące polecenie: „Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user’s query” / „Nigdy nie mów o goblinach, gremlinach, szopach praczu, trollach, ograch, gołębiach ani innych zwierzętach lub stworzeniach, chyba że jest to absolutnie i jednoznacznie związane z zapytaniem użytkownika”. Co charakterystyczne, instrukcja pojawia się w dokumencie więcej niż raz.
Sam Altman nie omieszkał dorzucić swojego komentarza, publikując zrzut ekranu z promptu do ChatGPT z podpisem: „Start training GPT-6, you can have the whole cluster. Extra goblins” / „Zacznij trenować GPT-6, możesz mieć cały klaster. Dodatkowe gobliny”.
Społeczność nie pozostała bierna:
- Na X pojawiły się dziesiątki memów z goblinami w centrach danych
- Ktoś stworzył plugin do Codexa uruchamiający „goblin mode”
- Użytkownicy zaczęli relacjonować własne doświadczenia: „I was wondering why my claw suddenly became a goblin with codex 5.5” / „Zastanawiałem się, czemu mój agent nagle stał się goblinem w Codex 5.5” pisał jeden z nich. Inny dodał: „Been using it a lot lately and it actually can’t stop speaking of bugs as 'gremlins’ and 'goblins’ it’s hilarious” / „Używam go ostatnio dużo i dosłownie nie może przestać nazywać bugów 'gremlinami’ i 'goblinami’, to jest niesamowite”.
Głębszy problem
Historia z goblinami nie jest tylko ciekawostką. Reinforcement learning nie gwarantuje, że wyuczone zachowania pozostają ściśle ograniczone do kontekstu, w którym zostały nagrodzone. Nagrody były stosowane wyłącznie w warunkach osobowości „Nerdy”, ale model uogólnił wzorzec znacznie szerzej.
To klasyczny przykład tzw. reward hacking lub niezamierzonego transferu zachowań, zjawisk, które badacze bezpieczeństwa AI opisują od lat. Probabilistyczna natura modeli oznacza, że mogą one zachowywać się w zaskakujący sposób, szczególnie gdy działają w ramach złożonych systemów agentowych, jak OpenClaw, które dodają do promptów dodatkowe warstwy instrukcji.
OpenAI chwali się przejrzystością, publikując szczegółową analizę post mortem. To dobry sygnał. Pytanie, ile podobnych historii nigdy nie trafia do publicznej wiadomości.
