OpenAI ogłosiło w czwartek premierę GPT-5.4, modelu opisywanego przez firmę jako „najbardziej wydajny i efektywny model frontier do profesjonalnej pracy.” To kolejny krok w dynamicznym wyścigu zbrojeń na rynku dużych modeli językowych.
Model dostępny jest w trzech wersjach: standardowej, GPT-5.4 Thinking (z rozszerzonymi możliwościami rozumowania) oraz GPT-5.4 Pro (zoptymalizowanej pod kątem wysokiej wydajności). Wersja API obsługuje kontekst do 1 miliona tokenów – to jak dotąd największe okno kontekstowe w ofercie OpenAI.
Co nowego w GPT-5.4?
Firma podkreśla kilka kluczowych ulepszeń w stosunku do poprzedników:
- Efektywność tokenów – model rozwiązuje te same problemy przy znacznie mniejszej liczbie tokenów niż GPT-5.2
- Rekordowe wyniki benchmarkowe – najlepsze wyniki w testach OSWorld-Verified i WebArena Verified z kategorii „computer use”
- 83 procent na GDPval – rekordowy wynik w wewnętrznym teście OpenAI oceniającym pracę opartą na wiedzy
- Mniej halucynacji – o 33 procent mniejsze ryzyko błędów w pojedynczych twierdzeniach, a całe odpowiedzi o 18 procent rzadziej zawierają błędy, w porównaniu z GPT-5.2
GPT-5.4 wygrało również benchmark APEX-Agents platformy Mercor, który testuje zawodowe kompetencje w obszarach prawa i finansów. Brendan Foody, CEO Mercor, skomentował to następująco:
„[GPT-5.4] excels at creating long-horizon deliverables such as slide decks, financial models, and legal analysis, delivering top performance while running faster and at a lower cost than competitive frontier models.”
Tool Search, czyli inteligentne zarządzanie narzędziami
Ważną zmianą techniczną w wersji API jest nowy system o nazwie Tool Search. Dotychczas modele przy każdym wywołaniu musiały ładować definicje wszystkich dostępnych narzędzi w promptach systemowych – co przy rozbudowanych środowiskach agentowych generowało ogromne koszty tokenowe. Teraz model wyszukuje definicje narzędzi tylko wtedy, kiedy faktycznie ich potrzebuje.
To brzmi jak detal, ale dla deweloperów budujących złożone aplikacje agentowe oznacza realne oszczędności.
„GPT-5.4 to solidne ulepszenie, i nie da się tego zanegować – ale warto zachować chłodną głowę. Każda kolejna generacja modeli przychodzi z obietnicą mniejszej liczby halucynacji, lepszych benchmarków i niższych kosztów. I zazwyczaj te obietnice są częściowo spełniane. Pytanie, które zadaję sobie jako obserwator tej branży: czy gonimy za kolejnymi dziesiątymi punktu procentowego na benchmarkach, czy rzeczywiście zbliżamy się do modeli, którym można powierzyć odpowiedzialne zadania zawodowe bez nadzoru człowieka? Na razie brakuje mi przekonującego dowodu na to drugie.”
– Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Bezpieczeństwo i przejrzystość rozumowania
Osobnym wątkiem jest kwestia bezpieczeństwa tzw. chain-of-thought, czyli „strumienia myślenia” modelu widocznego podczas rozwiązywania złożonych zadań. Badacze od dawna obawiają się, że modele rozumujące mogą ukrywać lub fałszować swój tok myślenia.
OpenAI twierdzi, że nowa ewaluacja bezpieczeństwa wskazuje, iż wersja Thinking GPT-5.4 rzadziej ucieka się do takich zachowań – co firma interpretuje jako dowód na to, że model „nie posiada zdolności do ukrywania swojego rozumowania.” Brzmi dobrze. Warto jednak pamiętać, że tę ewaluację przeprowadza ta sama firma, która model buduje.
Premiera GPT-5.4 wpisuje się w intensywny okres dla OpenAI – po kontrowersyjnym kontrakcie z Departamentem Obrony USA firma wyraźnie stara się demonstrować, że jej modele są zarówno najbardziej zaawansowane, jak i najbezpieczniejsze na rynku.
