OpenAI oficjalnie zaprezentowało ChatGPT Images 2.0, czyli nowy model generowania obrazów oparty na silniku GPT-Image-2. To pierwsza w historii firmy generatywna model obrazów wyposażony w tzw. thinking capabilities, czyli możliwość rozumowania przed wygenerowaniem grafiki.
Model, który najpierw myśli
Brzmi jak marketing, ale tym razem kryje się za tym coś konkretnego. ChatGPT Images 2.0 działa na bazie mechanizmu znanych z serii O-series: zanim wygeneruje obraz, poświęca czas na planowanie struktury, analizę zapytania i w razie potrzeby przeszukanie sieci w czasie rzeczywistym. W zależności od wybranego trybu, model może działać szybko (instant) lub wolniej, za to z wyraźnie lepszymi rezultatami (thinking).
Tryb z aktywnym rozumowaniem dostępny jest wyłącznie dla subskrybentów planów Plus, Pro i Business. Użytkownicy darmowi też skorzystają z ulepszeń jakości obrazu, ale bez opcji generowania całych serii.
Do czego to służy?
Lista przypadków użycia jest tym razem naprawdę długa:
- infografiki i materiały edukacyjne
- projekty reklamowe z lokalizowanym tekstem
- plany pomieszczeń i makiety architektoniczne
- serie grafik do mediów społecznościowych
- mangi i storyboardy z zachowaniem ciągłości postaci
- slajdy prezentacji i banery
Jeden prompt może wygenerować do ośmiu obrazów jednocześnie, a model zachowuje spójność postaci i obiektów w całej serii. Do tego obsługiwane są proporcje od 3:1 do 1:3 i rozdzielczość do 2K.
Tekst w obrazach: w końcu działa
Historycznie generowanie czytelnego tekstu wewnątrz obrazów było piętą achillesową wszystkich modeli AI. ChatGPT Images 2.0 ma ten problem rozwiązać raz na zawsze.
Model integruje tekst w scenach w sposób naturalny, łącznie z odręcznymi notatkami, oznaczeniami UI, szyldami i plakatami, z poprawną pisownią i wyrównaniem. Co ważne, działa to nie tylko dla alfabetu łacińskiego. Obsługiwane są japońskie znaki kanji, koreański hangul, chiński, hindi i bengalski, przy czym tekst nie jest tylko poprawnie wyświetlany, ale też brzmi naturalnie w kontekście danego języka.
Każda nowa wersja modelu obrazów jest prezentowana jako rewolucja. Czasem rzeczywiście nią jest. Rendering tekstu w obrazach był przez lata problemem, który zawstydzał cały sektor, i jeśli OpenAI faktycznie go rozwiązało, to jest to krok naprawdę istotny dla zastosowań komercyjnych. Ale warto też pamiętać, że im lepsze modele, tym trudniej odróżnić prawdziwe zdjęcia od generowanych. OpenAI zapewnia o zabezpieczeniach, ale kto i w jaki sposób będzie to weryfikował w skali globalnej? To pytanie pozostaje otwarte.
— Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Dostępność i ceny
Model jest dostępny dla wszystkich użytkowników ChatGPT i Codex od 22 kwietnia 2026 roku, natomiast dostęp przez API dla deweloperów ma zostać uruchomiony na początku maja.
Cennik dla deweloperów korzystających z API:
- input tekstowy: 5 USD za milion tokenów
- input obrazowy: 8 USD za milion tokenów
- output obrazowy: 30 USD za milion tokenów
Koszt wygenerowania jednego obrazu waha się od 0,04 do 0,35 USD w zależności od złożoności zapytania i wybranej rozdzielczości.
Poprzedni model, GPT-Image-1.5, zostaje wycofany jako domyślny, choć pozostaje dostępny przez API dla użytkowników, którzy go potrzebują.
Bezpieczeństwo: OpenAI obiecuje, ale pytania pozostają
OpenAI nie przemilcza kwestii zagrożeń. Firma przyznaje wprost: „ChatGPT Images 2.0 can create more realistic images than earlier versions, which could increase the risk of misuse, such as generating misleading or sensitive images of real people, places or events” / „ChatGPT Images 2.0 może tworzyć bardziej realistyczne obrazy niż wcześniejsze wersje, co może zwiększyć ryzyko nadużyć, takich jak generowanie mylących lub wrażliwych wizerunków prawdziwych osób, miejsc lub wydarzeń”.
Odpowiedzią ma być wielostopniowy system filtrowania, sprawdzanie promptów przed generowaniem i weryfikacja wyników. OpenAI podkreśla, że w przeciwieństwie do niektórych konkurentów firma podchodzi do bezpieczeństwa z konsekwencją i dumą z tego, że wydaje model łączący zaawansowane możliwości z ochroną użytkowników.
