OpenAI uruchamia trzy nowe modele audio w czasie rzeczywistym. GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper

Autor i odp. redakcyjna: Natalia Kaszubowska | Data: 9 maja 2026, godz. 09:15 | Czas czytania: około 5 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

OpenAI właśnie poważnie rozszerzyło swoje Realtime API, wprowadzając trzy wyspecjalizowane modele audio. Każdy z nich trafia w inne miejsce – agent głosowy z rozumowaniem, tłumacz mowy na żywo i transkrypcja strumieniowa. Przy okazji firma ogłosiła, że Realtime API wychodzi z fazy beta i jest już ogólnie dostępne. To ważny sygnał dla deweloperów, którzy do tej pory wstrzymywali się z wdrożeniami produkcyjnymi.

Kluczowe fakty:

OpenAI uruchomiło oficjalnie Realtime API z trzema wyspecjalizowanymi modelami audio: GPT-Realtime-2 dla agentów głosowych z rozumowaniem, GPT-Realtime-Translate do tłumaczeń na żywo w ponad 70 językach oraz GPT-Realtime-Whisper do strumieniowej transkrypcji.
Model GPT-Realtime-2 otrzymał rozszerzone okno kontekstowe do 128K tokenów i pięć poziomów intensywności rozumowania (minimal, low, medium, high, xhigh), osiągając 96,6% na benchmarku Big Bench Audio przy ustawieniu "high".
Ceny nowych modeli wynoszą 32-64 USD za milion tokenów audio dla GPT-Realtime-2, 0,034 USD za minutę dla tłumacza oraz 0,017 USD za minutę dla transkrypcji strumieniowej.

Spis treści:

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Trzy modele, trzy różne zadania

OpenAI nie próbuje tutaj robić jednego modelu do wszystkiego. Tym razem firma poszła w specjalizację, co samo w sobie jest interesującą zmianą podejścia.

Mamy więc:

GPT-Realtime-2 – flagowy model agentów głosowych z rozumowaniem klasy GPT-5
GPT-Realtime-Translate – dedykowany model do tłumaczenia mowy na żywo
GPT-Realtime-Whisper – strumieniowa transkrypcja mowy w czasie rzeczywistym

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

GPT-Realtime-2 – wreszcie głos, który myśli

To zdecydowanie najciekawsza część całego ogłoszenia. GPT-Realtime-2 dostał okno kontekstowe powiększone z 32K do 128K tokenów, czyli można prowadzić znacznie dłuższe rozmowy bez ryzyka, że model „zapomni” o czym rozmawialiśmy pięć minut temu.

Jeden z kluczowych problemów poprzednich modeli głosowych – nieznośna cisza podczas przetwarzania złożonych zapytań – został tu wprost zaadresowany. Model może teraz wypowiadać krótkie frazy podtrzymujące („let me check that”, „one moment while I look into it”), a jednocześnie wykonywać kilka narzędzi równolegle i na bieżąco komentować co robi. Koniec z tą martwą przestrzenią, która sprawia, że użytkownik myśli, że system się zawiesił.

Ciekawym rozwiązaniem jest pięciopoziomowa regulacja intensywności rozumowania: minimal, low, medium, high i xhigh. Domyślnie ustawiono „low” – żeby nie generować opóźnień przy prostych zapytaniach. Cięższe zadania mogą sięgnąć po więcej mocy obliczeniowej. To daje deweloperom realną kontrolę nad kompromisem między latencją a jakością odpowiedzi.

Model dodaje też kontrolę tonu. Może pozostać spokojny podczas rozwiązywania problemów, przejść w tryb empatyczny gdy użytkownik jest sfrustrowany, i stać się bardziej pozytywny po pomyślnym zakończeniu zadania. Brzmi jak marketingowy pokaz slajdów, ale w praktyce to duża różnica w odbiorze asystenta głosowego.

Na benchmarkach wyniki są wyraźne: GPT-Realtime-2 z ustawieniem „high” osiąga 96,6% na Big Bench Audio wobec 81,4% dla poprzedniej wersji GPT-Realtime-1.5. Wariant „xhigh” osiąga 48,5% na Audio MultiChallenge przy 34,7% dla poprzednika.

Cena: 32 USD za 1 milion tokenów audio na wejściu i 64 USD za 1 milion tokenów na wyjściu.

Głos ma cenę – i pytanie o granice

Nowe modele głosowe OpenAI to krok, który trudno zbagatelizować. Strumieniowe tłumaczenie w ponad 70 językach i reasoning bezpośrednio w warstwie audio otwierają możliwości, które jeszcze rok temu wymagały złożonych pipeline’ów sklejonych z kilku różnych narzędzi. Ale warto zadać sobie jedno pytanie: czy dostarczanie coraz bardziej „ludzkich” modeli głosowych – z kontrolą tonu, empatią, naturalnym przepływem rozmowy – to wyłącznie technologiczny postęp? Bo jednocześnie budujemy systemy, które mogą być świadomie projektowane tak, żeby zacierać granicę między człowiekiem a maszyną. Regulacje dotyczące ujawniania tożsamości AI w rozmowach głosowych są wciąż daleko w tyle za możliwościami technologii. I to jest temat, o którym branża powinna rozmawiać głośniej, zanim narzuci go nam prawo lub głośny skandal.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

GPT-Realtime-Translate – tłumacz na żywo dla ponad 70 języków

GPT-Realtime-Translate to model z jednym zadaniem: mowa wchodzi w jednym języku, wychodzi w innym. OpenAI obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych, w tempie nadążającym za rozmówcą.

To nie jest asystent konwersacyjny. Nie zapyta „czy masz jakieś pytania”, nie wywoła funkcji zewnętrznej, nie zapamięta kontekstu między sesjami. Robi jedno, ale robi to szybko i na żywo. Dla bilingual customer support, tłumaczeń na konferencjach czy transmisji na żywo – to odpowiednie narzędzie.

Cena: 0,034 USD za minutę.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

GPT-Realtime-Whisper – transkrypcja, która nie czeka

Oryginalny Whisper był zaprojektowany do pracy na gotowych fragmentach audio. GPT-Realtime-Whisper to jego strumieniowy odpowiednik – transkrybuje na bieżąco, słowo po słowie, bez czekania na koniec wypowiedzi.

Deweloperzy mogą regulować latencję: niższe opóźnienie generuje wcześniej częściowy tekst, wyższe poprawia jakość finalnej transkrypcji. Zastosowania są oczywiste: napisy na żywo do transmisji, notatki ze spotkań pisane w trakcie rozmowy, systemy rozpoznawania mowy wymagające ciągłego rozumienia.

Cena: 0,017 USD za minutę.

Nowe głosy i trzy tryby sesji

Przy okazji pojawiły się dwa nowe głosy w Realtime API: Cedar i Marin, dostępne wyłącznie z nowymi modelami.

Deweloperzy wybierają teraz między trzema typami sesji:

voice-agent – asystent odpowiadający użytkownikowi
translation – interpreter mowy
transcription – tekst z audio, bez generowania odpowiedzi przez model

Wszystkie trzy modele są dostępne w API od razu i można je przetestować w OpenAI Playground. Realtime API jest od dziś oficjalnie poza fazą beta.

Oceń artykuł

Średnia: 4.7 (17 ocen)

OpenAI uruchamia trzy nowe modele audio w czasie rzeczywistym. GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

OpenAI uruchamia trzy nowe modele audio w czasie rzeczywistym. GPT-Realtime-2, GPT-Realtime-Translate i GPT-Realtime-Whisper

Kluczowe fakty:

Trzy modele, trzy różne zadania

GPT-Realtime-2 – wreszcie głos, który myśli

Głos ma cenę – i pytanie o granice

GPT-Realtime-Translate – tłumacz na żywo dla ponad 70 języków

GPT-Realtime-Whisper – transkrypcja, która nie czeka

Nowe głosy i trzy tryby sesji

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas