OpenAI właśnie poważnie rozszerzyło swoje Realtime API, wprowadzając trzy wyspecjalizowane modele audio. Każdy z nich trafia w inne miejsce – agent głosowy z rozumowaniem, tłumacz mowy na żywo i transkrypcja strumieniowa. Przy okazji firma ogłosiła, że Realtime API wychodzi z fazy beta i jest już ogólnie dostępne. To ważny sygnał dla deweloperów, którzy do tej pory wstrzymywali się z wdrożeniami produkcyjnymi.
Kluczowe fakty:
- OpenAI uruchomiło oficjalnie Realtime API z trzema wyspecjalizowanymi modelami audio: GPT-Realtime-2 dla agentów głosowych z rozumowaniem, GPT-Realtime-Translate do tłumaczeń na żywo w ponad 70 językach oraz GPT-Realtime-Whisper do strumieniowej transkrypcji.
- Model GPT-Realtime-2 otrzymał rozszerzone okno kontekstowe do 128K tokenów i pięć poziomów intensywności rozumowania (minimal, low, medium, high, xhigh), osiągając 96,6% na benchmarku Big Bench Audio przy ustawieniu "high".
- Ceny nowych modeli wynoszą 32-64 USD za milion tokenów audio dla GPT-Realtime-2, 0,034 USD za minutę dla tłumacza oraz 0,017 USD za minutę dla transkrypcji strumieniowej.
Trzy modele, trzy różne zadania
OpenAI nie próbuje tutaj robić jednego modelu do wszystkiego. Tym razem firma poszła w specjalizację, co samo w sobie jest interesującą zmianą podejścia.
Mamy więc:
- GPT-Realtime-2 – flagowy model agentów głosowych z rozumowaniem klasy GPT-5
- GPT-Realtime-Translate – dedykowany model do tłumaczenia mowy na żywo
- GPT-Realtime-Whisper – strumieniowa transkrypcja mowy w czasie rzeczywistym
GPT-Realtime-2 – wreszcie głos, który myśli
To zdecydowanie najciekawsza część całego ogłoszenia. GPT-Realtime-2 dostał okno kontekstowe powiększone z 32K do 128K tokenów, czyli można prowadzić znacznie dłuższe rozmowy bez ryzyka, że model „zapomni” o czym rozmawialiśmy pięć minut temu.
Jeden z kluczowych problemów poprzednich modeli głosowych – nieznośna cisza podczas przetwarzania złożonych zapytań – został tu wprost zaadresowany. Model może teraz wypowiadać krótkie frazy podtrzymujące („let me check that”, „one moment while I look into it”), a jednocześnie wykonywać kilka narzędzi równolegle i na bieżąco komentować co robi. Koniec z tą martwą przestrzenią, która sprawia, że użytkownik myśli, że system się zawiesił.
Ciekawym rozwiązaniem jest pięciopoziomowa regulacja intensywności rozumowania: minimal, low, medium, high i xhigh. Domyślnie ustawiono „low” – żeby nie generować opóźnień przy prostych zapytaniach. Cięższe zadania mogą sięgnąć po więcej mocy obliczeniowej. To daje deweloperom realną kontrolę nad kompromisem między latencją a jakością odpowiedzi.
Model dodaje też kontrolę tonu. Może pozostać spokojny podczas rozwiązywania problemów, przejść w tryb empatyczny gdy użytkownik jest sfrustrowany, i stać się bardziej pozytywny po pomyślnym zakończeniu zadania. Brzmi jak marketingowy pokaz slajdów, ale w praktyce to duża różnica w odbiorze asystenta głosowego.
Na benchmarkach wyniki są wyraźne: GPT-Realtime-2 z ustawieniem „high” osiąga 96,6% na Big Bench Audio wobec 81,4% dla poprzedniej wersji GPT-Realtime-1.5. Wariant „xhigh” osiąga 48,5% na Audio MultiChallenge przy 34,7% dla poprzednika.
Cena: 32 USD za 1 milion tokenów audio na wejściu i 64 USD za 1 milion tokenów na wyjściu.
Głos ma cenę – i pytanie o granice
Nowe modele głosowe OpenAI to krok, który trudno zbagatelizować. Strumieniowe tłumaczenie w ponad 70 językach i reasoning bezpośrednio w warstwie audio otwierają możliwości, które jeszcze rok temu wymagały złożonych pipeline’ów sklejonych z kilku różnych narzędzi. Ale warto zadać sobie jedno pytanie: czy dostarczanie coraz bardziej „ludzkich” modeli głosowych – z kontrolą tonu, empatią, naturalnym przepływem rozmowy – to wyłącznie technologiczny postęp? Bo jednocześnie budujemy systemy, które mogą być świadomie projektowane tak, żeby zacierać granicę między człowiekiem a maszyną. Regulacje dotyczące ujawniania tożsamości AI w rozmowach głosowych są wciąż daleko w tyle za możliwościami technologii. I to jest temat, o którym branża powinna rozmawiać głośniej, zanim narzuci go nam prawo lub głośny skandal.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
GPT-Realtime-Translate – tłumacz na żywo dla ponad 70 języków
GPT-Realtime-Translate to model z jednym zadaniem: mowa wchodzi w jednym języku, wychodzi w innym. OpenAI obsługuje ponad 70 języków wejściowych i 13 języków wyjściowych, w tempie nadążającym za rozmówcą.
To nie jest asystent konwersacyjny. Nie zapyta „czy masz jakieś pytania”, nie wywoła funkcji zewnętrznej, nie zapamięta kontekstu między sesjami. Robi jedno, ale robi to szybko i na żywo. Dla bilingual customer support, tłumaczeń na konferencjach czy transmisji na żywo – to odpowiednie narzędzie.
Cena: 0,034 USD za minutę.
GPT-Realtime-Whisper – transkrypcja, która nie czeka
Oryginalny Whisper był zaprojektowany do pracy na gotowych fragmentach audio. GPT-Realtime-Whisper to jego strumieniowy odpowiednik – transkrybuje na bieżąco, słowo po słowie, bez czekania na koniec wypowiedzi.
Deweloperzy mogą regulować latencję: niższe opóźnienie generuje wcześniej częściowy tekst, wyższe poprawia jakość finalnej transkrypcji. Zastosowania są oczywiste: napisy na żywo do transmisji, notatki ze spotkań pisane w trakcie rozmowy, systemy rozpoznawania mowy wymagające ciągłego rozumienia.
Cena: 0,017 USD za minutę.
Nowe głosy i trzy tryby sesji
Przy okazji pojawiły się dwa nowe głosy w Realtime API: Cedar i Marin, dostępne wyłącznie z nowymi modelami.
Deweloperzy wybierają teraz między trzema typami sesji:
- voice-agent – asystent odpowiadający użytkownikowi
- translation – interpreter mowy
- transcription – tekst z audio, bez generowania odpowiedzi przez model
Wszystkie trzy modele są dostępne w API od razu i można je przetestować w OpenAI Playground. Realtime API jest od dziś oficjalnie poza fazą beta.
