Google ogłosiło wczoraj premierę Gemini 3.5 Live Translate, nowego modelu audio do tłumaczenia mowy w czasie zbliżonym do rzeczywistego. Brzmi znajomo? Bo podobne obietnice słyszymy od lat. Ale tym razem coś jest wyraźnie inaczej.
Kluczowe fakty:
- Google ogłosiło premierę Gemini 3.5 Live Translate – modelu audio do tłumaczenia mowy w czasie zbliżonym do rzeczywistego, obsługującego ponad 70 języków, który zachowuje intonację, tempo i barwę głosu mówcy.
- Model działa na każdym smartfonie z Androidem lub iOS bez potrzeby posiadania specjalnego sprzętu, a zbudowany jest na bazie Gemini 3 Pro z oknem kontekstu do 128K tokenów dla audio.
- Dostęp do technologii jest wdrażany trójwarstwowo: deweloperzy mogą korzystać z Gemini Live API i Google AI Studio już od teraz, firmy otrzymają ją w Google Meet w prywatnym preview, a wszyscy użytkownicy mają dostęp przez aplikację Google Translate na Androidzie i iOS.
Model obsługuje ponad 70 języków, działa bez przerw między zdaniami i, co ważne, zachowuje intonację, tempo i barwę głosu mówcy. Koniec z robotycznym głosem przyklejonym do ludzkiej rozmowy. I koniec z tym irytującym modelem „turn-by-turn”, gdzie system czeka na zakończenie wypowiedzi, żeby w ogóle zacząć tłumaczenie. Gemini 3.5 Live Translate pracuje ciągle, zostając zaledwie kilka sekund za mówiącym.
Oficjalne demo jest dostępne na YouTube:
Skąd to się wzięło
Dwadzieścia lat. Tyle mija w tym roku od momentu, gdy Google zaczęło eksperymenty z tłumaczeniem maszynowym. Dziś przez produkty firmy tłumaczy się ponad bilion słów miesięcznie dla miliardów użytkowników. To jest skala, o której większość ludzi nie ma pojęcia.
Ale przez długi czas tłumaczenie głosowe w czasie rzeczywistym było skuć do konkretnego sprzętu. Pixel, konkretne słuchawki Google, właściwe ustawienia. Zamknięty ekosystem dla zamkniętego grona użytkowników. Gemini 3.5 Live Translate oficjalnie rozkłada te mury. Działa na każdym smartfonie z Androidem lub iOS, bez specjalnego sprzętu.
Warto też wiedzieć, na czym ten model stoi technicznie: zbudowany jest na bazie Gemini 3 Pro, z oknem kontekstu do 128K tokenów dla audio. Nie jest to jakiś oddzielny, wyspecjalizowany model tłumaczący, ale pełnoprawny element rodziny Gemini 3.5.
Gdzie już działa i dla kogo
Rollout jest trójwarstwowy:
- Deweloperzy mają dostęp przez Gemini Live API i Google AI Studio (publiczne preview już od dziś)
- Firmy korzystające z Google Workspace dostaną to w Google Meet w prywatnym preview w tym miesiącu, z szerokim wdrożeniem później w tym roku
- Wszyscy mogą już korzystać z funkcji Live Translate w aplikacji Google Translate na Androidzie i iOS, wystarczą dowolne słuchawki
W Google Meet zmiana jest szczególnie odczuwalna. Dotychczas tłumaczenie w czasie rzeczywistym obsługiwało zaledwie 5 języków i działało wyłącznie w parach obejmujących angielski. Teraz: ponad 70 języków i ponad 2000 możliwych kombinacji językowych w jednym spotkaniu. To jakościowy przeskok.
Jeden szczegół, który mnie zatrzymał
Na Androidzie pojawia się dodatkowo „listening mode”, tryb, w którym tłumaczenie słyszysz bezpośrednio przez głośnik słuchawkowy telefonu, tak jak przy normalnej rozmowie. Przystawiasz telefon do ucha i słyszysz przekład. Bez słuchawek, bez konfiguracji. To brzmi jak drobiazg, ale wyobraź sobie doktora przyjmującego pacjenta mówiącego innym językiem. Albo urzędnika na granicy. Albo turystę na targu.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Obserwuję kolejne podejścia do tłumaczenia głosowego w czasie rzeczywistym od kilku lat i po raz pierwszy mam wrażenie, że coś naprawdę się przesunęło. Wcześniejsze systemy Google wymagały specyficznego sprzętu i działały w wąskim gronie języków, co skutecznie ograniczało ich praktyczne zastosowanie. Teraz mamy model oparty na Gemini 3 Pro, działający na dowolnym smartfonie, z zachowaniem barwy głosu i intonacji. To brzmi obiecująco. Ale mam pytania, na które nie znam jeszcze odpowiedzi: jak model radzi sobie z dialektami, slangiem, językami z niską liczbą zasobów treningowych? Co z dokładnością w kontekstach medycznych lub prawnych, gdzie jedno słowo może zmienić sens dokumentu lub diagnozy? I kwestia prywatności, bo ciągłe przetwarzanie mowy w chmurze to nie jest neutralna sprawa dla użytkowników, którzy rozmawiają o wrażliwych sprawach. Potencjał jest ogromny, ale diabeł będzie tkwił w szczegółach.
Kto to testuje i z jaką skalą
Grab, azjatycka super-aplikacja do przewozów, już testuje model do komunikacji między kierowcami a pasażerami. Liczba tamtejszych połączeń głosowych to ponad 10 milionów miesięcznie. To nie jest pilot z setką użytkowników. To walidacja na prawdziwym, gigantycznym ruchu.
Do ekosystemu deweloperskiego dołączyły platformy Agora, Fishjam, LiveKit, Pipecat i Vision Agents. Integracja przez Gemini Live API pozwala im na budowanie aplikacji do tłumaczenia głosowego bez konieczności tworzenia własnej infrastruktury strumieniowania. Tłumaczenie staje się warstwą, z której inne produkty po prostu korzystają, tak jak korzysta się z przechowywania plików w chmurze.
SynthID, bo bezpieczeństwo też tutaj ma znaczenie
Wszystkie dźwięki generowane przez model są znakowane niewidocznym watermarkiem SynthID. Znak jest wbudowany bezpośrednio w sygnał audio i pozostaje niewykrywalny dla ucha, ale możliwy do zidentyfikowania przez odpowiednie narzędzia. Google argumentuje to koniecznością zapobiegania dezinformacji i zachowania możliwości odróżnienia treści generowanej przez AI od oryginalnej mowy ludzkiej.
Szczerze, to dobra decyzja. Modele głosowe generujące realistyczne tłumaczenia cudzych wypowiedzi z zachowaniem oryginalnego brzmienia to też potencjalne narzędzie do manipulacji. Watermarking nie rozwiązuje wszystkich problemów, ale jest sygnałem, że Google myśli o tym chociaż trochę.
Tak czy inaczej, jeśli masz telefon z Androidem lub iOS i pobierzesz najnowszą wersję Google Translate, możesz to sprawdzić już teraz.
