Google kończy z barierami językowymi w czasie rzeczywistym. Gemini 3.5 Live Translate właśnie wylądował

Co nowego w AI

Google kończy z barierami językowymi w czasie rzeczywistym. Gemini 3.5 Live Translate właśnie wylądował

Autor: Natalia Kaszubowska2026-06-10 / Godz. 04:184 Minuty czytania

Google kończy z barierami językowymi w czasie rzeczywistym. Gemini 3.5 Live Translate właśnie wylądował

Autor i odp. redakcyjna: Natalia Kaszubowska | Data: 10 czerwca 2026, godz. 04:18 | Czas czytania: około 5 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Google ogłosiło wczoraj premierę Gemini 3.5 Live Translate, nowego modelu audio do tłumaczenia mowy w czasie zbliżonym do rzeczywistego. Brzmi znajomo? Bo podobne obietnice słyszymy od lat. Ale tym razem coś jest wyraźnie inaczej.

Kluczowe fakty:

Google ogłosiło premierę Gemini 3.5 Live Translate – modelu audio do tłumaczenia mowy w czasie zbliżonym do rzeczywistego, obsługującego ponad 70 języków, który zachowuje intonację, tempo i barwę głosu mówcy.
Model działa na każdym smartfonie z Androidem lub iOS bez potrzeby posiadania specjalnego sprzętu, a zbudowany jest na bazie Gemini 3 Pro z oknem kontekstu do 128K tokenów dla audio.
Dostęp do technologii jest wdrażany trójwarstwowo: deweloperzy mogą korzystać z Gemini Live API i Google AI Studio już od teraz, firmy otrzymają ją w Google Meet w prywatnym preview, a wszyscy użytkownicy mają dostęp przez aplikację Google Translate na Androidzie i iOS.

Spis treści:

Model obsługuje ponad 70 języków, działa bez przerw między zdaniami i, co ważne, zachowuje intonację, tempo i barwę głosu mówcy. Koniec z robotycznym głosem przyklejonym do ludzkiej rozmowy. I koniec z tym irytującym modelem „turn-by-turn”, gdzie system czeka na zakończenie wypowiedzi, żeby w ogóle zacząć tłumaczenie. Gemini 3.5 Live Translate pracuje ciągle, zostając zaledwie kilka sekund za mówiącym.

Oficjalne demo jest dostępne na YouTube:

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Skąd to się wzięło

Dwadzieścia lat. Tyle mija w tym roku od momentu, gdy Google zaczęło eksperymenty z tłumaczeniem maszynowym. Dziś przez produkty firmy tłumaczy się ponad bilion słów miesięcznie dla miliardów użytkowników. To jest skala, o której większość ludzi nie ma pojęcia.

Ale przez długi czas tłumaczenie głosowe w czasie rzeczywistym było skuć do konkretnego sprzętu. Pixel, konkretne słuchawki Google, właściwe ustawienia. Zamknięty ekosystem dla zamkniętego grona użytkowników. Gemini 3.5 Live Translate oficjalnie rozkłada te mury. Działa na każdym smartfonie z Androidem lub iOS, bez specjalnego sprzętu.

Warto też wiedzieć, na czym ten model stoi technicznie: zbudowany jest na bazie Gemini 3 Pro, z oknem kontekstu do 128K tokenów dla audio. Nie jest to jakiś oddzielny, wyspecjalizowany model tłumaczący, ale pełnoprawny element rodziny Gemini 3.5.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Gdzie już działa i dla kogo

Rollout jest trójwarstwowy:

Deweloperzy mają dostęp przez Gemini Live API i Google AI Studio (publiczne preview już od dziś)
Firmy korzystające z Google Workspace dostaną to w Google Meet w prywatnym preview w tym miesiącu, z szerokim wdrożeniem później w tym roku
Wszyscy mogą już korzystać z funkcji Live Translate w aplikacji Google Translate na Androidzie i iOS, wystarczą dowolne słuchawki

W Google Meet zmiana jest szczególnie odczuwalna. Dotychczas tłumaczenie w czasie rzeczywistym obsługiwało zaledwie 5 języków i działało wyłącznie w parach obejmujących angielski. Teraz: ponad 70 języków i ponad 2000 możliwych kombinacji językowych w jednym spotkaniu. To jakościowy przeskok.

Jeden szczegół, który mnie zatrzymał

Na Androidzie pojawia się dodatkowo „listening mode”, tryb, w którym tłumaczenie słyszysz bezpośrednio przez głośnik słuchawkowy telefonu, tak jak przy normalnej rozmowie. Przystawiasz telefon do ucha i słyszysz przekład. Bez słuchawek, bez konfiguracji. To brzmi jak drobiazg, ale wyobraź sobie doktora przyjmującego pacjenta mówiącego innym językiem. Albo urzędnika na granicy. Albo turystę na targu.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:

Obserwuję kolejne podejścia do tłumaczenia głosowego w czasie rzeczywistym od kilku lat i po raz pierwszy mam wrażenie, że coś naprawdę się przesunęło. Wcześniejsze systemy Google wymagały specyficznego sprzętu i działały w wąskim gronie języków, co skutecznie ograniczało ich praktyczne zastosowanie. Teraz mamy model oparty na Gemini 3 Pro, działający na dowolnym smartfonie, z zachowaniem barwy głosu i intonacji. To brzmi obiecująco. Ale mam pytania, na które nie znam jeszcze odpowiedzi: jak model radzi sobie z dialektami, slangiem, językami z niską liczbą zasobów treningowych? Co z dokładnością w kontekstach medycznych lub prawnych, gdzie jedno słowo może zmienić sens dokumentu lub diagnozy? I kwestia prywatności, bo ciągłe przetwarzanie mowy w chmurze to nie jest neutralna sprawa dla użytkowników, którzy rozmawiają o wrażliwych sprawach. Potencjał jest ogromny, ale diabeł będzie tkwił w szczegółach.

Kto to testuje i z jaką skalą

Grab, azjatycka super-aplikacja do przewozów, już testuje model do komunikacji między kierowcami a pasażerami. Liczba tamtejszych połączeń głosowych to ponad 10 milionów miesięcznie. To nie jest pilot z setką użytkowników. To walidacja na prawdziwym, gigantycznym ruchu.

Do ekosystemu deweloperskiego dołączyły platformy Agora, Fishjam, LiveKit, Pipecat i Vision Agents. Integracja przez Gemini Live API pozwala im na budowanie aplikacji do tłumaczenia głosowego bez konieczności tworzenia własnej infrastruktury strumieniowania. Tłumaczenie staje się warstwą, z której inne produkty po prostu korzystają, tak jak korzysta się z przechowywania plików w chmurze.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

SynthID, bo bezpieczeństwo też tutaj ma znaczenie

Wszystkie dźwięki generowane przez model są znakowane niewidocznym watermarkiem SynthID. Znak jest wbudowany bezpośrednio w sygnał audio i pozostaje niewykrywalny dla ucha, ale możliwy do zidentyfikowania przez odpowiednie narzędzia. Google argumentuje to koniecznością zapobiegania dezinformacji i zachowania możliwości odróżnienia treści generowanej przez AI od oryginalnej mowy ludzkiej.

Szczerze, to dobra decyzja. Modele głosowe generujące realistyczne tłumaczenia cudzych wypowiedzi z zachowaniem oryginalnego brzmienia to też potencjalne narzędzie do manipulacji. Watermarking nie rozwiązuje wszystkich problemów, ale jest sygnałem, że Google myśli o tym chociaż trochę.

Tak czy inaczej, jeśli masz telefon z Androidem lub iOS i pobierzesz najnowszą wersję Google Translate, możesz to sprawdzić już teraz.

Oceń artykuł

Średnia: 4.8 (14 ocen)

Poprzedni artykułClaude Fable 5 oficjalnie dostępny: Anthropic otwiera drzwi do klasy Mythos, ale z zabezpieczeniami

Następny artykuł WhatsApp i Meta AI: panika napędza się sama, ale obawy nie są zupełnie bez podstaw

Natalia Kaszubowska

Natalia Kaszubowska - redaktorka i dziennikarka technologiczna w AIPORT.pl. Autorka ponad 200 artykułów newsowych i poradników dotyczących sztucznej inteligencji. Specjalizuje się w bieżących wydarzeniach ze światowego rynku AI oraz praktycznych poradnikach wdrożeniowych dla firm i użytkowników indywidualnych. Śledzi globalne trendy AI i przekłada je na konkretne wskazówki dla polskich czytelników.

Skomentuj artykuł

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas

AIPORT.pl to portal poświęcony najnowszym informacjom, narzędziom i trendom ze świata sztucznej inteligencji. Codziennie publikujemy wyselekcjonowane newsy, analizy oraz praktyczne omówienia rozwiązań AI dla biznesu i twórców. Łączymy aktualności z kontekstem i komentarzem, aby ułatwiać zrozumienie zmian technologicznych. Naszym celem jest dostarczanie rzetelnej, przystępnej wiedzy o tym, jak AI wpływa na rynek i codzienną pracę.

© 2026 AIport.pl – Praktycznie o AI.

Dbamy o prywatność 🍪

Korzystamy z cookie, aby zapewnić prawidłowe działanie strony, analizować ruch i treści. "Akceptując" zgadzasz się z Polityką prywatności.