Gemini Omni: Google testuje narzędzie, które rozmawia z tobą o twoim filmie i poprawia go na żywo

Autor i odp. redakcyjna: Marcin Grześkowiak | Data: 14 czerwca 2026, godz. 17:13 | Czas czytania: około 6 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Wyobraź sobie, że robisz zdjęcie w samochodzie, a chwilę później widzisz siebie śpiewającego hit z Bollywood, z włosami unoszonymi przez wiatr. Brzmi jak scena z filmu science fiction? Google właśnie udowodnił, że to już nie fikcja, a funkcja dostępna w aplikacji.

Kluczowe fakty:

Gemini Omni Flash zadebiutował 19 maja 2026 roku i jest dostępny w aplikacji Gemini, Google Flow oraz YouTube Shorts – dla subskrybentów planów AI Plus, Pro i Ultra w pełnym zakresie, a dla darmowych użytkowników w ograniczonej wersji.
Model przyjmuje jednocześnie wiele typów danych wejściowych – tekst, zdjęcia, dźwięk i wideo – łącząc je w jeden spójny materiał wyjściowy.
W odróżnieniu od wcześniejszych modeli wideo, takich jak Veo 3, Omni umożliwia edycję konwersacyjną, pozwalając użytkownikowi wprowadzać zmiany do wygenerowanego klipu bez konieczności tworzenia całego projektu od nowa.

Spis treści:

Gemini Omni, zaprezentowane podczas Google I/O 2026, zaczyna trafiać do użytkowników i, sądząc po pierwszych testach, robi naprawdę duże wrażenie. Nie chodzi tu o kolejny generator wideo z tekstu, którego efekty trzeba akceptować bez możliwości negocjacji. Omni działa inaczej. Rozmawiasz z nim. Poprawiasz. Zmieniasz. I to wszystko bez ponownego wgrywania materiału.

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Co właściwie jest pod maską

Pierwszy model z rodziny, Gemini Omni Flash, wystartował 19 maja 2026 roku i trafił równolegle do aplikacji Gemini, Google Flow oraz YouTube Shorts. Dla osób płacących za Google AI Plus, Pro i Ultra dostęp jest już aktywny, a darmowi użytkownicy mogą skorzystać z ograniczonej wersji w YouTube Shorts i YouTube Create.

Sama nazwa „Omni” nie jest przypadkowa. Model przyjmuje praktycznie każdą kombinację danych wejściowych, tekst, zdjęcia, dźwięk, gotowe wideo, i miesza je w jeden spójny output. To podejście Google nazywa kontynuacją sukcesu Nano Banana, swojego modelu do edycji obrazów, tylko przeniesionego na grunt wideo.

Brzmi znajomo? Bo faktycznie, Google od dawna idzie tą drogą, tylko teraz robi krok dalej.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Rozmowa, nie prompt

Tu jest największa zmiana, i moim zdaniem to ona zdecyduje, czy Omni stanie się czymś więcej niż ciekawostką na premierę.

Dotychczasowe modele wideo, łącznie z Veo 3 i Veo 3.1 (które Google wypuściło jeszcze w kwietniu), działały na zasadzie „jeden mega-prompt i módl się”. Chcesz zmienić kolor światła w scenie? Pisz wszystko od nowa. Chcesz dodać postać? Też od nowa.

Omni ma to rozwiązać przez edycję konwersacyjną. Recenzent Android Police opisuje, jak po wygenerowaniu klipu o działaniu matrycy w aparacie smartfona, poprosił model o drobną korektę: szerszą przysłonę i bardziej kinowe, chłodne światło. Zmiana zaszła w całej scenie, natychmiast, bez utraty wcześniejszych ustaleń.

Ale prawdziwy test był inny. Wgrał swoje zdjęcie z samochodu i napisał coś w stylu: ożyw tę osobę, niech śpiewa piosenkę z Bollywood, a włosy mają się poruszać jak na wietrze. Model nie tylko to wykonał, ale dodał ruch drzew za oknem, ruch ulicy, całe tło ożyło. A potem, kiedy poprosił o zmianę utworu i lekkie „wyszczuplenie” twarzy, model zrobił to w kolejnym kroku, bez zaczynania od zera.

Czy to działa idealnie zawsze? Tu już recenzje są bardziej ostrożne. CineD zauważa, że utrzymanie spójności postaci i logiki scen przez wiele tur edycji to jedna z najsłabszych stron tej kategorii narzędzi do dziś, i pyta, czy obietnica Google sprawdzi się poza kilkoma pierwszymi poprawkami.

Piszę to z mieszanymi uczuciami, bo z jednej strony naprawdę trudno nie poczuć ekscytacji. Edycja wideo przez rozmowę to coś, na co czekałem od dawna, bo dotychczasowe narzędzia AI do wideo (nawet bardzo dobre, jak Veo) miały jedną fundamentalną wadę: każda poprawka to była loteria od zera. Jeśli Omni faktycznie pamięta kontekst poprzednich zmian i zachowuje ciągłość postaci, to to nie jest kosmetyczna nowość, to zmiana sposobu pracy z materiałem wideo w ogóle.

Z drugiej strony patrzę na to z perspektywy redakcji zajmującej się AI i mam pytania, na które nikt jeszcze nie odpowiedział. Limit 10 sekund na klip, podany jako „decyzja projektowa, nie ograniczenie techniczne”, brzmi bardzo wygodnie dla Google. Czy to faktycznie kwestia jakości, czy raczej kontroli kosztów obliczeniowych i ryzyka? Bo 10 sekund to akurat tyle, żeby zrobić wirusowy klip na TikToka, a za mało, żeby stworzyć cokolwiek profesjonalnego.

Druga sprawa, awatary. Google chwali się, że tworzenie cyfrowego klona głosu i twarzy wymaga nagrania siebie czytającego liczby, jako „wbudowane zabezpieczenie przed deepfake’ami”. To dobrze, że taka bariera istnieje. Ale czy to wystarczy? Bo jeśli ktoś raz nagra taki materiał, a potem dane wyciekną albo zostaną użyte bez zgody, to mamy gotowy, zweryfikowany przez Google szablon do tworzenia fałszywek tej osoby. Watermark SynthID to krok w dobrą stronę, ale przypomnę, że po wycieku klipów z Seedance 2.0 z podobiznami Toma Cruise’a czy Brada Pitta cała branża rozrywkowa zareagowała alarmem. SAG-AFTRA, Motion Picture Association i Disney nie kryły oburzenia. Google twierdzi, że stawia na transparentność, i pewnie faktycznie tak jest, ale to nie zmienia faktu, że narzędzie tej klasy w rękach milionów userów to zupełnie inna skala ryzyka niż laboratoryjny prototyp.

Więc tak, jestem pod wrażeniem. Ale będę uważnie patrzył, co się stanie, kiedy Omni wyjdzie z fazy „wow, zobaczcie co umie” i trafi do codziennego użytku setek milionów ludzi na całym świecie.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Edukacja, typografia i fizyka, które wcale nie muszą być nudne

Ciekawy jest też kierunek, w który Google celuje poza viralowymi klipami. Omni ma świetnie radzić sobie z treściami edukacyjnymi, łącząc generowanie wideo z wiedzą Gemini o historii, fizyce czy biologii.

W praktyce oznacza to na przykład animowane wyjaśnienia działania zwijania białek w stylu stop-motion czy demonstracje praw fizyki, kulka spadająca po torze, skrzypek grający utwór z realistycznym ruchem strun i smyczka. Recenzent Android Police testował też złożoną animację typograficzną, coś, co normalnie wymaga After Effects i tygodni nauki, a model wykonał poprawnie przy pierwszej próbie, synchronizując dźwięk z animacją w kilka sekund.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

Brzmi jak marketingowa bajka? Pewnie trochę tak. Ale jeśli choćby połowa z tego działa tak, jak opisują pierwsi testerzy, to dla nauczycieli, twórców kursów online czy małych studiów produkcyjnych to może być realna zmiana kosztów produkcji.

Co dalej

Na razie Omni Flash generuje tylko wideo, ale Google zapowiedziało, że z czasem model obsłuży też output w postaci obrazów i audio. Obecnie ścieżka dźwiękowa ogranicza się do głosu, narracji, brak możliwości generowania własnej muzyki czy efektów dźwiękowych.

W kolejnych tygodniach Omni ma trafić też do deweloperów i klientów enterprise przez API. To może być moment, w którym zobaczymy, jak narzędzie radzi sobie poza kontrolowanymi demami, w realnych pipeline’ach produkcyjnych agencji marketingowych i studiów wideo.

Jedno jest pewne. Konkurencja, OpenAI, Runway, ByteDance ze swoim Seedance, nie będzie czekać. Wyścig o to, kto pierwszy zrobi z edycji wideo coś tak prostego jak rozmowa z asystentem, właśnie wchodzi w nową fazę.

Oceń artykuł

Średnia: 4.9 (16 ocen)

Gemini Omni: Google testuje narzędzie, które rozmawia z tobą o twoim filmie i poprawia go na żywo

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Gemini Omni: Google testuje narzędzie, które rozmawia z tobą o twoim filmie i poprawia go na żywo

Kluczowe fakty:

Co właściwie jest pod maską

Rozmowa, nie prompt

Edukacja, typografia i fizyka, które wcale nie muszą być nudne

Co dalej

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas