Wyobraź sobie, że robisz zdjęcie w samochodzie, a chwilę później widzisz siebie śpiewającego hit z Bollywood, z włosami unoszonymi przez wiatr. Brzmi jak scena z filmu science fiction? Google właśnie udowodnił, że to już nie fikcja, a funkcja dostępna w aplikacji.
Kluczowe fakty:
- Gemini Omni Flash zadebiutował 19 maja 2026 roku i jest dostępny w aplikacji Gemini, Google Flow oraz YouTube Shorts – dla subskrybentów planów AI Plus, Pro i Ultra w pełnym zakresie, a dla darmowych użytkowników w ograniczonej wersji.
- Model przyjmuje jednocześnie wiele typów danych wejściowych – tekst, zdjęcia, dźwięk i wideo – łącząc je w jeden spójny materiał wyjściowy.
- W odróżnieniu od wcześniejszych modeli wideo, takich jak Veo 3, Omni umożliwia edycję konwersacyjną, pozwalając użytkownikowi wprowadzać zmiany do wygenerowanego klipu bez konieczności tworzenia całego projektu od nowa.
Gemini Omni, zaprezentowane podczas Google I/O 2026, zaczyna trafiać do użytkowników i, sądząc po pierwszych testach, robi naprawdę duże wrażenie. Nie chodzi tu o kolejny generator wideo z tekstu, którego efekty trzeba akceptować bez możliwości negocjacji. Omni działa inaczej. Rozmawiasz z nim. Poprawiasz. Zmieniasz. I to wszystko bez ponownego wgrywania materiału.
Co właściwie jest pod maską
Pierwszy model z rodziny, Gemini Omni Flash, wystartował 19 maja 2026 roku i trafił równolegle do aplikacji Gemini, Google Flow oraz YouTube Shorts. Dla osób płacących za Google AI Plus, Pro i Ultra dostęp jest już aktywny, a darmowi użytkownicy mogą skorzystać z ograniczonej wersji w YouTube Shorts i YouTube Create.
Sama nazwa „Omni” nie jest przypadkowa. Model przyjmuje praktycznie każdą kombinację danych wejściowych, tekst, zdjęcia, dźwięk, gotowe wideo, i miesza je w jeden spójny output. To podejście Google nazywa kontynuacją sukcesu Nano Banana, swojego modelu do edycji obrazów, tylko przeniesionego na grunt wideo.
Brzmi znajomo? Bo faktycznie, Google od dawna idzie tą drogą, tylko teraz robi krok dalej.
Rozmowa, nie prompt
Tu jest największa zmiana, i moim zdaniem to ona zdecyduje, czy Omni stanie się czymś więcej niż ciekawostką na premierę.
Dotychczasowe modele wideo, łącznie z Veo 3 i Veo 3.1 (które Google wypuściło jeszcze w kwietniu), działały na zasadzie „jeden mega-prompt i módl się”. Chcesz zmienić kolor światła w scenie? Pisz wszystko od nowa. Chcesz dodać postać? Też od nowa.
Omni ma to rozwiązać przez edycję konwersacyjną. Recenzent Android Police opisuje, jak po wygenerowaniu klipu o działaniu matrycy w aparacie smartfona, poprosił model o drobną korektę: szerszą przysłonę i bardziej kinowe, chłodne światło. Zmiana zaszła w całej scenie, natychmiast, bez utraty wcześniejszych ustaleń.
Ale prawdziwy test był inny. Wgrał swoje zdjęcie z samochodu i napisał coś w stylu: ożyw tę osobę, niech śpiewa piosenkę z Bollywood, a włosy mają się poruszać jak na wietrze. Model nie tylko to wykonał, ale dodał ruch drzew za oknem, ruch ulicy, całe tło ożyło. A potem, kiedy poprosił o zmianę utworu i lekkie „wyszczuplenie” twarzy, model zrobił to w kolejnym kroku, bez zaczynania od zera.
Czy to działa idealnie zawsze? Tu już recenzje są bardziej ostrożne. CineD zauważa, że utrzymanie spójności postaci i logiki scen przez wiele tur edycji to jedna z najsłabszych stron tej kategorii narzędzi do dziś, i pyta, czy obietnica Google sprawdzi się poza kilkoma pierwszymi poprawkami.
Piszę to z mieszanymi uczuciami, bo z jednej strony naprawdę trudno nie poczuć ekscytacji. Edycja wideo przez rozmowę to coś, na co czekałem od dawna, bo dotychczasowe narzędzia AI do wideo (nawet bardzo dobre, jak Veo) miały jedną fundamentalną wadę: każda poprawka to była loteria od zera. Jeśli Omni faktycznie pamięta kontekst poprzednich zmian i zachowuje ciągłość postaci, to to nie jest kosmetyczna nowość, to zmiana sposobu pracy z materiałem wideo w ogóle.
Z drugiej strony patrzę na to z perspektywy redakcji zajmującej się AI i mam pytania, na które nikt jeszcze nie odpowiedział. Limit 10 sekund na klip, podany jako „decyzja projektowa, nie ograniczenie techniczne”, brzmi bardzo wygodnie dla Google. Czy to faktycznie kwestia jakości, czy raczej kontroli kosztów obliczeniowych i ryzyka? Bo 10 sekund to akurat tyle, żeby zrobić wirusowy klip na TikToka, a za mało, żeby stworzyć cokolwiek profesjonalnego.
Druga sprawa, awatary. Google chwali się, że tworzenie cyfrowego klona głosu i twarzy wymaga nagrania siebie czytającego liczby, jako „wbudowane zabezpieczenie przed deepfake’ami”. To dobrze, że taka bariera istnieje. Ale czy to wystarczy? Bo jeśli ktoś raz nagra taki materiał, a potem dane wyciekną albo zostaną użyte bez zgody, to mamy gotowy, zweryfikowany przez Google szablon do tworzenia fałszywek tej osoby. Watermark SynthID to krok w dobrą stronę, ale przypomnę, że po wycieku klipów z Seedance 2.0 z podobiznami Toma Cruise’a czy Brada Pitta cała branża rozrywkowa zareagowała alarmem. SAG-AFTRA, Motion Picture Association i Disney nie kryły oburzenia. Google twierdzi, że stawia na transparentność, i pewnie faktycznie tak jest, ale to nie zmienia faktu, że narzędzie tej klasy w rękach milionów userów to zupełnie inna skala ryzyka niż laboratoryjny prototyp.
Więc tak, jestem pod wrażeniem. Ale będę uważnie patrzył, co się stanie, kiedy Omni wyjdzie z fazy „wow, zobaczcie co umie” i trafi do codziennego użytku setek milionów ludzi na całym świecie.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Edukacja, typografia i fizyka, które wcale nie muszą być nudne
Ciekawy jest też kierunek, w który Google celuje poza viralowymi klipami. Omni ma świetnie radzić sobie z treściami edukacyjnymi, łącząc generowanie wideo z wiedzą Gemini o historii, fizyce czy biologii.
W praktyce oznacza to na przykład animowane wyjaśnienia działania zwijania białek w stylu stop-motion czy demonstracje praw fizyki, kulka spadająca po torze, skrzypek grający utwór z realistycznym ruchem strun i smyczka. Recenzent Android Police testował też złożoną animację typograficzną, coś, co normalnie wymaga After Effects i tygodni nauki, a model wykonał poprawnie przy pierwszej próbie, synchronizując dźwięk z animacją w kilka sekund.
Brzmi jak marketingowa bajka? Pewnie trochę tak. Ale jeśli choćby połowa z tego działa tak, jak opisują pierwsi testerzy, to dla nauczycieli, twórców kursów online czy małych studiów produkcyjnych to może być realna zmiana kosztów produkcji.
Co dalej
Na razie Omni Flash generuje tylko wideo, ale Google zapowiedziało, że z czasem model obsłuży też output w postaci obrazów i audio. Obecnie ścieżka dźwiękowa ogranicza się do głosu, narracji, brak możliwości generowania własnej muzyki czy efektów dźwiękowych.
W kolejnych tygodniach Omni ma trafić też do deweloperów i klientów enterprise przez API. To może być moment, w którym zobaczymy, jak narzędzie radzi sobie poza kontrolowanymi demami, w realnych pipeline’ach produkcyjnych agencji marketingowych i studiów wideo.
Jedno jest pewne. Konkurencja, OpenAI, Runway, ByteDance ze swoim Seedance, nie będzie czekać. Wyścig o to, kto pierwszy zrobi z edycji wideo coś tak prostego jak rozmowa z asystentem, właśnie wchodzi w nową fazę.
