Na tegorocznym Google I/O gigant z Mountain View przestał opowiadać o przyszłości AI i po prostu ją pokazał. Gemini Omni i Gemini 3.5 Flash to nie zapowiedzi na „za kilka miesięcy” – to modele dostępne już teraz, a ich możliwości robią wrażenie nawet na obserwatorach przyzwyczajonych do szybkiego tempa w tej branży.
Kluczowe fakty:
- Google I/O 2026 odbyło się 19 maja, a zaprezentowane modele – Gemini Omni i Gemini 3.5 Flash – są dostępne natychmiastowo, a nie jako zapowiedzi na przyszłość.
- Gemini Omni to rodzina modeli łącząca wnioskowanie z generowaniem treści wideo, obsługująca na wejściu tekst, obrazy, dźwięk i klipy wideo, z możliwością iteracyjnej edycji w naturalnym języku z zachowaniem pełnego kontekstu rozmowy.
- Pierwszy model z rodziny, Gemini Omni Flash, pozwala aktualnie generować klipy o maksymalnej długości 10 sekund; Google deklaruje rozumienie przez model rzeczywistych praw fizycznych, takich jak grawitacja czy dynamika płynów.
Google I/O 2026 odbyło się 19 maja i wyraźnie sygnalizuje zmianę podejścia firmy. Zamiast ogólnych deklaracji o potencjale AI dostaliśmy konkretne narzędzia, wyniki benchmarków i natychmiastową dostępność. Coś w strategii Google’a zaczyna się układać w spójną całość.
Gemini Omni: koniec z edytowaniem na osi czasu
Gemini Omni to nowa rodzina modeli łącząca wnioskowanie z generowaniem treści. Punkt startowy to wideo. Model przyjmuje na wejściu dowolną kombinację tekstu, obrazów, dźwięku i istniejących klipów, a na wyjściu produkuje materiały wideo, które można modyfikować kolejnymi poleceniami w naturalnym języku.
Co wyróżnia Omni spośród poprzednich narzędzi wideo Google, takich jak Veo? Przede wszystkim iteracyjna edycja z pamięcią kontekstu. Każda instrukcja buduje się na poprzedniej, a model pamięta całą historię rozmowy. Postacie zachowują spójność między ujęciami, fizyka obiektów działa realistycznie. Można poprosić o zmianę kąta kamery w czwartej rundzie edycji, a scena z pierwszej tury pozostaje nienaruszona. Jeden z oficjalnych przykładów Google ilustruje to doskonale: skrzypaczka gra utwór, następnie zostaje przeniesiona do nowego otoczenia, skrzypce znikają, a kąt kamery się zmienia – bez żadnego „resetowania” sceny.
Istotna jest też kwestia fizyki. Google twierdzi, że Omni rozumie rzeczywiste prawa fizyczne: grawitację, energię kinetyczną, dynamikę płynów. Demo z kulką toczącą się po torze z reakcji łańcuchowej robi wrażenie właśnie dlatego, że większość modeli wideo nadal potyka się na takich zadaniach.
Pierwszy model z rodziny Omni to Gemini Omni Flash. Aktualnie klip może mieć maksymalnie 10 sekund. Google wyraźnie zaznacza, że to decyzja dotycząca wdrożenia, a nie ograniczenie techniczne modelu. Dla porównania, OpenAI Sora pozwala generować klipy do 60 sekund.
Każde wideo wygenerowane przez Omni nosi niewidoczny dla oka cyfrowy znak wodny SynthID. Przeżywa on typowe operacje, takie jak ponowne kodowanie czy zmiana rozdzielczości. Weryfikacja jest możliwa przez aplikację Gemini, Gemini w Chrome i wyszukiwarkę Google. Google celowo wstrzymuje funkcję edycji głosu i mowy. Oficjalnie z powodów bezpieczeństwa, a patrząc na kontekst roku wyborczego w kilku krajach, trudno się temu dziwić.
Komentarz redaktora
Patrzę na Gemini Omni i widzę coś, co może faktycznie zmienić sposób pracy twórców wideo. Edycja przez rozmowę, bez osi czasu i warstw, brzmi jak ulga dla każdego, kto kiedykolwiek spędził godziny na przeciąganiu klatek kluczowych. Ale jednocześnie nie mogę nie myśleć o tym, co oznacza powszechny dostęp do tak realistycznego generowania wideo. SynthID to krok w dobrym kierunku, lecz znak wodny nie rozwiąże problemu dezinformacji w sieci. Pytanie, które wisi w powietrzu, brzmi: co zrobimy, gdy narzędzia tego typu staną się standardem na YouTube Shorts, a odróżnienie prawdziwego materiału od syntetycznego będzie wymagało specjalistycznych narzędzi? Google ogranicza dziś edycję głosu, ale to nie jest rozwiązanie permanentne. Zegar tyka.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Gemini 3.5 Flash: szybciej, taniej, agentowo
Gemini 3.5 Flash to nowy model z rodziny Gemini 3.5, który Google pozycjonuje jako swój najmocniejszy model agentowy i do kodowania. Dostępny był od razu pierwszego dnia keynote’u, 19 maja.
Liczby mówią same za siebie. Na benchmarkach Google podaje:
- Terminal-Bench 2.1 (kodowanie): 76,2%
- GDPval-AA (zadania agentowe w rzeczywistym świecie): 1656 Elo
- MCP Atlas (wielokrokowe zadania z narzędziami): 83,6%
- CharXiv Reasoning (rozumowanie multimodalne): 84,2%
Wszystkie te wyniki przewyższają poprzedniego Gemini 3.1 Pro. Co ważniejsze, 3.5 Flash robi to cztery razy szybciej od porównywalnych modeli frontierowych pod względem generowania tokenów i przy niżej połowie ich kosztów. To kombinacja, która nie zdarza się często.
Model ma okno kontekstowe o długości miliona tokenów i obsługuje do 65 000 tokenów na wyjściu. Google dodało cztery poziomy „myślenia” (minimal, low, medium, high) oraz mechanizm zachowania myśli między turami rozmowy, co jest kluczowe przy długich zadaniach wieloetapowych.
Gemini Spark i agenty działające w tle
Jednym z najciekawszych zastosowań 3.5 Flash jest Gemini Spark, nowy osobisty agent AI dostępny dla subskrybentów AI Ultra w Stanach Zjednoczonych. Spark działa całą dobę, działa na dedykowanych maszynach wirtualnych Google Cloud i wykonuje zadania nawet gdy ekran urządzenia jest wyłączony. Głęboka integracja z Gmailem, Docs, Slides i pozostałymi narzędziami Workspace sprawia, że jest to coś więcej niż chatbot z dostępem do maila.
Przykład podawany przez Google? Spark tworzy listę przekąsek bez orzechów, a następnie sam dodaje je do koszyka w Instacart. Brzmi banalnie, ale skala implikacji jest zupełnie inna.
Google podało przy okazji I/O imponujące dane skali: ekosystem Gemini przetwarza ponad 3,2 biliarda tokenów miesięcznie, co stanowi siedmiokrotny wzrost rok do roku. Aplikacja Gemini ma ponad 900 milionów użytkowników miesięcznie i jest dostępna w ponad 230 krajach oraz 70 językach.
Search + Antigravity: interfejs generowany na bieżąco
Osobny wątek stanowi połączenie Gemini 3.5 Flash z platformą agentową Antigravity 2.0 w kontekście wyszukiwarki Google. Search zyskuje możliwość budowania interaktywnych wizualizacji, symulacji i niestandardowych interfejsów generowanych w locie dla konkretnego zapytania. Google planuje udostępnić te funkcje wszystkim użytkownikom wyszukiwarki latem 2026 roku, bezpłatnie.
Jeszcze dalej idą „information agents”, działające w tle i proaktywnie informujące o wybranych wydarzeniach, np. nowych kolekcjach sneakersów ulubionych sportowców. Funkcja trafi najpierw do subskrybentów Google AI Pro i Ultra.
Dostępność i cennik
Gemini Omni Flash jest już dostępny dla subskrybentów Google AI Plus (7,99 USD/miesiąc), Pro i Ultra przez aplikację Gemini oraz Google Flow. Użytkownicy YouTube Shorts i YouTube Create otrzymują dostęp bezpłatnie. Gemini 3.5 Flash jest dostępny przez Gemini API w AI Studio, Android Studio, platformę Gemini Enterprise Agent Platform oraz Gemini Enterprise.
W Europie Google stosuje tradycyjnie stopniowy rollout, bez podania konkretnej daty pełnej dostępności.
