Google pokazuje, co potrafi Gemini. Nowe modele zmieniają zasady gry w AI

Autor i odp. redakcyjna: Marcin Grześkowiak | Data: 30 maja 2026, godz. 07:00 | Czas czytania: około 6 minut | Tekst: redakcja z użyciem AI | Audio: wygenerowane przez AI zgodnie z polityką AI portalu.

Na tegorocznym Google I/O gigant z Mountain View przestał opowiadać o przyszłości AI i po prostu ją pokazał. Gemini Omni i Gemini 3.5 Flash to nie zapowiedzi na „za kilka miesięcy” – to modele dostępne już teraz, a ich możliwości robią wrażenie nawet na obserwatorach przyzwyczajonych do szybkiego tempa w tej branży.

Kluczowe fakty:

Google I/O 2026 odbyło się 19 maja, a zaprezentowane modele – Gemini Omni i Gemini 3.5 Flash – są dostępne natychmiastowo, a nie jako zapowiedzi na przyszłość.
Gemini Omni to rodzina modeli łącząca wnioskowanie z generowaniem treści wideo, obsługująca na wejściu tekst, obrazy, dźwięk i klipy wideo, z możliwością iteracyjnej edycji w naturalnym języku z zachowaniem pełnego kontekstu rozmowy.
Pierwszy model z rodziny, Gemini Omni Flash, pozwala aktualnie generować klipy o maksymalnej długości 10 sekund; Google deklaruje rozumienie przez model rzeczywistych praw fizycznych, takich jak grawitacja czy dynamika płynów.

Spis treści:

Google I/O 2026 odbyło się 19 maja i wyraźnie sygnalizuje zmianę podejścia firmy. Zamiast ogólnych deklaracji o potencjale AI dostaliśmy konkretne narzędzia, wyniki benchmarków i natychmiastową dostępność. Coś w strategii Google’a zaczyna się układać w spójną całość.

🗺️ Największy katalog firm AI w Polsce (467 firm)

Znajdź dostawcę, partnera lub narzędzie dla swojego biznesu, a jeśli prowadzisz firmę, która w swoim DNA ma AI, skorzystaj z możliwości bezpłatnego dodania swojej firmy.

Gemini Omni: koniec z edytowaniem na osi czasu

Gemini Omni to nowa rodzina modeli łącząca wnioskowanie z generowaniem treści. Punkt startowy to wideo. Model przyjmuje na wejściu dowolną kombinację tekstu, obrazów, dźwięku i istniejących klipów, a na wyjściu produkuje materiały wideo, które można modyfikować kolejnymi poleceniami w naturalnym języku.

Co wyróżnia Omni spośród poprzednich narzędzi wideo Google, takich jak Veo? Przede wszystkim iteracyjna edycja z pamięcią kontekstu. Każda instrukcja buduje się na poprzedniej, a model pamięta całą historię rozmowy. Postacie zachowują spójność między ujęciami, fizyka obiektów działa realistycznie. Można poprosić o zmianę kąta kamery w czwartej rundzie edycji, a scena z pierwszej tury pozostaje nienaruszona. Jeden z oficjalnych przykładów Google ilustruje to doskonale: skrzypaczka gra utwór, następnie zostaje przeniesiona do nowego otoczenia, skrzypce znikają, a kąt kamery się zmienia – bez żadnego „resetowania” sceny.

Istotna jest też kwestia fizyki. Google twierdzi, że Omni rozumie rzeczywiste prawa fizyczne: grawitację, energię kinetyczną, dynamikę płynów. Demo z kulką toczącą się po torze z reakcji łańcuchowej robi wrażenie właśnie dlatego, że większość modeli wideo nadal potyka się na takich zadaniach.

Pierwszy model z rodziny Omni to Gemini Omni Flash. Aktualnie klip może mieć maksymalnie 10 sekund. Google wyraźnie zaznacza, że to decyzja dotycząca wdrożenia, a nie ograniczenie techniczne modelu. Dla porównania, OpenAI Sora pozwala generować klipy do 60 sekund.

Każde wideo wygenerowane przez Omni nosi niewidoczny dla oka cyfrowy znak wodny SynthID. Przeżywa on typowe operacje, takie jak ponowne kodowanie czy zmiana rozdzielczości. Weryfikacja jest możliwa przez aplikację Gemini, Gemini w Chrome i wyszukiwarkę Google. Google celowo wstrzymuje funkcję edycji głosu i mowy. Oficjalnie z powodów bezpieczeństwa, a patrząc na kontekst roku wyborczego w kilku krajach, trudno się temu dziwić.

Chcesz czytać więcej treści związanych z AI?

Dodaj AIPORT.pl do preferowanych źródeł Google

Komentarz redaktora

Patrzę na Gemini Omni i widzę coś, co może faktycznie zmienić sposób pracy twórców wideo. Edycja przez rozmowę, bez osi czasu i warstw, brzmi jak ulga dla każdego, kto kiedykolwiek spędził godziny na przeciąganiu klatek kluczowych. Ale jednocześnie nie mogę nie myśleć o tym, co oznacza powszechny dostęp do tak realistycznego generowania wideo. SynthID to krok w dobrym kierunku, lecz znak wodny nie rozwiąże problemu dezinformacji w sieci. Pytanie, które wisi w powietrzu, brzmi: co zrobimy, gdy narzędzia tego typu staną się standardem na YouTube Shorts, a odróżnienie prawdziwego materiału od syntetycznego będzie wymagało specjalistycznych narzędzi? Google ogranicza dziś edycję głosu, ale to nie jest rozwiązanie permanentne. Zegar tyka.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Gemini 3.5 Flash: szybciej, taniej, agentowo

Gemini 3.5 Flash to nowy model z rodziny Gemini 3.5, który Google pozycjonuje jako swój najmocniejszy model agentowy i do kodowania. Dostępny był od razu pierwszego dnia keynote’u, 19 maja.

Liczby mówią same za siebie. Na benchmarkach Google podaje:

Terminal-Bench 2.1 (kodowanie): 76,2%
GDPval-AA (zadania agentowe w rzeczywistym świecie): 1656 Elo
MCP Atlas (wielokrokowe zadania z narzędziami): 83,6%
CharXiv Reasoning (rozumowanie multimodalne): 84,2%

Wszystkie te wyniki przewyższają poprzedniego Gemini 3.1 Pro. Co ważniejsze, 3.5 Flash robi to cztery razy szybciej od porównywalnych modeli frontierowych pod względem generowania tokenów i przy niżej połowie ich kosztów. To kombinacja, która nie zdarza się często.

Model ma okno kontekstowe o długości miliona tokenów i obsługuje do 65 000 tokenów na wyjściu. Google dodało cztery poziomy „myślenia” (minimal, low, medium, high) oraz mechanizm zachowania myśli między turami rozmowy, co jest kluczowe przy długich zadaniach wieloetapowych.

Gemini Spark i agenty działające w tle

Jednym z najciekawszych zastosowań 3.5 Flash jest Gemini Spark, nowy osobisty agent AI dostępny dla subskrybentów AI Ultra w Stanach Zjednoczonych. Spark działa całą dobę, działa na dedykowanych maszynach wirtualnych Google Cloud i wykonuje zadania nawet gdy ekran urządzenia jest wyłączony. Głęboka integracja z Gmailem, Docs, Slides i pozostałymi narzędziami Workspace sprawia, że jest to coś więcej niż chatbot z dostępem do maila.

Przykład podawany przez Google? Spark tworzy listę przekąsek bez orzechów, a następnie sam dodaje je do koszyka w Instacart. Brzmi banalnie, ale skala implikacji jest zupełnie inna.

Google podało przy okazji I/O imponujące dane skali: ekosystem Gemini przetwarza ponad 3,2 biliarda tokenów miesięcznie, co stanowi siedmiokrotny wzrost rok do roku. Aplikacja Gemini ma ponad 900 milionów użytkowników miesięcznie i jest dostępna w ponad 230 krajach oraz 70 językach.

Ludzie polskiego AI: indeks 125 firm i ludzi

Za każdą polską firmą AI stoi konkretny człowiek z imieniem i nazwiskiem, często ten sam w kilku miejscach naraz, i to właśnie ludzie, nie tabelki finansowania, są prawdziwym bohaterem tego artykułu.

Search + Antigravity: interfejs generowany na bieżąco

Osobny wątek stanowi połączenie Gemini 3.5 Flash z platformą agentową Antigravity 2.0 w kontekście wyszukiwarki Google. Search zyskuje możliwość budowania interaktywnych wizualizacji, symulacji i niestandardowych interfejsów generowanych w locie dla konkretnego zapytania. Google planuje udostępnić te funkcje wszystkim użytkownikom wyszukiwarki latem 2026 roku, bezpłatnie.

Jeszcze dalej idą „information agents”, działające w tle i proaktywnie informujące o wybranych wydarzeniach, np. nowych kolekcjach sneakersów ulubionych sportowców. Funkcja trafi najpierw do subskrybentów Google AI Pro i Ultra.

Dostępność i cennik

Gemini Omni Flash jest już dostępny dla subskrybentów Google AI Plus (7,99 USD/miesiąc), Pro i Ultra przez aplikację Gemini oraz Google Flow. Użytkownicy YouTube Shorts i YouTube Create otrzymują dostęp bezpłatnie. Gemini 3.5 Flash jest dostępny przez Gemini API w AI Studio, Android Studio, platformę Gemini Enterprise Agent Platform oraz Gemini Enterprise.

W Europie Google stosuje tradycyjnie stopniowy rollout, bez podania konkretnej daty pełnej dostępności.

Oceń artykuł

Średnia: 5.0 (19 ocen)

Google pokazuje, co potrafi Gemini. Nowe modele zmieniają zasady gry w AI

🗺️ Największy katalog firm AI w Polsce (467 firm)

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Oracle wprowadza Gemini do Fusion Applications i NetSuite. 44 tysiące klientów, ale modele o generację starsze

Chatbot doradził kierowcy z Zabrza odmowę mandatu. Sąd orzekł 800 złotych zamiast 100

Claude opublikował złośliwy pakiet w PyPI. Anthropic potwierdza włamania do trzech organizacji podczas testów

OpenAI tnie ceny API. GPT-5.6 Luna kosztuje o 80 procent mniej, Terra o 20 procent

LinkedIn wprowadza przycisk „Seems like AI slop”. Pangram wyliczył, że 41 procent długich postów na platformie pisze sztuczna inteligencja

AIport.pl - o nas

Google pokazuje, co potrafi Gemini. Nowe modele zmieniają zasady gry w AI

Kluczowe fakty:

Gemini Omni: koniec z edytowaniem na osi czasu

Komentarz redaktora

Gemini 3.5 Flash: szybciej, taniej, agentowo

Gemini Spark i agenty działające w tle

Search + Antigravity: interfejs generowany na bieżąco

Dostępność i cennik

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas