Google prezentuje Gemini Embedding 2 – jeden model do obsługi tekstu, obrazu, wideo, audio i dokumentów

0:00

Google rozszerzyło rodzinę modeli Gemini o nową generację modelu embeddingowego. Gemini Embedding 2 to pierwsza wersja, która potrafi przetwarzać pięć różnych typów danych jednocześnie i umieszczać je we wspólnej, wysokowymiarowej przestrzeni wektorowej.

Poprzednik – gemini-embedding-001 – obsługiwał wyłącznie tekst. To było poważne ograniczenie dla deweloperów budujących systemy RAG (Retrieval-Augmented Generation), którzy musieli żonglować kilkoma oddzielnymi modelami: osobnym do obrazów, osobnym do tekstu, osobnym do audio. Gemini Embedding 2 ma to zmienić, łącząc wszystko pod jednym dachem.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Jeden model, pięć modalności

Architektura modelu opiera się na idei tzw. natywnej multimodalności. Zamiast tworzyć oddzielne pipeline’y dla różnych typów danych, Gemini Embedding 2 mapuje wszystkie z nich bezpośrednio do jednej wspólnej przestrzeni wektorowej. Obsługuje:

Tekst – do 8192 tokenów na jedno zapytanie
Obrazy – do 6 plików w formatach PNG, JPEG, WebP, HEIC/HEIF
Wideo – do 120 sekund materiału (MP4, MOV i inne)
Audio – do 80 sekund nagrania (MP3, WAV) bez potrzeby osobnej transkrypcji
Dokumenty PDF – do 6 stron

Co więcej, model obsługuje tzw. interleaved inputs – można mu podać jednocześnie obraz i podpis tekstowy, a całość zostanie przetworzona jako jeden wektor. To szczególnie przydatne w systemach wyszukiwania, gdzie sama grafika bez kontekstu tekstowego nie wystarczy.

Matryoshka, czyli oszczędność bez utraty jakości

Kluczowym elementem architektury jest zastosowanie techniki Matryoshka Representation Learning (MRL). Standardowe modele embeddingowe rozkładają informacje semantyczne równomiernie po wszystkich wymiarach wektora – jeśli więc ktoś skróci wektor z 3072 do 768 wymiarów, traci większość zapisanej wiedzy.

Gemini Embedding 2 działa inaczej: najważniejsze informacje semantyczne trafiają na pierwsze pozycje wektora. Dzięki temu model można przyciąć i nadal zachować wysoką jakość wyników. Google udostępnia trzy zoptymalizowane warianty:

3072 wymiary – maksymalna precyzja, zalecana dla danych medycznych, prawnych i technicznych
1536 wymiarów – balans między wydajnością a kosztami pamięci
768 wymiarów – zoptymalizowane pod kątem niskich opóźnień i małego zużycia pamięci

Taka architektura otwiera możliwość budowania systemów dwuetapowych: szybkie wstępne przeszukiwanie na krótkich wektorach, a następnie precyzyjne dopasowanie na pełnych 3072 wymiarach. To realne oszczędności obliczeniowe w skali produkcyjnej.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Gemini Embedding 2 to technicznie solidny krok do przodu i szczerze cieszę się, że Google poszło w kierunku ujednolicenia przestrzeni wektorowej zamiast kolejnego modelu-specjalisty. Ale mam też wątpliwości, które warto postawić głośno. Po pierwsze – koszty. Większa liczba wymiarów i multimodalność to większe wymagania obliczeniowe i pamięciowe. Dla dużych organizacji to może być do zaakceptowania, ale dla mniejszych firm wdrożenie RAG opartego na takim modelu może okazać się kosztownym wyzwaniem. Po drugie – uzależnienie od ekosystemu Google. Im więcej warstw infrastruktury AI pochodzi od jednego dostawcy, tym bardziej stajemy się od niego zależni. Pytanie, czy branża to dostrzega i czy aktywnie szuka alternatyw, pozostaje otwarte.

Wyniki benchmarków i okno kontekstowe

W testach na benchmarku MTEB (Massive Text Embedding Benchmark) Gemini Embedding 2 uzyskał lepsze wyniki od poprzednika, szczególnie w dwóch obszarach: dokładności wyszukiwania i odporności na tzw. domain shift. To zjawisko, które polega na tym, że model traci skuteczność, gdy przechodzi z ogólnych danych treningowych (np. Wikipedia) na specjalistyczne (np. własna baza wiedzy firmy). Nowy model radzi sobie z tym lepiej dzięki wieloetapowemu procesowi treningowemu na zróżnicowanych zbiorach danych.

Ważne jest też okno kontekstowe wynoszące 8192 tokeny. Pozwala na osadzanie większych fragmentów tekstu w jednym wektorze, co redukuje problem tzw. fragmentacji kontekstu – sytuacji, gdy wyszukany fragment dokumentu jest zbyt krótki i pozbawiony kluczowych informacji potrzebnych do wygenerowania sensownej odpowiedzi przez model językowy.

Parametr task_type i dostępność

Deweloperzy mogą przekazywać modelowi wskazówki dotyczące rodzaju zadania za pomocą parametru task_type. Wartości takie jak RETRIEVAL_QUERY, RETRIEVAL_DOCUMENT czy CLASSIFICATION pozwalają zoptymalizować właściwości matematyczne wektora pod kątem konkretnej operacji – co w praktyce przekłada się na wyższy współczynnik trafności w wyszukiwaniu semantycznym.

Model jest już dostępny w Public Preview przez Gemini API oraz Vertex AI. Szczegółową dokumentację techniczną Google opublikowało na swoim blogu pod adresem blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/.

Oceń artykuł

Średnia: 5.0 (20 ocen)

Google prezentuje Gemini Embedding 2 – jeden model do obsługi tekstu, obrazu, wideo, audio i dokumentów

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

Google prezentuje Gemini Embedding 2 – jeden model do obsługi tekstu, obrazu, wideo, audio i dokumentów

Jeden model, pięć modalności

Matryoshka, czyli oszczędność bez utraty jakości

Wyniki benchmarków i okno kontekstowe

Parametr task_type i dostępność

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas