Google rozszerzyło rodzinę modeli Gemini o nową generację modelu embeddingowego. Gemini Embedding 2 to pierwsza wersja, która potrafi przetwarzać pięć różnych typów danych jednocześnie i umieszczać je we wspólnej, wysokowymiarowej przestrzeni wektorowej.
Poprzednik – gemini-embedding-001 – obsługiwał wyłącznie tekst. To było poważne ograniczenie dla deweloperów budujących systemy RAG (Retrieval-Augmented Generation), którzy musieli żonglować kilkoma oddzielnymi modelami: osobnym do obrazów, osobnym do tekstu, osobnym do audio. Gemini Embedding 2 ma to zmienić, łącząc wszystko pod jednym dachem.
Jeden model, pięć modalności
Architektura modelu opiera się na idei tzw. natywnej multimodalności. Zamiast tworzyć oddzielne pipeline’y dla różnych typów danych, Gemini Embedding 2 mapuje wszystkie z nich bezpośrednio do jednej wspólnej przestrzeni wektorowej. Obsługuje:
- Tekst – do 8192 tokenów na jedno zapytanie
- Obrazy – do 6 plików w formatach PNG, JPEG, WebP, HEIC/HEIF
- Wideo – do 120 sekund materiału (MP4, MOV i inne)
- Audio – do 80 sekund nagrania (MP3, WAV) bez potrzeby osobnej transkrypcji
- Dokumenty PDF – do 6 stron
Co więcej, model obsługuje tzw. interleaved inputs – można mu podać jednocześnie obraz i podpis tekstowy, a całość zostanie przetworzona jako jeden wektor. To szczególnie przydatne w systemach wyszukiwania, gdzie sama grafika bez kontekstu tekstowego nie wystarczy.
Matryoshka, czyli oszczędność bez utraty jakości
Kluczowym elementem architektury jest zastosowanie techniki Matryoshka Representation Learning (MRL). Standardowe modele embeddingowe rozkładają informacje semantyczne równomiernie po wszystkich wymiarach wektora – jeśli więc ktoś skróci wektor z 3072 do 768 wymiarów, traci większość zapisanej wiedzy.
Gemini Embedding 2 działa inaczej: najważniejsze informacje semantyczne trafiają na pierwsze pozycje wektora. Dzięki temu model można przyciąć i nadal zachować wysoką jakość wyników. Google udostępnia trzy zoptymalizowane warianty:
- 3072 wymiary – maksymalna precyzja, zalecana dla danych medycznych, prawnych i technicznych
- 1536 wymiarów – balans między wydajnością a kosztami pamięci
- 768 wymiarów – zoptymalizowane pod kątem niskich opóźnień i małego zużycia pamięci
Taka architektura otwiera możliwość budowania systemów dwuetapowych: szybkie wstępne przeszukiwanie na krótkich wektorach, a następnie precyzyjne dopasowanie na pełnych 3072 wymiarach. To realne oszczędności obliczeniowe w skali produkcyjnej.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Gemini Embedding 2 to technicznie solidny krok do przodu i szczerze cieszę się, że Google poszło w kierunku ujednolicenia przestrzeni wektorowej zamiast kolejnego modelu-specjalisty. Ale mam też wątpliwości, które warto postawić głośno. Po pierwsze – koszty. Większa liczba wymiarów i multimodalność to większe wymagania obliczeniowe i pamięciowe. Dla dużych organizacji to może być do zaakceptowania, ale dla mniejszych firm wdrożenie RAG opartego na takim modelu może okazać się kosztownym wyzwaniem. Po drugie – uzależnienie od ekosystemu Google. Im więcej warstw infrastruktury AI pochodzi od jednego dostawcy, tym bardziej stajemy się od niego zależni. Pytanie, czy branża to dostrzega i czy aktywnie szuka alternatyw, pozostaje otwarte.
Wyniki benchmarków i okno kontekstowe
W testach na benchmarku MTEB (Massive Text Embedding Benchmark) Gemini Embedding 2 uzyskał lepsze wyniki od poprzednika, szczególnie w dwóch obszarach: dokładności wyszukiwania i odporności na tzw. domain shift. To zjawisko, które polega na tym, że model traci skuteczność, gdy przechodzi z ogólnych danych treningowych (np. Wikipedia) na specjalistyczne (np. własna baza wiedzy firmy). Nowy model radzi sobie z tym lepiej dzięki wieloetapowemu procesowi treningowemu na zróżnicowanych zbiorach danych.
Ważne jest też okno kontekstowe wynoszące 8192 tokeny. Pozwala na osadzanie większych fragmentów tekstu w jednym wektorze, co redukuje problem tzw. fragmentacji kontekstu – sytuacji, gdy wyszukany fragment dokumentu jest zbyt krótki i pozbawiony kluczowych informacji potrzebnych do wygenerowania sensownej odpowiedzi przez model językowy.
Parametr task_type i dostępność
Deweloperzy mogą przekazywać modelowi wskazówki dotyczące rodzaju zadania za pomocą parametru task_type. Wartości takie jak RETRIEVAL_QUERY, RETRIEVAL_DOCUMENT czy CLASSIFICATION pozwalają zoptymalizować właściwości matematyczne wektora pod kątem konkretnej operacji – co w praktyce przekłada się na wyższy współczynnik trafności w wyszukiwaniu semantycznym.
Model jest już dostępny w Public Preview przez Gemini API oraz Vertex AI. Szczegółową dokumentację techniczną Google opublikowało na swoim blogu pod adresem blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/.
