Google opublikowało dziś Gemini 3.1 Flash-Lite – najszybszy i najtańszy model z serii Gemini 3. To nie jest kolejny flagowiec, który pochłania budżet. To narzędzie zaprojektowane z myślą o skali.
Model trafił do deweloperów w wersji preview przez Gemini API w Google AI Studio oraz – dla klientów korporacyjnych – przez Vertex AI. Wszystko to dzieje się tego samego dnia, co ogłoszenie, co jest dość rzadkim posunięciem nawet jak na Google.
Cena, która robi wrażenie
Zacznijmy od liczb, bo one mówią tu najwięcej. Google wyceniło 3.1 Flash-Lite na 0,25 USD za milion tokenów wejściowych i 1,50 USD za milion tokenów wyjściowych. Dla porównania: to ułamek kosztów większych modeli z tej samej rodziny.
Ale cena to nie wszystko. Według benchmarku Artificial Analysis, nowy model jest 2,5-krotnie szybszy od poprzednika (2.5 Flash) pod względem czasu do pierwszego tokenu odpowiedzi, a szybkość generowania tekstu wzrosła o 45%. Na liaderboardzie Arena.ai model zdobył wynik Elo na poziomie 1432.
Co ciekawe, 3.1 Flash-Lite osiąga lepsze wyniki niż starsze, większe modele Google – takie jak 2.5 Flash – w testach takich jak GPQA Diamond (86,9%) czy MMMU Pro (76,8%). Większy nie zawsze znaczy lepszy.
Myślenie na żądanie
Jedną z bardziej interesujących funkcji jest wbudowany mechanizm „thinking levels”, dostępny domyślnie w AI Studio i Vertex AI. Deweloper sam decyduje, ile zasobów obliczeniowych model ma przeznaczyć na dane zadanie. Przy prostych operacjach masowych – jak moderacja treści czy tłumaczenia – można go uruchomić w trybie ultra-ekonomicznym. Przy bardziej złożonych zadaniach, takich jak generowanie interfejsów użytkownika czy tworzenie symulacji, model potrafi zagłębić się głębiej.
To podejście ma sens z biznesowego punktu widzenia. Nie każde zapytanie wymaga pełnej mocy obliczeniowej, a płacenie za nią zawsze – to po prostu marnotrawstwo.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl: Patrząc na to ogłoszenie, widzę przede wszystkim potwierdzenie trendu, który obserwujemy od miesięcy – wyścig o „najtańszy dobry model” nabiera tempa. Google gra tu sprytnie: zamiast licytować się z OpenAI i Anthropic na flagowe modele, zajmuje przestrzeń, w której decyzje zakupowe podejmują działy finansowe, a nie inżynierowie. I to może być strzał w dziesiątkę. Ale mam też pytanie, na które nie znam jeszcze odpowiedzi: czy ta agresywna polityka cenowa jest trwała, czy to tylko gra o udział w rynku, po której ceny wrócą do normy? Historia technologii uczy, że to drugie jest częstsze niż byśmy chcieli.
Kto już to testuje?
Google wymienia kilka firm z wczesnego dostępu, które już wdrożyły 3.1 Flash-Lite do swoich procesów:
- Latitude – twórcy gier i narracji generatywnej
- Cartwheel – platforma do animacji 3D
- Whering – aplikacja do zarządzania garderobą i stylem
Testerzy chwalą przede wszystkim zdolność modelu do obsługi złożonych danych wejściowych z dokładnością, której zwykle oczekuje się od większych modeli, przy jednoczesnym zachowaniu instrukcji i spójności odpowiedzi.
Co to oznacza dla rynku?
3.1 Flash-Lite nie jest modelem, który zastąpi GPT-5 czy Claude Opus w rozmowie o najlepszej jakości generatywnej AI. Ale to też nie był cel. Google trafia w specyficzną niszę: firmy, które potrzebują tysięcy lub milionów wywołań API dziennie i nie mogą sobie pozwolić na koszty premium.
W wykresach porównawczych opublikowanych przez Google, 3.1 Flash-Lite zestawiono bezpośrednio z GPT-5 mini, Claude 4.5 Haiku i Grok 4.1 Fast. Rywalizacja w segmencie lekkich, szybkich modeli robi się gęsta – i to dobrze dla deweloperów, którzy mają teraz realną konkurencję do porównania.
Dostęp do modelu jest już aktywny. Jeśli jesteście deweloperami pracującymi z Gemini API – możecie go przetestować od dziś w Google AI Studio pod adresem aistudio.google.com.
