IBM opublikowało dziś Granite 4.0 3B Vision, nowy model multimodalny z rodziny Granite 4.0, zaprojektowany z myślą o przedsiębiorstwach przetwarzających złożone dokumenty. Mimo zaledwie 3 miliardów parametrów, model osiąga wyniki, które wprawiają w zakłopotanie rozwiązania dwukrotnie większe.
Model dostępny jest na platformie Hugging Face na licencji Apache 2.0, co oznacza pełną swobodę w zastosowaniach komercyjnych. To istotny sygnał ze strony IBM: Granite to nie tylko produkt, to platforma, którą firma chce uczynić standardem w enterprise AI.
Co potrafi Granite 4.0 3B Vision?
IBM nie celuje tu w ogólne rozumienie obrazów ani generowanie treści wizualnych. Granite 4.0 3B Vision to narzędzie bardzo konkretne, wyspecjalizowane w trzech obszarach:
- Ekstrakcja tabel z obrazów dokumentów, w tym skomplikowanych struktur wielowierszowych i wielokolumnowych
- Rozumienie wykresów i konwersja danych wizualnych do formatów maszynowo czytelnych, podsumowań lub kodu
- Semantyczna ekstrakcja par klucz-wartość (KVP) z różnorodnych układów dokumentów, takich jak formularze, faktury czy raporty
Dla wielu firm to właśnie te trzy zadania stanowią dziś wąskie gardło całej automatyzacji dokumentów. Nie brakuje modeli, które potrafią opisać zdjęcie kota. Brakuje takich, które niezawodnie wyciągną dane z 50-stronicowego raportu finansowego.
Dwie innowacje techniczne, które robią różnicę
Za wynikami modelu stoją dwa konkretne rozwiązania techniczne, które warto znać.
Pierwsze to ChartNet – zbiór danych stworzony specjalnie do trenowania rozumienia wykresów. Zawiera 1,7 miliona próbek obejmujących 24 typy wykresów z 6 bibliotek do ich tworzenia. Co wyróżnia ChartNet spośród innych zbiorów danych: każda próbka składa się z pięciu powiązanych komponentów – kodu generującego wykres, wyrenderowanego obrazu, tabeli danych, opisu w języku naturalnym i par pytanie-odpowiedź. Dzięki temu model uczy się nie tego, jak wykres wygląda, ale co faktycznie przedstawia. Wyniki trafią do publikacji naukowej na konferencji CVPR 2026.
Drugie to architektura DeepStack Injection. Większość modeli multimodalnych wstrzykuje cechy wizualne w jednym miejscu sieci, co zmusza model do jednoczesnej obsługi zarówno semantyki wysokiego poziomu, jak i drobnych szczegółów przestrzennych. Granite 4.0 3B Vision rozdziela to zadanie: abstrakcyjne cechy wizualne trafiają do wcześniejszych warstw modelu językowego, a cechy wysokiej rozdzielczości do późniejszych. Model wie więc jednocześnie co jest w dokumencie i gdzie dokładnie się znajduje.
Wyniki, które trudno zbagatelizować
IBM Granite 4.0 3B Vision to interesujący przypadek, bo pokazuje kierunek, w którym zmierza enterprise AI: nie gigantyczne modele ogólnego przeznaczenia, lecz kompaktowe, wyspecjalizowane systemy zoptymalizowane pod konkretne zadania biznesowe. Z jednej strony to ogromna zaleta – niższe koszty wdrożenia, mniejsze zapotrzebowanie na moc obliczeniową, łatwiejsza integracja z istniejącymi systemami. Z drugiej strony rodzi pytanie: czy wąska specjalizacja to przyszłość AI w firmach, czy jedynie etap przejściowy przed modelami, które będą równie dobre we wszystkim? I jak firmy powinny zarządzać rosnącym zoo specjalistycznych modeli, gdy każdy dział potrzebuje innego narzędzia? To nie są pytania retoryczne – to realne decyzje architektoniczne, które działy IT podejmują już teraz.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Na benchmarku Chart2Summary model osiąga wynik 86,4%, wyprzedzając wszystkie testowane rozwiązania, w tym modele znacznie większe. W ekstrakcji tabel prowadzi na wszystkich testowanych zestawach danych: PubTablesV2 dla wyciętych tabel (92,1), PubTablesV2 dla pełnych stron dokumentów (79,3), OmniDocBench (64,0) oraz TableVQA (88,1). W ekstrakcji par klucz-wartość na benchmarku VAREX – zestawie 1777 formularzy rządowych USA – model osiąga 85,5% dokładności w trybie zero-shot.
Jedyne miejsce, gdzie Granite 4.0 3B Vision ustępuje pola, to konwersja wykresów do CSV. Tu zajmuje drugie miejsce z wynikiem 62,1%, minimalnie za Qwen3.5-9B (63,4%), czyli modelem ponad dwukrotnie większym.
Modularność jako przemyślana decyzja architektoniczna
Model nie jest wdrażany jako samodzielna sieć, lecz jako adapter LoRA nałożony na Granite 4.0 Micro. W praktyce oznacza to, że to samo wdrożenie obsługuje zarówno zadania multimodalne, jak i tekstowe – automatycznie przełączając się na bazowy model językowy, gdy obraz nie jest potrzebny. Dla działów IT to ważna informacja: jedna infrastruktura, dwa tryby pracy.
Jak to wdrożyć w praktyce?
IBM przewiduje dwa scenariusze użycia. Pierwszy to samodzielna ekstrakcja danych z obrazów – bezpośrednie uruchomienie modelu na pojedynczych plikach, co sprawdza się w lżejszych zastosowaniach, takich jak parsery formularzy czy narzędzia do analizy wykresów.
Drugi scenariusz to integracja z Docling, open-source’owym narzędziem IBM do przetwarzania dokumentów. Docling zajmuje się tu OCR, wykrywaniem i wycinaniem elementów wizualnych z wielostronicowych PDF-ów, a Granite 4.0 3B Vision przetwarza same wycinki. Efekt: wyższa dokładność ekstrakcji i niższe koszty obliczeniowe przy dużych zbiorach dokumentów.
Dostępność
Model jest dostępny teraz na Hugging Face pod adresem https://huggingface.co/ibm-granite/granite-4.0-3b-vision, na licencji Apache 2.0. Pełna dokumentacja techniczna, opis metodologii trenowania i wyniki benchmarków znajdują się na stronie modelu.
