H Company właśnie ogłosiło Holo3 – model, który wyznacza nowy standard w kategorii computer use AI. 78,85% na benchmarku OSWorld-Verified to wynik, który stawia go ponad wszystkimi dotychczasowymi konkurentami.
Francuski startup H Company, znany wcześniej z modeli Holo2 i Holotron, opublikował 1 kwietnia na platformie Hugging Face szczegółowy opis swojego najnowszego systemu. Nie ma tu żartów prima aprilisowych – Holo3-122B-A10B to prawdziwy przełom w dziedzinie agentów operujących bezpośrednio na interfejsach graficznych systemów komputerowych.
Co to jest computer use i dlaczego to ważne
Zanim przejdziemy do liczb, warto wyjaśnić, o czym w ogóle mówimy. Computer use to zdolność modelu AI do samodzielnego poruszania się po interfejsie komputera – klikania, wypełniania formularzy, przełączania aplikacji, odczytywania dokumentów i podejmowania decyzji bez ingerencji człowieka. Wyobraźcie sobie asystenta, który nie tylko „rozumie” polecenie „wyślij tę fakturę do każdego z dostawców z uwzględnieniem indywidualnego budżetu” – ale faktycznie to robi, sam, od początku do końca.
To nie jest futurystyczna wizja. To właśnie to, czego próbuje dokonać Holo3.
Liczby, które robią wrażenie
Wynik 78,85% na OSWorld-Verified to aktualnie najlepszy rezultat w branży dla tego benchmarku. Co ciekawsze, Holo3 osiąga go przy zaledwie 10 miliardach aktywnych parametrów (przy łącznej liczbie 122B), co czyni go znacznie tańszym w działaniu niż konkurencyjne rozwiązania.
H Company wprost porównuje swój model do flagowców rynku:
„Best of all, Holo3 achieves this with only 10B active parameters (122B total), so at a fraction of the cost of large-scale proprietary models, such as GPT 5.4 or Opus 4.6.” / „Co najważniejsze, Holo3 osiąga to przy zaledwie 10 miliardach aktywnych parametrów, a więc za ułamek kosztów dużych modeli własnościowych, takich jak GPT 5.4 czy Opus 4.6.”
Warto zaznaczyć, że modele dostępne są przez API H Company, a mniejsza wersja Holo3-35B-A3B trafia do otwartego obiegu na Hugging Face na licencji Apache 2.0.
Jak to działa – „flywheel” zamiast brute force
H Company nie poszło drogą skalowania za wszelką cenę. Zamiast tego zbudowało coś, co nazywa „agentic learning flywheel” – cykl uczenia, który doskonali dwa kluczowe aspekty pracy agenta: percepcję i podejmowanie decyzji.
W praktyce flywheel opiera się na trzech filarach:
- Synthetic Navigation Data – generowanie przykładów nawigacji na podstawie ludzkich i syntetycznych instrukcji
- Out-of-Domain Augmentation – rozszerzanie scenariuszy, by model radził sobie z nieoczekiwanymi sytuacjami
- Curated Reinforcement Learning – staranne filtrowanie danych i uczenie przez wzmacnianie dla maksymalizacji wyników
To podejście tłumaczy, dlaczego Holo3 przebija modele z wyraźnie większą liczbą parametrów.
Komentarz redakcji
Holo3 to interesujący przypadek – model, który zamiast gonić za rekordową liczbą parametrów, postawił na jakość treningu i specjalizację. To może być dobra wiadomość dla rynku, bo wskazuje, że efektywność nie musi kosztować fortuny. Ale mam też pytania, które pozostają bez odpowiedzi. OSWorld to benchmark, nie rzeczywistość. Ile z tych 78,85% przekłada się na realne środowiska korporacyjne, gdzie oprogramowanie bywa stare, źle napisane i pełne wyjątków? H Company chwali się własnym zestawem benchmarków „H Corporate”, ale są one wewnętrzne – a to zawsze powód do ostrożności. Autonomiczne agenty działające w środowiskach firmowych to też poważne pytanie o bezpieczeństwo i audytowalność decyzji. Kto odpowiada, gdy agent wyśle złą wiadomość do stu kontrahentów?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Fabryka środowisk syntetycznych
Jednym z ciekawszych elementów projektu jest „Synthetic Environment Factory” – wewnętrzna infrastruktura H Company służąca do trenowania agentów w sztucznych, ale realistycznych środowiskach korporacyjnych.
Chodzi o automatyczne generowanie środowisk webowych – przez agenty kodujące – które następnie służą jako „sala gimnastyczna” dla Holo3. Zadania testowe obejmują cztery kategorie: e-commerce, oprogramowanie biznesowe, narzędzia do współpracy oraz scenariusze wieloaplikacyjne.
Te ostatnie są najtrudniejsze i najbardziej zbliżone do realiów biurowych. Przykładowy scenariusz? Agent musi pobrać ceny sprzętu z pliku PDF, porównać je z budżetami poszczególnych pracowników, a następnie wysłać do każdego z nich spersonalizowany e-mail z akceptacją lub odrzuceniem wniosku. Wszystko samodzielnie, przez wiele systemów jednocześnie.
Co dalej – „Adaptive Agency”
H Company nie kryje ambicji. Holo3 to według nich etap pośredni na drodze do czegoś, co firma nazywa „Adaptive Agency” – zdolności agenta do samodzielnego uczenia się obsługi zupełnie nieznanego oprogramowania w czasie rzeczywistym.
Jeśli ta obietnica zostanie spełniona, mówimy o qualitative leap – nie tylko o lepszym wykonywaniu znanych zadań, ale o prawdziwej autonomii w nowych środowiskach. To duże „jeśli”, ale kierunek jest jasny.
Na razie Holo3-35B-A3B można pobrać z Hugging Face i przetestować samodzielnie. Większy model jest dostępny przez API. H Company oferuje bezpłatny tier dostępu – co samo w sobie jest sprytnym zagraniem, jeśli chcesz zbudować społeczność deweloperów wokół swojego produktu.
