NVIDIA wypuściła Nemotron-Cascade 2 – otwarty model typu Mixture-of-Experts o architekturze 30B parametrów, z których aktywnie używa zaledwie 3 miliardów. To drugi otwarty model na świecie, który osiągnął poziom złotego medalu w matematycznej Olimpiadzie Międzynarodowej 2025.
Firma konsekwentnie realizuje swoją strategię „intelligence density” – czyli wyciśnięcia maksymalnej inteligencji z minimalnych zasobów obliczeniowych. I muszę przyznać, że wyniki robią wrażenie.
Nie kolejny duży model, lecz sprytniejszy mały
Rynek modeli językowych zmierza w dwóch kierunkach jednocześnie: gigantyczne modele frontier dla największych laboratoriów oraz coraz sprawniejsze modele o ograniczonych parametrach dla reszty świata. Nemotron-Cascade 2 należy wyraźnie do tej drugiej grupy. Architektura MoE (Mixture-of-Experts) sprawia, że model przechowuje 30 miliardów parametrów, ale do przetwarzania konkretnego zapytania angażuje tylko 3 miliardy. Efekt: szybkość i oszczędność energii porównywalne z modelem 3B, przy możliwościach zbliżonych do modeli wielokrotnie większych.
Dla porównania, konkurencyjny Qwen3.5-35B-A3B (wydany w lutym 2026) ma podobną architekturę – i właśnie na nim NVIDIA koncentruje swoje porównania benchmarkowe.
Matematyka, kod i rozumowanie – tu model wyróżnia się najbardziej
Wyniki benchmarkowe wskazują na przewagę Nemotron-Cascade 2 w kilku kluczowych kategoriach:
- Matematyka: AIME 2025 – wynik 92,4 wobec 91,9 u Qwen3.5-35B-A3B; HMMT Feb25 – 94,6 wobec 89,0
- Programowanie: LiveCodeBench v6 – 87,2 wobec 74,6; IOI 2025 – 439,28 wobec 348,6
- Instrukcje i alignment: ArenaHard v2 – 83,5 wobec 65,4; IFBench – 82,9 wobec 70,2
To nie jest model do wszystkiego. NVIDIA wprost zaznacza, że wyniki nie są „blanket win” – przewaga dotyczy konkretnych, rozumowaniem intensywnych zadań. Poza tymi domenami może wypaść słabiej od konkurencji.
Cascade RL – czyli jak uczyć modelu bez zapominania
Sercem modelu jest autorski proces treningu post-SFT. Zacznijmy od danych: podczas fazy Supervised Fine-Tuning badacze NVIDII wykorzystali zbiór zawierający 1,9 miliona śladów rozumowania w Pythonie, 1,3 miliona przykładów tool-calling dla programowania konkursowego, 816 tysięcy próbek matematycznych dowodów w języku naturalnym i ponad 500 tysięcy przykładów z zakresu Software Engineering.
Widzę tu ciekawy dylemat. Z jednej strony Nemotron-Cascade 2 pokazuje, że „małe, ale mądre” to realny kierunek – i to otwarte, co w ekosystemie AI ma ogromne znaczenie. Z drugiej, model jest wyraźnie wyspecjalizowany: matematyka, kod, instrukcje. Poza tymi obszarami może rozczarować. Otwarte pytanie brzmi: czy branża chce narzędzi precyzyjnych jak skalpel, czy wciąż szuka jednego modelu do wszystkiego? I czy „open-weight” to naprawdę open, skoro trenowanie takiego modelu pozostaje poza zasięgiem 99% organizacji?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Po SFT model przeszedł przez Cascade Reinforcement Learning – sekwencyjny, domenowy trening RL, który pozwala dostosowywać hiperparametry do konkretnych zadań bez destabilizowania wyników w innych obszarach. Kolejne etapy obejmują instruction-following RL, multi-domain RL, RLHF, long-context RL oraz specjalistyczny trening dla kodu.
MOPD – kluczowa technika, która przyspiesza uczenie
Najciekawszym elementem technicznym jest Multi-Domain On-Policy Distillation (MOPD). Podczas Cascade RL model korzysta z najlepszych pośrednich wersji „nauczycielskich” – modeli wywodzących się z tego samego punktu startowego – które dostarczają sygnałów uczenia na poziomie tokenów.
W praktyce: tam gdzie standardowy algorytm GRPO potrzebował pełnego cyklu treningu by na benchmarku AIME25 osiągnąć wynik 91,0 punktu, MOPD dobił do poziomu nauczyciela (92,0) już w 30 krokach. To poważna różnica w efektywności.
Dwa tryby pracy i pełna obsługa agentów AI
Model obsługuje dwa tryby działania, przełączane przez chat template:
- Thinking Mode – aktywowany tokenem
<think>, uruchamia głębsze rozumowanie dla złożonych zadań matematycznych i programistycznych - Non-Thinking Mode – blok
<think></think>przed zapytaniem wyłącza rozumowanie na rzecz szybszych, bezpośrednich odpowiedzi
W kontekście agentów AI model korzysta ze strukturalnego protokołu tool-calling opartego na tagach XML. Narzędzia definiuje się w sekcji <tools>, a wywołania opakowuje w <tool_call> – co pozwala na weryfikowalny feedback z egzekucji.
Otwarty model z olimpijskim certyfikatem
Nemotron-Cascade 2 jest dostępny jako open-weight na Hugging Face. To drugi otwarty model, który osiągnął poziom złotego medalu zarówno w Międzynarodowej Olimpiadzie Matematycznej (IMO 2025), jak i w Olimpiadzie Informatycznej (IOI) oraz finałach ICPC. To nie jest wynik przypadkowy – to efekt celowego, domenowego treningu.
Czy to model dla każdego? Niekoniecznie. Dla programistów, matematyków i twórców systemów agentowych – zdecydowanie warto przyjrzeć się bliżej. Dokumentację techniczną i pełen artykuł badawczy NVIDIA udostępniła pod adresem: https://research.nvidia.com/labs/nemotron/files/Nemotron-Cascade-2.pdf, a modele są dostępne w kolekcji na Hugging Face: https://huggingface.co/collections/nvidia/nemotron-cascade-2
