TinyLoRA: 13 parametrów, które wystarczą do nauki matematyki na poziomie 91,8%

0:00

Naukowcy z Meta FAIR, Cornell University i Carnegie Mellon University opublikowali pracę, która wywraca do góry nogami kilka przyjętych założeń o tym, ile danych modele językowe potrzebują do skutecznego uczenia się. Ich metoda, nazwana TinyLoRA, pozwoliła na dostrojenie modelu Qwen2.5-7B-Instruct do poziomu 91,8% skuteczności na benchmarku GSM8K – korzystając z zaledwie 13 wytrenowanych parametrów, które zajmują łącznie 26 bajtów w formacie bf16.

Dla porównania: standardowe podejście LoRA (Low-Rank Adaptation) przy modelu wielkości Llama 3-8B wymaga minimum około 3 milionów parametrów już przy najniższym możliwym ustawieniu rangi. TinyLoRA rozbija ten próg w pył.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Jak to w ogóle działa?

Standardowe LoRA działa na prostej zasadzie: zamraża wagi modelu i dodaje dwie stosunkowo niewielkie macierze treningowe, które razem „dopasowują” model do nowego zadania. Problem polega na tym, że liczba parametrów w tych macierzach wciąż rośnie wraz z rozmiarem modelu. Nie da się tego zejść poniżej pewnego minimum.

TinyLoRA wchodzi głębiej. Zamiast trenować macierz, metoda trenuje niskowymiarowy wektor, który jest następnie rzutowany przez stały, losowy tensor na odpowiednią przestrzeń wag. Do tego dochodzi mechanizm współdzielenia wag (weight tying) między warstwami modelu. Przy skrajnym ustawieniu współdzielenia można zejść do… jednego parametru treningowego na cały model.

To nie jest uproszczenie na potrzeby prasy. To faktyczny wynik opisany w pracy.

RL bije SFT na głowę – i to o rzędy wielkości

Tu pojawia się jeden z najciekawszych wniosków całej publikacji. Okazuje się, że metoda treningu ma znaczenie absolutnie kluczowe, gdy liczba dostępnych parametrów jest ekstremalnie mała.

Modele trenowane przez klasyczne Supervised Finetuning (SFT) potrzebowały od 100 do 1000 razy więcej parametrów, żeby osiągnąć ten sam poziom wyników co modele trenowane przez Reinforcement Learning. Konkretnie przez GRPO (Group Relative Policy Optimization).

Dlaczego? SFT uczy modelu wszystkiego po równo – łącznie ze stylistycznym szumem, nieistotnymi wzorcami i strukturą ludzkiego pisania, która nie ma nic wspólnego z poprawną odpowiedzią. RL działa inaczej: nagradza wynik (np. poprawna odpowiedź matematyczna), a nie ścieżkę do niego. Sygnał jest rzadszy, ale czystszy. W warunkach skrajnie ograniczonych zasobów to właśnie czystość sygnału wygrywa.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:

To odkrycie jest ważne, ale warto zachować ostrożność przy wyciąganiu zbyt szerokich wniosków. TinyLoRA imponuje w kontekście zadań matematycznych z jednoznaczną odpowiedzią – idealnych dla binarnego sygnału nagród w RL. Pytanie brzmi: co się stanie, gdy zastosujemy tę metodę do zadań bardziej otwartych, gdzie „poprawność” odpowiedzi jest subiektywna lub wielowymiarowa? Tam RL może tracić swoją przewagę nad SFT, bo nie ma prostej nagrody do zoptymalizowania. Cieszę się z tych wyników – ale chciałbym zobaczyć TinyLoRA na zadaniach kreatywnych, dialogowych albo związanych z rozumowaniem prawnym czy medycznym, zanim ogłosimy rewolucję.

Kilka praktycznych wskazówek dla deweloperów

Badacze nie poprzestali na samym odkryciu. Przetestowali różne ustawienia i wyciągnęli konkretne wnioski:

Optymalny frozen rank wynosi r=2. Wyższe rangi dają zbyt wiele stopni swobody, co utrudnia optymalizację małego wektora treningowego.
Tiling lepszy od structured sharing. Lepsze wyniki osiąga się przez współdzielenie parametrów między warstwami znajdującymi się blisko siebie w modelu (tiling), niż przez grupowanie modułów tego samego typu (np. wszystkich warstw Query razem).
fp32 efektywniejsze niż bf16. Przy tak ekstremalnych ograniczeniach bitowych, przechowywanie parametrów w fp32 okazuje się bardziej wydajne bit-za-bit, nawet uwzględniając większy rozmiar zapisu.

Wyniki benchmark – liczby mówią same za siebie

Żeby lepiej zobrazować skalę osiągnięcia, warto spojrzeć na porównanie:

Konfiguracja	Parametry treningowe	GSM8K Pass@1
Qwen2.5-7B-Instruct (bez treningu)	0	88,2%
TinyLoRA, 1 parametr	1	82,0%
TinyLoRA, 13 parametrów	13	91,8%
TinyLoRA, 196 parametrów	196	92,2%
Pełny fine-tuning	ok. 7,6 miliarda	91,7%

Ta tabela jest uderzająca z jednego powodu: 13 parametrów bije pełny fine-tuning całego modelu. I nie jest to różnica marginalna – wynik jest identyczny lub minimalnie wyższy.

Na trudniejszych benchmarkach – MATH500 i AIME24 – wersja z 196 parametrami zachowała 87% absolutnej poprawy wyników w stosunku do pełnego fine-tuningu, mierzonej na sześciu trudnych zadaniach matematycznych.

Co to znaczy dla przyszłości modeli?

Badacze zwracają uwagę na jeden istotny trend: duże modele są bardziej „programowalne” przy użyciu mniejszej liczby bezwzględnych parametrów. Innymi słowy – im większy model bazowy, tym efektywniejsze staje się dostrajanie za pomocą mikro-aktualizacji.

Jeśli ta prawidłowość utrzyma się przy modelach bilionowej skali, może się okazać, że w przyszłości dostrajanie zaawansowanego modelu do specjalistycznego zadania będzie wymagało dosłownie kilkudziesięciu bajtów danych treningowych. To przełom nie tyle dla badaczy, co dla wszystkich, którzy zastanawiają się nad praktycznym wdrożeniem modeli AI w ograniczonych środowiskach – na urządzeniach brzegowych, w systemach wbudowanych czy wszędzie tam, gdzie każdy megabajt ma znaczenie.

Pełna praca dostępna jest na arxiv.org.

Oceń artykuł

Średnia: 4.8 (14 ocen)

TinyLoRA: 13 parametrów, które wystarczą do nauki matematyki na poziomie 91,8%

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

TinyLoRA: 13 parametrów, które wystarczą do nauki matematyki na poziomie 91,8%

Jak to w ogóle działa?

RL bije SFT na głowę – i to o rzędy wielkości

Kilka praktycznych wskazówek dla deweloperów

Wyniki benchmark – liczby mówią same za siebie

Co to znaczy dla przyszłości modeli?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas