Naukowcy z Meta FAIR, Cornell University i Carnegie Mellon University opublikowali pracę, która wywraca do góry nogami kilka przyjętych założeń o tym, ile danych modele językowe potrzebują do skutecznego uczenia się. Ich metoda, nazwana TinyLoRA, pozwoliła na dostrojenie modelu Qwen2.5-7B-Instruct do poziomu 91,8% skuteczności na benchmarku GSM8K – korzystając z zaledwie 13 wytrenowanych parametrów, które zajmują łącznie 26 bajtów w formacie bf16.
Dla porównania: standardowe podejście LoRA (Low-Rank Adaptation) przy modelu wielkości Llama 3-8B wymaga minimum około 3 milionów parametrów już przy najniższym możliwym ustawieniu rangi. TinyLoRA rozbija ten próg w pył.
Jak to w ogóle działa?
Standardowe LoRA działa na prostej zasadzie: zamraża wagi modelu i dodaje dwie stosunkowo niewielkie macierze treningowe, które razem „dopasowują” model do nowego zadania. Problem polega na tym, że liczba parametrów w tych macierzach wciąż rośnie wraz z rozmiarem modelu. Nie da się tego zejść poniżej pewnego minimum.
TinyLoRA wchodzi głębiej. Zamiast trenować macierz, metoda trenuje niskowymiarowy wektor, który jest następnie rzutowany przez stały, losowy tensor na odpowiednią przestrzeń wag. Do tego dochodzi mechanizm współdzielenia wag (weight tying) między warstwami modelu. Przy skrajnym ustawieniu współdzielenia można zejść do… jednego parametru treningowego na cały model.
To nie jest uproszczenie na potrzeby prasy. To faktyczny wynik opisany w pracy.
RL bije SFT na głowę – i to o rzędy wielkości
Tu pojawia się jeden z najciekawszych wniosków całej publikacji. Okazuje się, że metoda treningu ma znaczenie absolutnie kluczowe, gdy liczba dostępnych parametrów jest ekstremalnie mała.
Modele trenowane przez klasyczne Supervised Finetuning (SFT) potrzebowały od 100 do 1000 razy więcej parametrów, żeby osiągnąć ten sam poziom wyników co modele trenowane przez Reinforcement Learning. Konkretnie przez GRPO (Group Relative Policy Optimization).
Dlaczego? SFT uczy modelu wszystkiego po równo – łącznie ze stylistycznym szumem, nieistotnymi wzorcami i strukturą ludzkiego pisania, która nie ma nic wspólnego z poprawną odpowiedzią. RL działa inaczej: nagradza wynik (np. poprawna odpowiedź matematyczna), a nie ścieżkę do niego. Sygnał jest rzadszy, ale czystszy. W warunkach skrajnie ograniczonych zasobów to właśnie czystość sygnału wygrywa.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To odkrycie jest ważne, ale warto zachować ostrożność przy wyciąganiu zbyt szerokich wniosków. TinyLoRA imponuje w kontekście zadań matematycznych z jednoznaczną odpowiedzią – idealnych dla binarnego sygnału nagród w RL. Pytanie brzmi: co się stanie, gdy zastosujemy tę metodę do zadań bardziej otwartych, gdzie „poprawność” odpowiedzi jest subiektywna lub wielowymiarowa? Tam RL może tracić swoją przewagę nad SFT, bo nie ma prostej nagrody do zoptymalizowania. Cieszę się z tych wyników – ale chciałbym zobaczyć TinyLoRA na zadaniach kreatywnych, dialogowych albo związanych z rozumowaniem prawnym czy medycznym, zanim ogłosimy rewolucję.
Kilka praktycznych wskazówek dla deweloperów
Badacze nie poprzestali na samym odkryciu. Przetestowali różne ustawienia i wyciągnęli konkretne wnioski:
- Optymalny frozen rank wynosi r=2. Wyższe rangi dają zbyt wiele stopni swobody, co utrudnia optymalizację małego wektora treningowego.
- Tiling lepszy od structured sharing. Lepsze wyniki osiąga się przez współdzielenie parametrów między warstwami znajdującymi się blisko siebie w modelu (tiling), niż przez grupowanie modułów tego samego typu (np. wszystkich warstw Query razem).
- fp32 efektywniejsze niż bf16. Przy tak ekstremalnych ograniczeniach bitowych, przechowywanie parametrów w fp32 okazuje się bardziej wydajne bit-za-bit, nawet uwzględniając większy rozmiar zapisu.
Wyniki benchmark – liczby mówią same za siebie
Żeby lepiej zobrazować skalę osiągnięcia, warto spojrzeć na porównanie:
| Konfiguracja | Parametry treningowe | GSM8K Pass@1 |
|---|---|---|
| Qwen2.5-7B-Instruct (bez treningu) | 0 | 88,2% |
| TinyLoRA, 1 parametr | 1 | 82,0% |
| TinyLoRA, 13 parametrów | 13 | 91,8% |
| TinyLoRA, 196 parametrów | 196 | 92,2% |
| Pełny fine-tuning | ok. 7,6 miliarda | 91,7% |
Ta tabela jest uderzająca z jednego powodu: 13 parametrów bije pełny fine-tuning całego modelu. I nie jest to różnica marginalna – wynik jest identyczny lub minimalnie wyższy.
Na trudniejszych benchmarkach – MATH500 i AIME24 – wersja z 196 parametrami zachowała 87% absolutnej poprawy wyników w stosunku do pełnego fine-tuningu, mierzonej na sześciu trudnych zadaniach matematycznych.
Co to znaczy dla przyszłości modeli?
Badacze zwracają uwagę na jeden istotny trend: duże modele są bardziej „programowalne” przy użyciu mniejszej liczby bezwzględnych parametrów. Innymi słowy – im większy model bazowy, tym efektywniejsze staje się dostrajanie za pomocą mikro-aktualizacji.
Jeśli ta prawidłowość utrzyma się przy modelach bilionowej skali, może się okazać, że w przyszłości dostrajanie zaawansowanego modelu do specjalistycznego zadania będzie wymagało dosłownie kilkudziesięciu bajtów danych treningowych. To przełom nie tyle dla badaczy, co dla wszystkich, którzy zastanawiają się nad praktycznym wdrożeniem modeli AI w ograniczonych środowiskach – na urządzeniach brzegowych, w systemach wbudowanych czy wszędzie tam, gdzie każdy megabajt ma znaczenie.
Pełna praca dostępna jest na arxiv.org.
