Tokijska firma Sakana AI zaprezentowała dwa projekty badawcze, które mogą fundamentalnie zmienić sposób, w jaki dostosowujemy duże modele językowe do konkretnych zadań. Doc-to-LoRA i Text-to-LoRA to hypersieci, które generują adaptery LoRA w ułamku sekundy – bez konieczności ponownego trenowania modelu bazowego.
Brzmi technicznie? Bo jest. Ale konsekwencje są zaskakująco praktyczne.
Problem, który dotąd udawaliśmy, że nie istnieje
Każdy, kto pracuje z LLM na co dzień, zna ten dylemat. Chcesz, żeby model „wiedział” coś konkretnego – miał w sobie dokument, instrukcję, styl działania. Masz dwie opcje. Albo wklejasz wszystko do kontekstu (wolno, drogo, ma swoje limity), albo fine-tuning (kosztowny, wolny, nieelastyczny). Obie opcje bolą.
Sakana zaproponowała trzecie wyjście: naucz małą sieć neuronową, jak produkować adaptacje dla dużego modelu. Raz zapłać za meta-trening tej małej sieci, a potem korzystaj z niej wielokrotnie – za darmo, w czasie zbliżonym do zera.
Text-to-LoRA: opisz zadanie słowami, dostań adapter
Text-to-LoRA (T2L) robi coś, co brzmi jak magia: przyjmuje opis zadania w języku naturalnym i generuje na jego podstawie adapter LoRA gotowy do użycia. Żadnego fine-tuningu, żadnych danych treningowych dla konkretnego zadania.
Architektura korzysta z enkodera zadań, który zamienia opis tekstowy na reprezentację wektorową. Ta reprezentacja, połączona z embeddings warstw i modułów, trafia przez bloki MLP i wypluwamy gotowe macierze A i B dla LoRA. System można trenować na dwa sposoby: przez rekonstrukcję istniejących adapterów LoRA albo przez end-to-end fine-tuning na zbiorach wielozadaniowych.
W benchmarkach T2L dorównało lub przebiło task-specific adaptery na testach GSM8K i Arc-Challenge, redukując jednocześnie koszty adaptacji ponad czterokrotnie względem 3-shot ICL.
Doc-to-LoRA: „internalizacja” dokumentu bez KV cache
Doc-to-LoRA (D2L) to coś jeszcze ciekawszego. Zamiast trzymać dokument w kontekście (co generuje ogromne koszty pamięciowe), D2L „wgrywa” go bezpośrednio w parametry modelu jako adapter LoRA. Dokument znika z okna kontekstowego, ale model „wie” co w nim było.
Architektura opiera się na mechanizmie cross-attention w stylu Perceiver, który mapuje aktywacje tokenów o zmiennej długości do adaptera o stałym kształcie. Dla bardzo długich dokumentów stosuje chunking: tekst dzielony jest na fragmenty, każdy przetwarzany osobno, wynikowe adaptery konkatenowane po wymiarze rank.
Liczby są imponujące:
- Dokument 128K tokenów w KV cache to ponad 12 GB VRAM. D2L obsługuje ten sam dokument zużywając mniej niż 50 MB.
- Czas internalizacji: poniżej 1 sekundy. Tradycyjny context distillation potrzebuje 40-100 sekund.
- Na benchmarku Needle-in-a-Haystack D2L osiągnął niemal idealną dokładność na dokumentach ponad czterokrotnie dłuższych niż natywne okno kontekstowe modelu bazowego.
Komentarz redaktora
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Wyniki robią wrażenie i nie mam powodu, żeby im nie ufać – Sakana to poważna organizacja z doświadczonymi badaczami. Ale warto zachować chłodną głowę. Redukcja zużycia pamięci z 12 GB do 50 MB brzmi rewolucyjnie, tylko że musimy zapytać: jaka jest cena tej „internalizacji”? Gdzie model traci wierność oryginałowi, gdzie zaczyna „pamiętać” rzeczy, których w dokumencie nie ma? Halucynacje w systemach RAG to jeden problem – co się dzieje, gdy kontekst jest wbudowany w wagi? To pytanie, na które chciałbym zobaczyć odpowiedź w niezależnych testach.
Z drugiej strony – jeśli te wyniki się utrzymają w produkcji, to mówimy o prawdziwym przełomie dla enterprise AI. Możliwość „wgrania” polityki firmy, dokumentacji produktu czy bazy wiedzy bezpośrednio w adapter i serwowanie modelu bez kosztownego kontekstu – to jest coś, co szefowie IT w korporacjach będą chcieli kupić. Pytanie tylko, czy kupią od Sakany, czy od OpenAI albo Google, gdy za pół roku wypuszczą własną wersję tego samego pomysłu.
Transferowanie wiedzy między modalnościami – bonus, który może być odkryciem
Przy okazji badań nad D2L odkryto coś nieoczekiwanego. Używając Vision-Language Model jako enkodera kontekstu, udało się „przetransferować” wiedzę wizualną do modelu tekstowego. Model, który nigdy nie widział obrazów podczas swojego głównego treningu, był w stanie klasyfikować obrazy z datasetu Imagenette z dokładnością 75,03%.
To nie jest główny wątek paperu. Ale może być jednym z ważniejszych wyników.
Gdzie to sprawdzić
Oba projekty są dostępne publicznie:
- Doc-to-LoRA: paper na arXiv (arxiv.org/pdf/2602.15902), kod na GitHub, demo na pub.sakana.ai/doc-to-lora
- Text-to-LoRA: paper (arxiv.org/pdf/2506.06105), kod na GitHub
Sakana AI to firma założona przez byłych badaczy Google Brain, znana m.in. z eksperymentów z ewolucyjnymi metodami trenowania modeli. Tym razem postawiła na coś bardziej pragmatycznego – i może właśnie dlatego warto się temu przyjrzeć uważniej.
