Sakana AI chce nauczyć modele językowe zapominać kontekst - i to jest komplement

0:00

Tokijska firma Sakana AI zaprezentowała dwa projekty badawcze, które mogą fundamentalnie zmienić sposób, w jaki dostosowujemy duże modele językowe do konkretnych zadań. Doc-to-LoRA i Text-to-LoRA to hypersieci, które generują adaptery LoRA w ułamku sekundy – bez konieczności ponownego trenowania modelu bazowego.

Brzmi technicznie? Bo jest. Ale konsekwencje są zaskakująco praktyczne.

Spis treści:

Problem, który dotąd udawaliśmy, że nie istnieje

Każdy, kto pracuje z LLM na co dzień, zna ten dylemat. Chcesz, żeby model „wiedział” coś konkretnego – miał w sobie dokument, instrukcję, styl działania. Masz dwie opcje. Albo wklejasz wszystko do kontekstu (wolno, drogo, ma swoje limity), albo fine-tuning (kosztowny, wolny, nieelastyczny). Obie opcje bolą.

Sakana zaproponowała trzecie wyjście: naucz małą sieć neuronową, jak produkować adaptacje dla dużego modelu. Raz zapłać za meta-trening tej małej sieci, a potem korzystaj z niej wielokrotnie – za darmo, w czasie zbliżonym do zera.

Text-to-LoRA: opisz zadanie słowami, dostań adapter

Text-to-LoRA (T2L) robi coś, co brzmi jak magia: przyjmuje opis zadania w języku naturalnym i generuje na jego podstawie adapter LoRA gotowy do użycia. Żadnego fine-tuningu, żadnych danych treningowych dla konkretnego zadania.

Architektura korzysta z enkodera zadań, który zamienia opis tekstowy na reprezentację wektorową. Ta reprezentacja, połączona z embeddings warstw i modułów, trafia przez bloki MLP i wypluwamy gotowe macierze A i B dla LoRA. System można trenować na dwa sposoby: przez rekonstrukcję istniejących adapterów LoRA albo przez end-to-end fine-tuning na zbiorach wielozadaniowych.

W benchmarkach T2L dorównało lub przebiło task-specific adaptery na testach GSM8K i Arc-Challenge, redukując jednocześnie koszty adaptacji ponad czterokrotnie względem 3-shot ICL.

Doc-to-LoRA: „internalizacja” dokumentu bez KV cache

Doc-to-LoRA (D2L) to coś jeszcze ciekawszego. Zamiast trzymać dokument w kontekście (co generuje ogromne koszty pamięciowe), D2L „wgrywa” go bezpośrednio w parametry modelu jako adapter LoRA. Dokument znika z okna kontekstowego, ale model „wie” co w nim było.

Architektura opiera się na mechanizmie cross-attention w stylu Perceiver, który mapuje aktywacje tokenów o zmiennej długości do adaptera o stałym kształcie. Dla bardzo długich dokumentów stosuje chunking: tekst dzielony jest na fragmenty, każdy przetwarzany osobno, wynikowe adaptery konkatenowane po wymiarze rank.

Liczby są imponujące:

Dokument 128K tokenów w KV cache to ponad 12 GB VRAM. D2L obsługuje ten sam dokument zużywając mniej niż 50 MB.
Czas internalizacji: poniżej 1 sekundy. Tradycyjny context distillation potrzebuje 40-100 sekund.
Na benchmarku Needle-in-a-Haystack D2L osiągnął niemal idealną dokładność na dokumentach ponad czterokrotnie dłuższych niż natywne okno kontekstowe modelu bazowego.

Komentarz redaktora

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:

Wyniki robią wrażenie i nie mam powodu, żeby im nie ufać – Sakana to poważna organizacja z doświadczonymi badaczami. Ale warto zachować chłodną głowę. Redukcja zużycia pamięci z 12 GB do 50 MB brzmi rewolucyjnie, tylko że musimy zapytać: jaka jest cena tej „internalizacji”? Gdzie model traci wierność oryginałowi, gdzie zaczyna „pamiętać” rzeczy, których w dokumencie nie ma? Halucynacje w systemach RAG to jeden problem – co się dzieje, gdy kontekst jest wbudowany w wagi? To pytanie, na które chciałbym zobaczyć odpowiedź w niezależnych testach.

Z drugiej strony – jeśli te wyniki się utrzymają w produkcji, to mówimy o prawdziwym przełomie dla enterprise AI. Możliwość „wgrania” polityki firmy, dokumentacji produktu czy bazy wiedzy bezpośrednio w adapter i serwowanie modelu bez kosztownego kontekstu – to jest coś, co szefowie IT w korporacjach będą chcieli kupić. Pytanie tylko, czy kupią od Sakany, czy od OpenAI albo Google, gdy za pół roku wypuszczą własną wersję tego samego pomysłu.

Transferowanie wiedzy między modalnościami – bonus, który może być odkryciem

Przy okazji badań nad D2L odkryto coś nieoczekiwanego. Używając Vision-Language Model jako enkodera kontekstu, udało się „przetransferować” wiedzę wizualną do modelu tekstowego. Model, który nigdy nie widział obrazów podczas swojego głównego treningu, był w stanie klasyfikować obrazy z datasetu Imagenette z dokładnością 75,03%.

To nie jest główny wątek paperu. Ale może być jednym z ważniejszych wyników.

Gdzie to sprawdzić

Oba projekty są dostępne publicznie:

Doc-to-LoRA: paper na arXiv (arxiv.org/pdf/2602.15902), kod na GitHub, demo na pub.sakana.ai/doc-to-lora
Text-to-LoRA: paper (arxiv.org/pdf/2506.06105), kod na GitHub

Sakana AI to firma założona przez byłych badaczy Google Brain, znana m.in. z eksperymentów z ewolucyjnymi metodami trenowania modeli. Tym razem postawiła na coś bardziej pragmatycznego – i może właśnie dlatego warto się temu przyjrzeć uważniej.

Oceń artykuł

Średnia: 4.9 (17 ocen)

Sakana AI chce nauczyć modele językowe zapominać kontekst – i to jest komplement

Mammografia z AI wykryje choroby serca? Badacze mówią, że tak

Stiglitz: najpierw będzie bolało, potem AI stanie się twoim współpracownikiem

OpenAI i Anthropic wzięły konsultantów z wielkiej czwórki. Kto wdroży AI w korporacjach?

Mammografia z AI wykryje choroby serca? Badacze mówią, że tak

Stiglitz: najpierw będzie bolało, potem AI stanie się twoim współpracownikiem

OpenAI i Anthropic wzięły konsultantów z wielkiej czwórki. Kto wdroży AI w korporacjach?

Wall Street nie odpuszcza AI. Analitycy wskazują, gdzie szukać bezpieczeństwa w czasie giełdowej zawieruchy

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Mammografia z AI wykryje choroby serca? Badacze mówią, że tak

Stiglitz: najpierw będzie bolało, potem AI stanie się twoim współpracownikiem

OpenAI i Anthropic wzięły konsultantów z wielkiej czwórki. Kto wdroży AI w korporacjach?

Wall Street nie odpuszcza AI. Analitycy wskazują, gdzie szukać bezpieczeństwa w czasie giełdowej zawieruchy

AIport.pl - o nas

Sakana AI chce nauczyć modele językowe zapominać kontekst – i to jest komplement

Problem, który dotąd udawaliśmy, że nie istnieje

Text-to-LoRA: opisz zadanie słowami, dostań adapter

Doc-to-LoRA: „internalizacja” dokumentu bez KV cache

Komentarz redaktora

Transferowanie wiedzy między modalnościami – bonus, który może być odkryciem

Gdzie to sprawdzić

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas