Przez lata branża AI żyła prostym założeniem: chcesz, żeby model lepiej rozwiązywał trudne zadania, daj mu więcej miejsca na „myślenie”. Okazuje się, że to błąd. Badacze z University of Virginia i Google opublikowali pracę, która wywraca tę logikę do góry nogami i proponuje coś znacznie ciekawszego: miarę, która patrzy nie na ilość wygenerowanego tekstu, lecz na to, co dzieje się głęboko w warstwach modelu.
Punktem wyjścia jest niepokojąca korelacja. Zespół zbadał związek między długością łańcucha rozumowania (Chain-of-Thought) a dokładnością odpowiedzi i wyliczył współczynnik korelacji na poziomie r = -0,59. Minus. Ujemny. Oznacza to, że im więcej tokenów generuje model, tym bardziej prawdopodobne, że się myli. To zjawisko badacze nazywają „overthinkingiem” – model zaczyna kręcić się w kółko, powtarzać kroki, wzmacniać własne błędy.
Czym są tokeny „głębokiego myślenia”?
Kluczowe odkrycie dotyczy tego, jak model przetwarza poszczególne słowa i symbole wewnątrz swoich warstw transformatora. Nie wszystkie tokeny są sobie równe.
Kiedy model generuje jakieś łatwe słowo, jego „decyzja” stabilizuje się już w płytkich warstwach – od piątej do trzydziestej szóstej nic się właściwie nie zmienia. Ale przy trudnych operacjach logicznych, symbolach matematycznych czy złożonych zależnościach – predykcja potrafi drastycznie zmienić się dopiero w ostatnich kilkunastu procentach warstw. To właśnie są tokeny głębokiego myślenia (Deep-Thinking Tokens).
Badacze zmierzyli tę głębię technicznie, używając rozbieżności Jensena-Shannona (JSD) między rozkładem prawdopodobieństwa w pośrednich warstwach a rozkładem w warstwie finalnej. Token uznawany jest za „głęboki”, jeśli jego predykcja stabilizuje się dopiero w ostatnich 15% warstw modelu (parametr ρ = 0,85).
Stąd właśnie wzięła się nowa metryka: Deep-Thinking Ratio (DTR), czyli odsetek takich „trudnych” tokenów w całej sekwencji. DTR pokazuje korelację z dokładnością na poziomie r = 0,683 – wyraźnie dodatnią, wyraźnie lepszą od samej długości odpowiedzi.
Komentarz redaktora
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To badanie uderza w coś, o czym rozmawiamy w środowisku od dawna, ale rzadko kto odważył się to zmierzyć. Branża od lat zakłada, że „więcej tokenów = więcej myślenia” – to wygodne uproszczenie, które dobrze sprzedaje się w benchmarkach. DTR to krok w kierunku uczciwości: zamiast pytać „ile model napisał”, pytamy „gdzie model naprawdę pracował”. To ważna różnica.
Ale mam też pytanie, które mi nie daje spokoju: czy ta metryka nie stanie się kolejnym celem do optymalizacji? Jeśli jutro ktoś zacznie trenować modele z myślą o wysokim DTR, nie wiem, czy za rok będziemy mieli lepsze modele, czy modele lepiej udające głębokie myślenie. Historia AI uczy, że każda miara, która staje się celem, przestaje być dobrą miarą.
Think@n: połowa kosztów, wyższe wyniki
Badacze nie zatrzymali się na samej metryce. Zbudowali na jej podstawie metodę skalowania modeli podczas inferencji, którą nazwali Think@n.
Standardowe podejście to tzw. Self-Consistency (Cons@n): model generuje na przykład 48 różnych odpowiedzi na to samo pytanie, a system wybiera tę, którą większość „głosów” wskazuje jako poprawną. Działa, ale jest drogie – trzeba wygenerować każdy token dla każdej z 48 prób.
Think@n robi to inaczej:
- Model zaczyna generować kilka kandydujących odpowiedzi równolegle
- Po zaledwie 50 tokenach prefiksu system liczy DTR dla każdego kandydata
- Kandydaci z niskim DTR są natychmiast przerywani
- Zasoby trafiają wyłącznie do tych z wysokim wskaźnikiem głębokości
Efekt? Na benchmarku AIME 2025 (olimpiada matematyczna, jeden z trudniejszych testów dla LLM-ów) Think@n uzyskał dokładność 94,7% przy koszcie 155,4 tys. tokenów. Standardowe głosowanie większościowe osiągnęło 92,7% przy 307,6 tys. tokenów.
Wyższa skuteczność. Połowa kosztów.
Co to oznacza w praktyce?
Warto zatrzymać się przy kilku wnioskach, bo robią wrażenie:
- Długość odpowiedzi nie mówi nam nic wartościowego o jakości rozumowania – korelacja jest ujemna
- DTR działa jako wczesny sygnał: już po 50 tokenach można przewidzieć, czy cała sekwencja będzie wartościowa
- Metoda jest agnostyczna modelowo – działała na DeepSeek-R1-70B, Qwen3-30B-Thinking i GPT-OSS-120B
To ostatnie jest szczególnie istotne. DTR nie jest metryką przypisaną do konkretnego modelu, można ją stosować szeroko. To oznacza, że firmy wdrażające duże modele języka mogą zacząć używać jej jako filtra inferencji bez konieczności przebudowywania całej architektury.
Ile faktycznie można zaoszczędzić?
Przy obecnych cenach inferencji chmurowej, redukcja kosztów o połowę to nie jest ciekawostka badawcza – to argument biznesowy. Firmy skalujące zastosowania AI na miliony zapytań dziennie wydają na inferencję sumy, które zaczynają dominować budżety operacyjne. Jeśli DTR i Think@n dają się zaimplementować w produkcji tak skutecznie, jak w warunkach laboratoryjnych, mówimy o realnych oszczędnościach.
Otwarte pytanie brzmi: jak bardzo wyniki z papieru przełożą się na rzeczywiste środowisko produkcyjne, gdzie zapytania są mniej przewidywalne niż olimpijskie zadania matematyczne. Pełna praca dostępna jest na arxiv.org.
