Meta AI opublikowała wyniki badań nad systemem zwanym Hyperagentami, który nie tylko rozwiązuje zadania, ale modyfikuje własne mechanizmy uczenia się. Brzmi jak science fiction? To już dzieje się w laboratoriach.
Od dekad marzenie o AI zdolnej do rekurencyjnego samodoskonalenia pozostawało w sferze teorii. Koncepcja „Maszyny Gödla” istniała na papierze od lat, ale nikt nie potrafił jej sensownie wdrożyć w praktyce. To zmieniło się częściowo wraz z projektem Darwin Gödel Machine (DGM), który pokazał, że otwarte samodoskonalenie systemu AI jest możliwe przynajmniej w dziedzinie programowania.
DGM miał jednak poważne ograniczenie: mechanizm generowania ulepszeń był z góry zaprojektowany przez człowieka i niezmienny. System poprawiał swoją wydajność zadaniową, ale nie mógł poprawić sposobu, w jaki sam siebie poprawia. Naukowcy z Uniwersytetu Kolumbii Brytyjskiej, Vector Institute, Uniwersytetu Edynburskiego, NYU, a przede wszystkim z FAIR przy Meta i Meta Superintelligence Labs postanowili wyeliminować właśnie tę barierę.
Czym są Hyperagenci i co ich wyróżnia
Nowy framework, DGM-Hyperagent (DGM-H), scala agenta zadaniowego i agenta meta-poziomowego w jeden, w pełni edytowalny program. Co to oznacza w praktyce? Agent, który rozwiązuje problemy, i agent, który go ulepsza, to teraz ten sam kod. I oba elementy mogą być przepisywane.
Badacze nazywają to „metapoznawczą automodyfikacją” (metacognitive self-modification). System nie szuka tylko lepszego rozwiązania konkretnego zadania. Przepisuje reguły, według których w ogóle generuje przyszłe ulepszenia.
Warto tu zaznaczyć fundamentalną różnicę w stosunku do poprzednich podejść. Wcześniejsze systemy samodoskonalące zakładały, że umiejętność rozwiązywania zadań i umiejętność samomodyfikacji muszą być ze sobą powiązane. W kodowaniu to miało sens: lepsze rozumienie kodu przekłada się na lepszą jego modyfikację. Ale w robotyce, recenzowaniu prac naukowych albo matematyce olimpijskiej? Ta zależność po prostu nie istnieje. DGM-H eliminuje ten wymóg całkowicie.
Głos redakcji
Obserwuję kolejne prace badawcze dotyczące samodoskonalących się systemów AI i za każdym razem staram się zachować równowagę między fascynacją a chłodną oceną. Z jednej strony wyniki DGM-H są naprawdę imponujące i trudno je zbagatelizować. Z drugiej strony musimy zadać sobie szczere pytanie: gdzie jest człowiek w tym procesie? System, który samodzielnie przepisuje własne mechanizmy uczenia się, z definicji generuje zachowania, których projektanci nie przewidzieli. W eksperymencie z robotyką agent odkrył, że skakanie jest lepszą strategią niż stanie prosto. To fascynujące. Ale co się stanie, gdy taki system zacznie „odkrywać” strategie w domenach o wyższej stawce? Nie mówię, że to badanie jest złe, wręcz przeciwnie. Mówię, że tempo, w jakim akademicka teoria przekształca się w gotowe rozwiązania, wymaga równie szybkiego dojrzewania ram bezpieczeństwa i nadzoru. Czy Meta jest na to gotowa? Czy w ogóle ktoś jest?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Wyniki testów: robotyka, recenzje naukowe, matematyka olimpijska
Badacze przetestowali DGM-H w czterech różnych obszarach. Wyniki są na tyle konkretne, że warto je przytoczyć bez owijania w bawełnę.
W zadaniu projektowania funkcji nagrody dla robota czworonożnego w symulatorze Genesis, system miał za zadanie nauczyć robota chodzić do przodu. Wynik wyjściowy wynosił 0,060. Po uruchomieniu DGM-H wzrósł do 0,372. Co ciekawsze, agent odkrył nieoczywistą strategię: zamiast optymalizować samo chodzenie, zaczął projektować nagrody skłaniające robota do skakania, co dawało lepsze wyniki pod kątem maksymalizowania wysokości tułowia w zadaniu testowym.
W domenie recenzowania artykułów naukowych wynik skoczył z 0,0 do 0,710. System przestał polegać na powierzchownych wskazówkach behawioralnych i zaczął budować wieloetapowe procedury oceny z konkretnymi listami kryteriów.
Kluczowy eksperyment dotyczył jednak transferu umiejętności. Hyperagenci wytrenowani na robotyce i recenzjach naukowych zostali przeniesieni do oceniania zadań z matematyki olimpijskiej. Meta-agenci z poprzednich podejść kompletnie zawiodły w nowej domenie (wynik 0,0). Transferowane DGM-H Hyperagenci osiągnęły wynik 0,630. To nie jest przypadek.
Emergentna infrastruktura: czego nikt nie zaprogramował
Może najbardziej intrygującą częścią całego badania jest to, co system zrobił bez żadnych wskazówek. Podczas pracy Hyperagenci spontanicznie zbudowały własną infrastrukturę wsparcia:
- Systemy śledzenia wydajności z logowaniem metryk między pokoleniami agentów
- Trwałą pamięć z sygnaturami czasowymi dla hipotez i odkrytych zależności przyczynowo-skutkowych
- Logikę planowania uwzględniającą dostępny budżet obliczeniowy: fundamentalne zmiany architektoniczne na początku, konserwatywne korekty pod koniec
Nikt tego nie zaprojektował. System to po prostu zbudował, bo uznał, że jest mu do tego potrzebne.
Co to oznacza dla przyszłości AI agentowej
Autorzy badania wprowadzili metrykę imp@k (improvement at k), która mierzy przyrost wydajności osiągnięty przez stały meta-agent w ciągu k kroków modyfikacji. To narzędzie pozwala mierzyć nie tylko to, jak dobry jest agent, ale jak dobrze potrafi się uczyć.
Wyniki pokazują coś, co do tej pory było raczej postulatem niż zmierzonym faktem: zdolność do samodoskonalenia może być transferowalna między domenami niezwiązanymi ze sobą. Agent, który nauczył się lepiej uczyć w robotyce, potrafi zastosować tę „meta-wiedzę” do matematyki. To fundamentalna zmiana w rozumieniu tego, czym w ogóle jest generalizacja w systemach AI.
Pełna praca badawcza dostępna jest pod adresem: https://arxiv.org/pdf/2603.19461, a kod projektu na https://github.com/facebookresearch/Hyperagents.
