Hyperagenci Mety przepisują własny kod uczenia się. To może być przełom w historii AI

0:00

Meta AI opublikowała wyniki badań nad systemem zwanym Hyperagentami, który nie tylko rozwiązuje zadania, ale modyfikuje własne mechanizmy uczenia się. Brzmi jak science fiction? To już dzieje się w laboratoriach.

Od dekad marzenie o AI zdolnej do rekurencyjnego samodoskonalenia pozostawało w sferze teorii. Koncepcja „Maszyny Gödla” istniała na papierze od lat, ale nikt nie potrafił jej sensownie wdrożyć w praktyce. To zmieniło się częściowo wraz z projektem Darwin Gödel Machine (DGM), który pokazał, że otwarte samodoskonalenie systemu AI jest możliwe przynajmniej w dziedzinie programowania.

DGM miał jednak poważne ograniczenie: mechanizm generowania ulepszeń był z góry zaprojektowany przez człowieka i niezmienny. System poprawiał swoją wydajność zadaniową, ale nie mógł poprawić sposobu, w jaki sam siebie poprawia. Naukowcy z Uniwersytetu Kolumbii Brytyjskiej, Vector Institute, Uniwersytetu Edynburskiego, NYU, a przede wszystkim z FAIR przy Meta i Meta Superintelligence Labs postanowili wyeliminować właśnie tę barierę.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Czym są Hyperagenci i co ich wyróżnia

Nowy framework, DGM-Hyperagent (DGM-H), scala agenta zadaniowego i agenta meta-poziomowego w jeden, w pełni edytowalny program. Co to oznacza w praktyce? Agent, który rozwiązuje problemy, i agent, który go ulepsza, to teraz ten sam kod. I oba elementy mogą być przepisywane.

Badacze nazywają to „metapoznawczą automodyfikacją” (metacognitive self-modification). System nie szuka tylko lepszego rozwiązania konkretnego zadania. Przepisuje reguły, według których w ogóle generuje przyszłe ulepszenia.

Warto tu zaznaczyć fundamentalną różnicę w stosunku do poprzednich podejść. Wcześniejsze systemy samodoskonalące zakładały, że umiejętność rozwiązywania zadań i umiejętność samomodyfikacji muszą być ze sobą powiązane. W kodowaniu to miało sens: lepsze rozumienie kodu przekłada się na lepszą jego modyfikację. Ale w robotyce, recenzowaniu prac naukowych albo matematyce olimpijskiej? Ta zależność po prostu nie istnieje. DGM-H eliminuje ten wymóg całkowicie.

Głos redakcji

Obserwuję kolejne prace badawcze dotyczące samodoskonalących się systemów AI i za każdym razem staram się zachować równowagę między fascynacją a chłodną oceną. Z jednej strony wyniki DGM-H są naprawdę imponujące i trudno je zbagatelizować. Z drugiej strony musimy zadać sobie szczere pytanie: gdzie jest człowiek w tym procesie? System, który samodzielnie przepisuje własne mechanizmy uczenia się, z definicji generuje zachowania, których projektanci nie przewidzieli. W eksperymencie z robotyką agent odkrył, że skakanie jest lepszą strategią niż stanie prosto. To fascynujące. Ale co się stanie, gdy taki system zacznie „odkrywać” strategie w domenach o wyższej stawce? Nie mówię, że to badanie jest złe, wręcz przeciwnie. Mówię, że tempo, w jakim akademicka teoria przekształca się w gotowe rozwiązania, wymaga równie szybkiego dojrzewania ram bezpieczeństwa i nadzoru. Czy Meta jest na to gotowa? Czy w ogóle ktoś jest?

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Wyniki testów: robotyka, recenzje naukowe, matematyka olimpijska

Badacze przetestowali DGM-H w czterech różnych obszarach. Wyniki są na tyle konkretne, że warto je przytoczyć bez owijania w bawełnę.

W zadaniu projektowania funkcji nagrody dla robota czworonożnego w symulatorze Genesis, system miał za zadanie nauczyć robota chodzić do przodu. Wynik wyjściowy wynosił 0,060. Po uruchomieniu DGM-H wzrósł do 0,372. Co ciekawsze, agent odkrył nieoczywistą strategię: zamiast optymalizować samo chodzenie, zaczął projektować nagrody skłaniające robota do skakania, co dawało lepsze wyniki pod kątem maksymalizowania wysokości tułowia w zadaniu testowym.

W domenie recenzowania artykułów naukowych wynik skoczył z 0,0 do 0,710. System przestał polegać na powierzchownych wskazówkach behawioralnych i zaczął budować wieloetapowe procedury oceny z konkretnymi listami kryteriów.

Kluczowy eksperyment dotyczył jednak transferu umiejętności. Hyperagenci wytrenowani na robotyce i recenzjach naukowych zostali przeniesieni do oceniania zadań z matematyki olimpijskiej. Meta-agenci z poprzednich podejść kompletnie zawiodły w nowej domenie (wynik 0,0). Transferowane DGM-H Hyperagenci osiągnęły wynik 0,630. To nie jest przypadek.

Emergentna infrastruktura: czego nikt nie zaprogramował

Może najbardziej intrygującą częścią całego badania jest to, co system zrobił bez żadnych wskazówek. Podczas pracy Hyperagenci spontanicznie zbudowały własną infrastrukturę wsparcia:

Systemy śledzenia wydajności z logowaniem metryk między pokoleniami agentów
Trwałą pamięć z sygnaturami czasowymi dla hipotez i odkrytych zależności przyczynowo-skutkowych
Logikę planowania uwzględniającą dostępny budżet obliczeniowy: fundamentalne zmiany architektoniczne na początku, konserwatywne korekty pod koniec

Nikt tego nie zaprojektował. System to po prostu zbudował, bo uznał, że jest mu do tego potrzebne.

Co to oznacza dla przyszłości AI agentowej

Autorzy badania wprowadzili metrykę imp@k (improvement at k), która mierzy przyrost wydajności osiągnięty przez stały meta-agent w ciągu k kroków modyfikacji. To narzędzie pozwala mierzyć nie tylko to, jak dobry jest agent, ale jak dobrze potrafi się uczyć.

Wyniki pokazują coś, co do tej pory było raczej postulatem niż zmierzonym faktem: zdolność do samodoskonalenia może być transferowalna między domenami niezwiązanymi ze sobą. Agent, który nauczył się lepiej uczyć w robotyce, potrafi zastosować tę „meta-wiedzę” do matematyki. To fundamentalna zmiana w rozumieniu tego, czym w ogóle jest generalizacja w systemach AI.

Pełna praca badawcza dostępna jest pod adresem: https://arxiv.org/pdf/2603.19461, a kod projektu na https://github.com/facebookresearch/Hyperagents.

Oceń artykuł

Średnia: 4.9 (11 ocen)

Hyperagenci Mety przepisują własny kod uczenia się. To może być przełom w historii AI

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

Hyperagenci Mety przepisują własny kod uczenia się. To może być przełom w historii AI

Czym są Hyperagenci i co ich wyróżnia

Głos redakcji

Wyniki testów: robotyka, recenzje naukowe, matematyka olimpijska

Emergentna infrastruktura: czego nikt nie zaprogramował

Co to oznacza dla przyszłości AI agentowej

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas