A-Evolve: koniec ręcznego strojenia agentów AI? Amazon pokazuje nowe podejście

0:00

Zespół badaczy z Amazona opublikował framework A-Evolve, który ma zrobić z tworzeniem agentów AI to, co PyTorch zrobił z uczeniem głębokim: wyeliminować ręczną, żmudną inżynierię na rzecz automatycznej ewolucji. Brzmi jak obietnica bez pokrycia? Wyniki benchmarków sugerują, że tym razem może być inaczej.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Problem, który każdy developer agentów zna na pamięć

Ktokolwiek budował autonomicznego agenta AI, wie, jak wygląda ta pętla. Agent zawodzi na zadaniu, ty przeglądasz logi, próbujesz zrozumieć, gdzie logika się posypała, przepisujesz prompt, dodajesz nowe narzędzie i zaczynasz od nowa. Godziny mijają, a agent dalej nie działa tak jak powinien. To właśnie ten bottleneck A-Evolve chce wyeliminować.

Podstawowym założeniem frameworka jest traktowanie agenta nie jako monolitu, ale jako zbioru plików i konfiguracji, które można modyfikować automatycznie. Agent dostaje zadanie, próbuje je wykonać, a system analizuje wyniki i sam wprowadza zmiany w kodzie oraz plikach konfiguracyjnych. Bez udziału człowieka.

Agent Workspace, czyli „DNA” agenta

Kluczowym konceptem jest tzw. Agent Workspace – ustandaryzowana struktura katalogów, w której agent przechowuje wszystkie swoje „zasoby”. Składa się z pięciu elementów:

manifest.yaml – centralny plik konfiguracyjny z metadanymi i parametrami
prompts/ – instrukcje i logika sterująca rozumowaniem modelu
skills/ – wielokrotnie używalne fragmenty kodu i funkcje
tools/ – konfiguracje zewnętrznych interfejsów i API
memory/ – dane epizodyczne i historyczny kontekst

Na tych plikach pracuje bezpośrednio tzw. Mutation Engine. Nie zmienia niczego „w pamięci” tymczasowo – modyfikuje faktyczne pliki na dysku, co sprawia, że każda zmiana jest trwała i odwracalna.

Pięć kroków do lepszego agenta

Cały proces ewolucji przebiega w zamkniętej pętli złożonej z pięciu etapów: Solve (agent próbuje wykonać zadanie), Observe (system rejestruje logi i feedback), Evolve (Mutation Engine identyfikuje słabe punkty i modyfikuje workspace), Gate (nowa wersja przechodzi walidację pod kątem regresji) oraz Reload (agent startuje od nowa z zaktualizowanymi plikami).

Co istotne, każda mutacja jest automatycznie tagowana w Gicie – evo-1, evo-2 i tak dalej. Jeśli nowa wersja okaże się gorsza, system może automatycznie cofnąć się do ostatniej stabilnej. To szczegół, który w praktyce robi dużą różnicę.

Porównanie do PyTorcha jest chwytliwe marketingowo, ale warto je rozważyć poważnie. PyTorch nie zastąpił wiedzy o sieciach neuronowych – on usunął barierę wejścia i pozwolił skupić się na tym, co ważne. Jeśli A-Evolve faktycznie robi to samo z inżynierią agentów, mamy do czynienia z prawdziwą zmianą paradygmatu. Ale tu pojawiają się też pytania, których nie można zignorować: co się dzieje, gdy system ewoluuje w nieoczekiwanym kierunku? Kto odpowiada za decyzje podejmowane przez agenta, którego nikt ręcznie nie zaprogramował? Automatyczna ewolucja kodu to nie tylko wygoda – to też nowe ryzyko, które trzeba kontrolować.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl

Modułowość jako fundament

A-Evolve nie jest monolitem przywiązanym do konkretnego modelu czy środowiska. Framework działa na zasadzie „Bring Your Own” w trzech wymiarach:

BYOA (Bring Your Own Agent) pozwala używać dowolnej architektury agenta, od prostych pętli ReAct po złożone systemy wieloagentowe. BYOE (Bring Your Own Environment) zapewnia zgodność z różnymi domenami – od środowisk deweloperskich po chmurowe CLI. BYO-Algo (Bring Your Own Algorithm) daje swobodę wyboru strategii ewolucji, w tym mutacje sterowane przez LLM lub uczenie przez wzmacnianie (RL).

Ta elastyczność to duży atut. A-Evolve nie wymaga porzucenia istniejącego stacku.

Wyniki, które trudno zbagatelizować

Testy przeprowadzono z modelem z rodziny Claude na kilku wymagających benchmarkach. Rezultaty:

MCP-Atlas: 79,4% (pierwsze miejsce), wzrost o 3,4 punktu procentowego
SWE-bench Verified: 76,8% (okolice piątego miejsca), wzrost o 2,6 pp – benchmark sprawdzający rozwiązywanie prawdziwych bugów w oprogramowaniu
Terminal-Bench 2.0: 76,5% (okolice siódmego miejsca), wzrost aż o 13 punktów procentowych w zakresie pracy w środowiskach Dockerowych
SkillsBench: 34,9% (drugie miejsce), wzrost o 15,2 pp

Szczególnie interesujący jest przypadek MCP-Atlas. System startował z podstawowym, dwudziestoliniowym promptem bez żadnych zdefiniowanych umiejętności. Po cyklach ewolucji agent sam stworzył pięć nowych, celowanych skillów i wylądował na szczycie zestawienia.

Trzy linijki kodu

Integracja z A-Evolve ma być prosta do bólu. Autorzy pokazują przykład inicjalizacji:

import agent_evolve as ae

evolver = ae.Evolver(agent="./my_agent", benchmark="swe-verified")
results = evolver.run(cycles=10)

Dostarczasz swojego agenta bazowego, A-Evolve zwraca agenta zoptymalizowanego pod konkretny benchmark. Zero godzin ręcznej inżynierii – przynajmniej w teorii.

Repozytorium projektu dostępne jest na GitHubie pod adresem: https://github.com/A-EVO-Lab/a-evolve

Co to oznacza w praktyce?

Pytanie, które warto zadać, brzmi: czy to narzędzie dla badaczy, czy już dla inżynierów produkcyjnych? Na ten moment A-Evolve wydaje się bliższe środowisku akademickiemu i zaawansowanym zespołom R&D niż typowym firmom wdrażającym agentów. Ale historia PyTorcha pokazuje, że droga od laboratorium do mainstreamu może być zaskakująco krótka.

Jeśli automatyczna ewolucja agentów stanie się standardem, zmieni się nie tylko workflow deweloperów – zmieni się też to, czego od nich oczekujemy. Mniej ręcznego dostrajania, więcej nadzoru i rozumienia tego, co właściwie ewoluuje pod maską.

Oceń artykuł

Średnia: 4.8 (7 ocen)

A-Evolve: koniec ręcznego strojenia agentów AI? Amazon pokazuje nowe podejście

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

A-Evolve: koniec ręcznego strojenia agentów AI? Amazon pokazuje nowe podejście

Problem, który każdy developer agentów zna na pamięć

Agent Workspace, czyli „DNA” agenta

Pięć kroków do lepszego agenta

Modułowość jako fundament

Wyniki, które trudno zbagatelizować

Trzy linijki kodu

Co to oznacza w praktyce?

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas