Zespół badaczy z Amazona opublikował framework A-Evolve, który ma zrobić z tworzeniem agentów AI to, co PyTorch zrobił z uczeniem głębokim: wyeliminować ręczną, żmudną inżynierię na rzecz automatycznej ewolucji. Brzmi jak obietnica bez pokrycia? Wyniki benchmarków sugerują, że tym razem może być inaczej.
Problem, który każdy developer agentów zna na pamięć
Ktokolwiek budował autonomicznego agenta AI, wie, jak wygląda ta pętla. Agent zawodzi na zadaniu, ty przeglądasz logi, próbujesz zrozumieć, gdzie logika się posypała, przepisujesz prompt, dodajesz nowe narzędzie i zaczynasz od nowa. Godziny mijają, a agent dalej nie działa tak jak powinien. To właśnie ten bottleneck A-Evolve chce wyeliminować.
Podstawowym założeniem frameworka jest traktowanie agenta nie jako monolitu, ale jako zbioru plików i konfiguracji, które można modyfikować automatycznie. Agent dostaje zadanie, próbuje je wykonać, a system analizuje wyniki i sam wprowadza zmiany w kodzie oraz plikach konfiguracyjnych. Bez udziału człowieka.
Agent Workspace, czyli „DNA” agenta
Kluczowym konceptem jest tzw. Agent Workspace – ustandaryzowana struktura katalogów, w której agent przechowuje wszystkie swoje „zasoby”. Składa się z pięciu elementów:
manifest.yaml– centralny plik konfiguracyjny z metadanymi i parametramiprompts/– instrukcje i logika sterująca rozumowaniem modeluskills/– wielokrotnie używalne fragmenty kodu i funkcjetools/– konfiguracje zewnętrznych interfejsów i APImemory/– dane epizodyczne i historyczny kontekst
Na tych plikach pracuje bezpośrednio tzw. Mutation Engine. Nie zmienia niczego „w pamięci” tymczasowo – modyfikuje faktyczne pliki na dysku, co sprawia, że każda zmiana jest trwała i odwracalna.
Pięć kroków do lepszego agenta
Cały proces ewolucji przebiega w zamkniętej pętli złożonej z pięciu etapów: Solve (agent próbuje wykonać zadanie), Observe (system rejestruje logi i feedback), Evolve (Mutation Engine identyfikuje słabe punkty i modyfikuje workspace), Gate (nowa wersja przechodzi walidację pod kątem regresji) oraz Reload (agent startuje od nowa z zaktualizowanymi plikami).
Co istotne, każda mutacja jest automatycznie tagowana w Gicie – evo-1, evo-2 i tak dalej. Jeśli nowa wersja okaże się gorsza, system może automatycznie cofnąć się do ostatniej stabilnej. To szczegół, który w praktyce robi dużą różnicę.
Porównanie do PyTorcha jest chwytliwe marketingowo, ale warto je rozważyć poważnie. PyTorch nie zastąpił wiedzy o sieciach neuronowych – on usunął barierę wejścia i pozwolił skupić się na tym, co ważne. Jeśli A-Evolve faktycznie robi to samo z inżynierią agentów, mamy do czynienia z prawdziwą zmianą paradygmatu. Ale tu pojawiają się też pytania, których nie można zignorować: co się dzieje, gdy system ewoluuje w nieoczekiwanym kierunku? Kto odpowiada za decyzje podejmowane przez agenta, którego nikt ręcznie nie zaprogramował? Automatyczna ewolucja kodu to nie tylko wygoda – to też nowe ryzyko, które trzeba kontrolować.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Modułowość jako fundament
A-Evolve nie jest monolitem przywiązanym do konkretnego modelu czy środowiska. Framework działa na zasadzie „Bring Your Own” w trzech wymiarach:
BYOA (Bring Your Own Agent) pozwala używać dowolnej architektury agenta, od prostych pętli ReAct po złożone systemy wieloagentowe. BYOE (Bring Your Own Environment) zapewnia zgodność z różnymi domenami – od środowisk deweloperskich po chmurowe CLI. BYO-Algo (Bring Your Own Algorithm) daje swobodę wyboru strategii ewolucji, w tym mutacje sterowane przez LLM lub uczenie przez wzmacnianie (RL).
Ta elastyczność to duży atut. A-Evolve nie wymaga porzucenia istniejącego stacku.
Wyniki, które trudno zbagatelizować
Testy przeprowadzono z modelem z rodziny Claude na kilku wymagających benchmarkach. Rezultaty:
- MCP-Atlas: 79,4% (pierwsze miejsce), wzrost o 3,4 punktu procentowego
- SWE-bench Verified: 76,8% (okolice piątego miejsca), wzrost o 2,6 pp – benchmark sprawdzający rozwiązywanie prawdziwych bugów w oprogramowaniu
- Terminal-Bench 2.0: 76,5% (okolice siódmego miejsca), wzrost aż o 13 punktów procentowych w zakresie pracy w środowiskach Dockerowych
- SkillsBench: 34,9% (drugie miejsce), wzrost o 15,2 pp
Szczególnie interesujący jest przypadek MCP-Atlas. System startował z podstawowym, dwudziestoliniowym promptem bez żadnych zdefiniowanych umiejętności. Po cyklach ewolucji agent sam stworzył pięć nowych, celowanych skillów i wylądował na szczycie zestawienia.
Trzy linijki kodu
Integracja z A-Evolve ma być prosta do bólu. Autorzy pokazują przykład inicjalizacji:
import agent_evolve as ae
evolver = ae.Evolver(agent="./my_agent", benchmark="swe-verified")
results = evolver.run(cycles=10)
Dostarczasz swojego agenta bazowego, A-Evolve zwraca agenta zoptymalizowanego pod konkretny benchmark. Zero godzin ręcznej inżynierii – przynajmniej w teorii.
Repozytorium projektu dostępne jest na GitHubie pod adresem: https://github.com/A-EVO-Lab/a-evolve
Co to oznacza w praktyce?
Pytanie, które warto zadać, brzmi: czy to narzędzie dla badaczy, czy już dla inżynierów produkcyjnych? Na ten moment A-Evolve wydaje się bliższe środowisku akademickiemu i zaawansowanym zespołom R&D niż typowym firmom wdrażającym agentów. Ale historia PyTorcha pokazuje, że droga od laboratorium do mainstreamu może być zaskakująco krótka.
Jeśli automatyczna ewolucja agentów stanie się standardem, zmieni się nie tylko workflow deweloperów – zmieni się też to, czego od nich oczekujemy. Mniej ręcznego dostrajania, więcej nadzoru i rozumienia tego, co właściwie ewoluuje pod maską.
