Andrej Karpathy opublikował na GitHubie narzędzie o nazwie autoresearch, które pozwala agentom AI autonomicznie prowadzić eksperymenty z uczeniem maszynowym. To zaledwie 630 linii kodu w Pythonie, ale pomysł, który za tym stoi, jest znacznie większy niż sugeruje skromna objętość pliku.
Projekt wyrósł z wewnętrznego rdzenia treningowego nanochat, który Karpathy okroił do absolutnego minimum: jeden plik, jedno GPU NVIDIA, zero zbędnych abstrakcji. Cały cykl pracy opiera się na prostym, ale skutecznym podziale ról: człowiek pisze instrukcje w Markdownie, agent AI modyfikuje skrypt treningowy w Pythonie, a następnie sam uruchamia trening i ocenia wyniki.
Jak to działa w praktyce?
Każda iteracja trwa dokładnie pięć minut. Agent dostaje plik z wytycznymi, wprowadza zmiany do architektury sieci, optymalizatora lub hiperparametrów, odpala trening i mierzy wynik. Jako miarę jakości używa BPB (bits-per-byte), czyli wskaźnika efektywności kompresji modelu na zbiorze walidacyjnym. Niższy BPB oznacza lepszy model.
Kluczowy mechanizm to warunkowy commit: agent zapisuje zmiany do gałęzi w repozytorium git tylko wtedy, gdy nowy wynik BPB jest lepszy od poprzedniego najlepszego. Jeśli zmiana pogorszyła model, po prostu ją odrzuca i próbuje dalej.
W pierwszych demonstracjach Karpathy pokazał, jak agent samodzielnie obniżył BPB z 1,0 do 0,97, iterując przez kolejne wersje kodu bez żadnej ręcznej interwencji.
I packaged up the „autoresearch” project into a new self-contained minimal repo if people would like to play over the weekend. It’s basically nanochat LLM training core stripped down to a single-GPU, one file version of ~630 lines of code, then: – the human iterates on the…
— Andrej Karpathy (@karpathy) March 7, 2026
Shopify CEO testuje od razu i osiąga 19% poprawy
Na projekt szybko zareagował Tobi Lutke, CEO Shopify, który zaadaptował autoresearch do wewnętrznego projektu związanego z modelem do rozwijania zapytań. Efekt: 19-procentowa poprawa wyników walidacyjnych. Co ciekawe, mniejszy model wytrenowany przez agenta ostatecznie pobił większy model skonfigurowany ręcznie przez inżynierów.
OK this thing is totally insane. Before going to bed I… * used try to make a new qmdresearcher directory * told my pi to read this github repo and make a version of that for the qmd query-expansion model with the goal of highest quality score and speed.
— tobi lutke (@tobi) March 8, 2026
Karpathy zauważył, że konkretne poprawki odkryte przez agenta trafiły z powrotem do jego szerszego projektu nanochat, co potwierdza, że narzędzie może znajdować optymalizacje przydatne w systemach produkcyjnych, nie tylko w zabawkowych eksperymentach.
Dlaczego 630 linii, a nie 6300?
To nie przypadek. Karpathy świadomie utrzymał cały kod w rozmiarze mieszczącym się w oknie kontekstu nowoczesnych modeli językowych. Dzięki temu agent „widzi” cały skrypt naraz, co redukuje ryzyko błędów przy generowaniu kodu i pozwala mu zachować spójne rozumienie całości systemu.
To też zmienia sposób myślenia o roli inżyniera. Zamiast ręcznie strojić hiperparametry, zadanie przesuwa się w stronę pisania lepszych instrukcji dla agenta. Prompt engineering zastępuje hyperparameter tuning. Brzmi jak uproszczenie, ale wcale takim nie jest.
Komentarz redaktora
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Autoresearch to jeden z tych projektów, które nie robią dużego hałasu, a mogą mieć spore znaczenie. Z jednej strony widać tu coś naprawdę interesującego: AI, które samo eksperymentuje, samo ocenia wyniki i samo decyduje, co zachować. To jest dokładnie ten kierunek, który od dawna przewijał się w dyskusjach o AI for science.
Z drugiej strony warto zadać kilka niewygodnych pytań. Jeśli agent optymalizuje pod konkretną metrykę (BPB), to optymalizuje tylko pod tę metrykę. Co z bezpieczeństwem wynikającego modelu? Co z interpretowalności? Co z tym, czego metryka nie mierzy? Historia machine learningu zna wiele przypadków, gdzie optymalizacja pod wskaźnik dawała modele, które „oszukiwały” benchmark zamiast rozwiązywać problem. Czy agent Karpathy’ego jest na to odporny? Tego nie wiemy.
Projekt robi też coś ważnego w sensie demokratyzacji: jeden GPU, 630 linii, otwarte repozytorium. Każdy z dostępem do pojedynczej karty graficznej może to uruchomić. To nie jest zabawka tylko dla laboratoriów z klastrem A100. I to jest chyba najbardziej wartościowy aspekt tego narzędzia.
Co zmienia autoresearch dla społeczności open source?
Kilka rzeczy warto zebrać w całość:
- Próg wejścia jest bardzo niski – jedno GPU wystarczy, żeby uruchomić pełny cykl badawczy
- Cały projekt mieści się w kontekście LLM – agent może czytać i modyfikować cały swój własny kod naraz
- Wyniki są weryfikowalne i deterministyczne – każdy 5-minutowy sprint to jeden punkt danych w historii gita
- Odkrycia przenoszą się do produkcji – poprawki znalezione przez agenta trafiły do nanochat
Sam Karpathy zaprezentował projekt jako coś do „zabawy przez weekend”, ale reakcja Lutke’a pokazuje, że granica między weekendowym eksperymentem a realnym zastosowaniem produkcyjnym jest dziś wyjątkowo cienka.
Repozytorium jest dostępne na GitHubie pod adresem github.com/karpathy/autoresearch.
