Zespół Google Cloud AI Research zaprezentował PaperOrchestra, wieloagentowy system, który przekształca surowe notatki badawcze i wyniki eksperymentów w gotowy do publikacji manuskrypt naukowy. System generuje kompletny dokument LaTeX wraz z przeglądem literatury, wykresami i zweryfikowanymi cytowaniami w niecałe 40 minut.
Problem, który rozwiązuje PaperOrchestra
Pisanie artykułu naukowego to mordęga. Nawet gdy eksperymenty są zakończone, badacz musi spędzić tygodnie na przekształcaniu chaotycznych notatek laboratoryjnych, rozrzuconych tabel z wynikami i niedopracowanych koncepcji w dopracowany, logicznie spójny manuskrypt sformatowany zgodnie z wymogami konferencji.
Wcześniejsze systemy automatyzacji pisania, takie jak PaperRobot, potrafiły generować sekwencyjny tekst, ale nie radziły sobie z pełną złożonością narracji opartej na danych. Nowsze frameworki badawcze jak AI Scientist-v1 i AI Scientist-v2 automatyzują cały cykl badawczy, ale ich moduły pisarskie są ściśle powiązane z własnymi wewnętrznymi pipeline’ami eksperymentalnymi. Nie można im po prostu przekazać własnych danych i oczekiwać artykułu.
Systemy specjalizujące się w przeglądach literatury, takie jak AutoSurvey2 i LiRA, produkują obszerne opracowania, ale nie potrafią napisać celowanej sekcji „Related Work”, która jasno pozycjonuje nową metodę względem wcześniejszych prac.
Jak działa pipeline PaperOrchestra
System orkiestruje pięć wyspecjalizowanych agentów pracujących sekwencyjnie, z dwoma działającymi równolegle:
- Outline Agent – czyta podsumowanie pomysłu, log eksperymentalny, szablon LaTeX i wytyczne konferencji, a następnie tworzy strukturalny zarys JSON
- Plotting Agent – wykonuje plan wizualizacji przy użyciu PaperBanana, narzędzia do ilustracji akademickich z krytykiem VLM
- Literature Review Agent – przeprowadza dwufazowy pipeline cytowań z weryfikacją przez API Semantic Scholar
- Section Writing Agent – pisze pozostałe sekcje: abstrakt, metodologię, eksperymenty i wnioski
- Content Refinement Agent – iteracyjnie optymalizuje manuskrypt przy użyciu AgentReview, symulowanego systemu recenzji
Cały pipeline wykonuje około 60-70 wywołań API LLM i kończy się średnio w 39,6 minuty na artykuł.
Komentarz redaktora / Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
PaperOrchestra to fascynujący przykład tego, dokąd zmierza automatyzacja w świecie nauki. Z jednej strony widzę ogromny potencjał: młodzi badacze, dla których bariera wejścia do publikowania jest często nie merytoryczna, ale technologiczna i językowa, mogliby zyskać cenne narzędzie wyrównujące szanse. Z drugiej strony pojawia się pytanie o przyszłość recenzji naukowej. Jeśli AI pisze artykuły, a AgentReview je ocenia, to gdzie w tym procesie jest miejsce dla ludzkiego osądu naukowego? I co się stanie, gdy wszyscy zaczną używać podobnych narzędzi? Czy nie zaleją nas konferencje wystandaryzowanymi, ale pozbawionymi oryginalnego głosu artykułami? Google słusznie podkreśla, że to narzędzie asystujące, a badacz pozostaje odpowiedzialny za rzetelność. Ale granica między asystą a zastąpieniem bywa płynna.
Benchmark i wyniki
Zespół wprowadził również PaperWritingBench, pierwszy wystandaryzowany benchmark do pisania artykułów naukowych przez AI. Zawiera 200 zaakceptowanych artykułów z CVPR 2025 i ICLR 2025.
W automatycznych ewaluacjach PaperOrchestra zdominował konkurencję w jakości przeglądu literatury, osiągając przewagę 88-99% nad bazami AI. W ogólnej jakości artykułu przewyższył AI Scientist-v2 o 39-86%.
Liczby dotyczące pokrycia cytowań mówią same za siebie. Bazy AI generowały średnio zaledwie 9,75-14,18 cytowań na artykuł. PaperOrchestra wygenerował średnio 45,73-47,98 cytowań, co odzwierciedla około 59 cytowań występujących w artykułach pisanych przez ludzi.
Kluczowe wnioski
PaperOrchestra to samodzielny pisarz, nie bot badawczy. System jest zaprojektowany do pracy z materiałami użytkownika bez konieczności samodzielnego przeprowadzania eksperymentów.
Jakość cytowań, nie ich liczba, stanowi prawdziwy wyróżnik. Konkurencyjne systemy generowały 9-14 cytowań na artykuł, głównie „oczywiste” referencje. PaperOrchestra dramatycznie poprawił pokrycie szerszego krajobrazu akademickiego.
Agent Content Refinement nie jest opcjonalny. Ablacje pokazują, że usunięcie iteracyjnej pętli recenzji powoduje drastyczny spadek jakości. Dopracowane manuskrypty wygrywają z niedopracowanymi wersjami w 79-81% przypadków.
Ludzcy badacze nadal pozostają w pętli decyzyjnej i muszą tam być. System jawnie nie może fabrykować nowych wyników eksperymentalnych, a jego agent udoskonalający jest instruowany, by ignorować prośby recenzentów o dane, które nie istnieją w logu eksperymentalnym.
