Google DeepMind oficjalnie zaprezentował Aletheię – agenta AI zaprojektowanego do prowadzenia w pełni autonomicznych badań matematycznych na poziomie profesjonalnych publikacji naukowych. To nie kolejny model rozwiązujący zadania olimpijskie. To system, który już opublikował pracę bez udziału człowieka.
Nazwa nie jest przypadkowa. Aletheia to greckie słowo oznaczające prawdę lub odkrycie. I ta symbolika coś mówi o ambicjach projektu.
Jak działa Aletheia
System opiera się na zaawansowanej wersji modelu Gemini Deep Think i działa w pętli złożonej z trzech komponentów:
- Generator – proponuje kandydujące rozwiązanie problemu matematycznego
- Verifier – sprawdza, czy w rozumowaniu nie ma błędów lub halucynacji, posługując się naturalnym językiem
- Reviser – koryguje wykryte błędy i powtarza cykl aż do uzyskania zatwierdzonego wyniku
Badacze DeepMind podkreślają, że kluczowe okazało się właśnie rozdzielenie etapu weryfikacji od generowania. Model wychwytuje błędy, których sam nie zauważył podczas tworzenia rozwiązania. Brzmi znajomo? To trochę jak recenzja własnego tekstu po tygodniu przerwy – nagle widzisz to, czego nie widziałeś pisząc.
Żeby unikać halucynacji w cytowaniach, Aletheia korzysta z Google Search i przegląda prawdziwą literaturę matematyczną online. To ważny detal, który odróżnia go od modeli pracujących wyłącznie na danych treningowych.
Liczby, które robią wrażenie
Na benchmarku IMO-Proof Bench Advanced Aletheia osiągnęła dokładność 95,1% – poprzedni rekord wynosił 65,7%. Skok o niemal 30 punktów procentowych w jednym kroku to rzadkość w dziedzinie AI.
Warto też zwrócić uwagę na skalowanie czasu wnioskowania: wersja Deep Think ze stycznia 2026 roku potrzebuje 100 razy mniej mocy obliczeniowej do osiągnięcia wyniku olimpijskiego niż wersja z 2025 roku. To oznacza, że każde kolejne ulepszenie staje się nie tylko skuteczniejsze, ale też tańsze w działaniu.
Autonomiczne odkrycia naukowe – już nie teoria
To, co naprawdę odróżnia Aletheię od poprzednich systemów, to konkretne, weryfikowalne osiągnięcia badawcze:
- Praca Feng26 z dziedziny geometrii arytmetycznej – wygenerowana w całości bez interwencji człowieka, sklasyfikowana jako „Level A2”, czyli autonomiczna i nadająca się do publikacji
- Praca LeeSeo26 – Aletheia dostarczyła strategiczną mapę drogową do dowodzenia ograniczeń zbiorów niezależnych, którą ludzcy autorzy przekształcili w formalny dowód
- Kampania na 700 otwartych problemów Erdősa – agent znalazł 63 technicznie poprawne rozwiązania i autonomicznie rozwiązał 4 otwarte pytania
Erdős Conjectures to zbiór problemów, nad którymi matematycy pracują od dekad. Cztery rozwiązane autonomicznie przez AI to nie jest wynik do zignorowania.
Nowa taksonomia autonomii AI
DeepMind zaproponował też coś, czego brakowało w debacie o AI w nauce – standardową skalę oceny wkładu systemów AI w badania, wzorowaną na poziomach autonomii pojazdów:
| Poziom | Opis |
|---|---|
| Level 0 | Praca ludzka, AI pomaga marginalnie |
| Level 1 | Współpraca człowieka z AI, drobna nowatorskość |
| Level 2 | Zasadniczo autonomiczne, jakość publikacyjna |
Praca Feng26 została zakwalifikowana jako A2 – autonomiczna i gotowa do recenzji naukowej. To próba zamknięcia luki między deklaracjami laboratoriów AI a standardami świata akademickiego.
Komentarz: Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Aletheia to krok, który trzeba obserwować uważnie – i nie tylko z entuzjazmem. Z jednej strony trudno nie docenić faktu, że mamy do czynienia z systemem, który rzeczywiście zamknął pętlę: sam sformułował problem, przepracował go i wytworzył wynik gotowy do recenzji. To nie jest demo na konferencji. To opublikowana praca.
Z drugiej strony – kto weryfikuje weryfikatora? Aletheia używa nieformalnego języka naturalnego do sprawdzania własnych rozumowań. To wciąż nie jest formalna weryfikacja matematyczna w sensie systemów proof-assistant jak Lean czy Coq. Czym innym jest „technicznie poprawne rozwiązanie” ocenione przez inny model językowy, a czym innym niezależna formalna weryfikacja.
I jest jeszcze pytanie systemowe: co ta zmiana oznacza dla kariery młodych matematyków? Jeśli agent AI może w ciągu godzin wygenerować pracę kwalifikującą się do publikacji, jak zmienia się wartość i ścieżka doktoratu? Czy wchodzimy w epokę, gdzie człowiek staje się redaktorem i weryfikatorem wyników AI, a nie ich autorem? To nie jest retoryczne pytanie – to kwestia, którą środowisko akademickie musi podjąć już teraz, zanim system uzyska kolejne dwa poziomy autonomii na skali DeepMind.
Co dalej?
Papier Aletheia jest dostępny publicznie na GitHubie DeepMind: github.com/google-deepmind/superhuman
Projekt wychodzi daleko poza konkursy matematyczne. Prawdziwe pytanie brzmi: kiedy podobna architektura trafi do biologii, chemii czy fizyki teoretycznej – i jak szybko akademia zdąży wypracować reguły gry na nowym boisku.
