Google DeepMind opublikowało nowy artykuł naukowy, w którym proponuje konkretne ramy do mierzenia postępów w kierunku AGI – sztucznej ogólnej inteligencji. Jednocześnie firma uruchamia hackathon na platformie Kaggle z pulą nagród 200 000 dolarów.
Temat AGI od lat budzi emocje – i równie często bywa nadużywany marketingowo, co poważnie traktowany przez badaczy. Tym razem Google DeepMind podchodzi do sprawy inaczej niż większość: zamiast ogłaszać, że „już prawie tam jesteśmy”, pyta – a właściwie przyznaje wprost – że brakuje nam narzędzi do rzetelnej oceny, jak blisko AGI faktycznie się znajdujemy.
Odpowiedzią ma być praca „Measuring Progress Toward AGI: A Cognitive Taxonomy”, dostępna już publicznie. Jej autorzy, Ryan Burnell i Oran Kelly z Google DeepMind, czerpią z dekad badań z zakresu psychologii, neuronauki i kognitywistyki, by stworzyć coś, czego branży AI do tej pory brakowało: taksonomię zdolności poznawczych jako punkt odniesienia dla oceny systemów AI.
Dziesięć zdolności, które mają definiować ogólną inteligencję
Zaproponowany framework identyfikuje 10 kluczowych zdolności kognitywnych, które – zdaniem badaczy – będą niezbędne dla ogólnej inteligencji w systemach AI:
- Percepcja – ekstrakcja i przetwarzanie informacji zmysłowych ze środowiska
- Generowanie – produkowanie wyników: tekstu, mowy, działań
- Uwaga – kierowanie zasobów kognitywnych na to, co istotne
- Uczenie się – przyswajanie nowej wiedzy przez doświadczenie i instrukcje
- Pamięć – przechowywanie i odtwarzanie informacji w czasie
- Rozumowanie – wyciąganie wniosków przez logiczne wnioskowanie
- Metapoznanie – wiedza o własnych procesach myślowych i ich monitorowanie
- Funkcje wykonawcze – planowanie, hamowanie impulsów i elastyczność poznawcza
- Rozwiązywanie problemów – znajdowanie skutecznych rozwiązań w konkretnych domenach
- Poznanie społeczne – przetwarzanie informacji społecznych i adekwatne reagowanie
Do oceny systemów AI w każdym z tych obszarów badacze proponują trzystopniowy protokół ewaluacji: najpierw testowanie modeli na szerokim zestawie zadań kognitywnych z użyciem ukrytych zestawów testowych (by uniknąć kontaminacji danych), następnie zebranie wzorców ludzkich od demograficznie reprezentatywnej grupy dorosłych, a na końcu porównanie wyników systemu AI z rozkładem wyników ludzi w każdej zdolności.
To podejście ma sens – i dobrze, że ktoś wreszcie próbuje nadać tej dyskusji naukowy kręgosłup. Przez lata słyszeliśmy deklaracje firm o „osiągnięciu AGI” lub „byciu tuż przed przełomem”, które nie były poparte żadną metodologią. Framework Google DeepMind to krok w dobrym kierunku. Ale warto zadać pytanie: czy mierzenie zdolności kognitywnych AI na tle ludzkiej normy to właściwy punkt odniesienia? Inteligencja ogólna u człowieka wyewoluowała w konkretnym kontekście biologicznym i społecznym. AI działa inaczej – i może osiągać zdolności, które nie mieszczą się w tej taksonomii. Czy nie ryzykujemy stworzenia miary, która z założenia ogranicza naszą wyobraźnię co do tego, czym AGI w ogóle może być?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Hackathon z 200 000 dolarów w nagrodach
Sam framework to jednak tylko teoria. Żeby ją wdrożyć, potrzeba konkretnych narzędzi ewaluacyjnych – i tu właśnie wchodzi Kaggle. Google DeepMind uruchamia hackathon „Measuring progress toward AGI: Cognitive abilities”, w którym badacze i entuzjaści mogą projektować testy dla pięciu zdolności kognitywnych, gdzie luka ewaluacyjna jest największa: uczenia się, metapoznania, uwagi, funkcji wykonawczych i poznania społecznego.
Uczestnicy mogą korzystać z nowo uruchomionej platformy Kaggle Community Benchmarks, by testować swoje propozycje na czołowych modelach językowych. Zgłoszenia przyjmowane są od 17 marca do 16 kwietnia 2026 roku, wyniki zostaną ogłoszone 1 czerwca.
Pula nagród wynosi 200 000 dolarów – po 10 000 dolarów dla dwóch najlepszych zgłoszeń w każdym z pięciu obszarów tematycznych, oraz cztery nagrody główne po 25 000 dolarów dla absolutnie najlepszych propozycji łącznie.
Dlaczego to ważne teraz
Branża AI od dawna zmaga się z problemem „benchmark overfitting” – modele osiągają imponujące wyniki na znanych zestawach testowych, ale niekoniecznie przekłada się to na rzeczywiste, ogólne możliwości. Inicjatywa Google DeepMind to próba zbudowania czegoś trwalszego: miary postępu, która nie daje się łatwo „nauczyć na pamięć”.
Czy to się uda? Hackathon pokaże, czy społeczność badawcza jest w stanie wypełnić framework treścią. Na razie mamy solidnie napisany artykuł i konkurs z sensowną pulą nagród. Jak to zwykle w nauce bywa – diabeł tkwi w szczegółach implementacji.
