Czy sztuczna inteligencja może zastąpić nauczyciela w ocenianiu czegoś tak nieuchwytnego jak krytyczne myślenie albo umiejętność rozwiązywania konfliktów? Google twierdzi, że tak – i ma na to dane.
Czego nie mierzy żaden test
Od lat eksperci od edukacji i rynku pracy mówią to samo: wiedza twarda to za mało. Raporty OECD, kolejne edycje Future of Jobs Report Światowego Forum Ekonomicznego – wszędzie powtarza się ten sam zestaw: krytyczne myślenie, kreatywność, współpraca. Tak zwane „future-ready skills”, czyli kompetencje odporne na automatyzację.
Problem jest jednak fundamentalny: jak to zmierzyć? Tradycyjne testy są zbyt sztywne. Projekty grupowe – zbyt chaotyczne i subiektywne. Ocena przez nauczyciela – zbyt zasobochłonna, żeby skalować na tysiące uczniów jednocześnie.
Google Research postanowiło to zmienić.
Czym jest Vantage
Vantage to eksperyment badawczy opracowany przez Google Research we współpracy z New York University. System umieszcza ucznia lub studenta w symulowanym środowisku rozmów z awatarami AI, które wcielają się w role współpracowników. Zadania są otwarte: przygotowanie debaty, przedstawienie pomysłu projektowego, zarządzanie konfliktem w zespole.
Kluczem jest tzw. Executive LLM – model, który na bieżąco analizuje przebieg rozmowy i dynamicznie wprowadza do niej wyzwania. Jeśli użytkownik nie wykazał się dotąd umiejętnością radzenia sobie ze sprzeciwem, system sprawi, że jeden z awatarów zacznie kwestionować jego decyzje. Chodzi o to, żeby do końca rozmowy zebrać wystarczająco dużo informacji diagnostycznych.
Po zakończeniu zadania osobny moduł – AI Evaluator – analizuje transkrypt i generuje „skill map”: wizualną ocenę z jakościowym feedbackiem w podziale na konkretne kompetencje.
Wyniki badania z NYU
To, co wyróżnia Vantage od dziesiątek podobnych projektów edtech, to metodologia weryfikacji. Google i NYU przeprowadziły wspólne badanie z udziałem 188 osób w wieku 18–25 lat, testując ocenę dwóch kompetencji: rozwiązywania konfliktów i zarządzania projektem.
Wnioski były jednoznaczne:
- AI Evaluator osiągnął zgodność z oceną ludzkich ekspertów na poziomie porównywalnym do zgodności między dwoma niezależnymi ludzkimi oceniającymi
- Executive LLM skutecznie kierował rozmową tak, aby zebrać informacje diagnostyczne – rozmowy „sterowane” zawierały statystycznie więcej danych potrzebnych do oceny niż rozmowy z niezależnymi awatarami
- W osobnym badaniu z firmą OpenMic, dotyczącym kreatywności i edukacji językowej, współczynnik korelacji Pearsona między oceną AI a oceną ekspercką wyniósł 0,88
To nie jest proof-of-concept. To już coś bliższego walidacji.
Komentarz redaktora
Vantage to jeden z niewielu projektów AI w edukacji, który nie zaczyna od odpowiedzi, lecz od pytania: jak w ogóle mierzyć coś, czego mierzyć się nie da? I na tym polega jego siła. Jednak zanim rzucimy się z entuzjazmem, warto zatrzymać się na chwilę. Ocena umiejętności miękkich przez AI w symulowanym środowisku to jedno – ale czy wynik z rozmowy z botami przekłada się na realne zachowanie w zespole ludzi? Google zapowiada dalsze badania nad „transferowalnością” tych wyników, co jest uczciwe. Pytanie o to, czy nie tworzymy kolejnej formy teaching to the test – tym razem do algorytmu zamiast do standardowego testu – pozostaje otwarte. A jeśli uczniowie nauczą się „grać pod AI Evaluatora”, cały eksperyment traci sens. Cieszę się, że ktoś w końcu podszedł do tego problemu z rygorem naukowym. Ale od eksperymentu na Google Labs do wdrożenia w polskiej szkole publicznej – droga jest bardzo długa.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Jak to wygląda w praktyce
Użytkownik loguje się do Vantage przez Google Labs (dostępne w języku angielskim), wybiera scenariusz i wchodzi w rozmowę z awatarami. System sam decyduje, kiedy i jak zakwestionować decyzje uczestnika – bez z góry ustalonego skryptu. Ocena pojawia się po zakończeniu sesji w formie mapy kompetencji z komentarzem.
Google wskazuje kilka możliwych zastosowań w szkole:
- debatowanie zagadnień z nauk społecznych z awatarami AI
- wcielanie się w rolę lidera zespołu planującego eksperyment laboratoryjny
- ocena równoległa: wiedzy przedmiotowej i jakości współpracy
Brzmi jak przyszłość edukacji. Albo jak kolejny edtech-hype, który rozbije się o rzeczywistość klas z 30 uczniami i jednym komputerem.
Co dalej z Vantage
Google Research zapowiada trzy kierunki rozwoju projektu. Po pierwsze, badania nad transferowalnością – czy umiejętności wykazane w symulacji faktycznie działają w kontaktach z prawdziwymi ludźmi. Po drugie, inkluzywność kulturowa – bo „umiejętność rozwiązywania konfliktów” wygląda inaczej w różnych kulturach i kontekstach. Po trzecie, i to najważniejsze – przejście od pomiaru do faktycznego rozwijania kompetencji poprzez ćwiczenia w środowisku symulowanym.
Vantage jest już dostępny do rejestracji na labs.google/vantage. Na razie tylko po angielsku, na razie tylko jako eksperyment. Ale biorąc pod uwagę skalę infrastruktury Google i zainteresowanie sektora HR narzędziami do oceny kandydatów – można się spodziewać, że to nie będzie długo pozostawać w fazie laboratoryjnej.
