Badacze z Google Research opublikowali pracę, która podważa jeden z fundamentalnych założeń oceny modeli AI. Okazuje się, że standardowe 3-5 oceniających na próbkę danych to zdecydowanie za mało, by wyniki benchmarków były naprawdę wiarygodne i powtarzalne.
Flip Korn i Chris Welty z Google Research zadali sobie pytanie, które w branży rzadko pada wprost: ile ludzkich oceniających potrzeba, by wyniki testu modelu językowego można było uznać za miarodajne? Ich odpowiedź, opublikowana na łamach AAAI, jest niekomfortowa dla całej społeczności ML.
Las czy drzewo? O co chodzi w tym badaniu
Naukowcy opisują dylemat jako wybór między dwoma podejściami, które sami nazywają metaforą „lasu” i „drzewa”. Podejście leśne polega na tym, że 1000 różnych osób ocenia 1000 różnych próbek, każda po jednej. Podejście drzewne to 20 osób oceniających te same 50 pozycji, każda po wiele razy. Historycznie branża AI szła w stronę lasu, bo to tańsze i szybsze. Problem w tym, że ignoruje niuanse ludzkiej oceny.
Żeby znaleźć optymalny balans, Google stworzyło symulator oparty na czterech rzeczywistych zbiorach danych dotyczących subiektywnych zadań, m.in. wykrywania mowy nienawiści i toksyczności w komentarzach w mediach społecznościowych. Symulator przetestował tysiące kombinacji dwóch zmiennych: liczby ocenianych próbek (od 100 do 50 000) oraz liczby oceniających na jedną próbkę (od 1 do 500 osób). Cały kod został udostępniony jako open source na GitHubie.
Trzy wnioski, które kłopotają branżę
Wyniki badania można streścić w trzech punktach:
- Standard 3-5 oceniających jest niewystarczający. To za mało zarówno na szerokość (duży obraz), jak i na głębokość (niuanse opinii). Wiarygodne wyniki wymagają zazwyczaj ponad 10 oceniających na próbkę.
- Metryka determinuje strategię. Jeśli zależy nam na dopasowaniu do „głosu większości”, lepiej jest mieć więcej próbek. Jeśli chcemy uchwycić pełne spektrum ludzkich opinii, trzeba zwiększyć liczbę oceniających – i to nie ma alternatywy.
- Nie potrzeba nieskończonego budżetu. Przy dobrze dobranym stosunku próbek do oceniających, wystarczy około 1000 łącznych adnotacji, żeby osiągnąć statystycznie istotne i powtarzalne wyniki.
Problem „jednej prawdy”
To, co naprawdę interesuje mnie w tym badaniu, to nie sama matematyka, ale jej implikacje filozoficzne. Przez lata branża AI działała w paradygmacie „jednej prawdy” – dla każdego wejścia istnieje jedna poprawna etykieta. Tymczasem przy zadaniach subiektywnych, takich jak ocena szkodliwości treści czy identyfikacja intencji, to założenie po prostu nie działa.
Weźmy przykład z badania: dwa zestawy odpowiedzi oceniających mogą dawać tę samą etykietę większościową „toksyczne”, ale w jednym przypadku 51% oceniających uznało treść za toksyczną, a w drugim 95%. Spłaszczenie obu do jednej etykiety traci krytyczną informację.
Benchmarki AI to jeden z tych tematów, przy których czuję ambiwalencję. Z jednej strony, naukowe podejście Google do kwestii powtarzalności wyników jest dokładnie tym, czego potrzebujemy – branża od lat działa na podstawie testów, których metodologia jest dyskusyjna. Z drugiej strony, pojawia się pytanie: skoro nawet ocena „toksyczności” komentarza różni się w zależności od tego, ile osób się przyłoży, to kto tak naprawdę decyduje, co jest normą? Im więcej oceniających, tym lepiej uchwytujemy „ludzki konsensus” – ale czyj konsensus? Próbki zbierane w USA, Europie i Azji mogą dawać radykalnie różne wyniki dla tych samych treści. To nie jest argument przeciwko badaniu, to argument za tym, żebyśmy rozmawiali o tym głośniej.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Cztery zestawy danych pod lupą
Symulator Google’a działał na czterech zbiorach danych, które warto znać:
Zbiór Toxicity obejmował ponad 107 000 komentarzy z mediów społecznościowych ocenianych przez ponad 17 000 osób. DICES to 350 rozmów z chatbotem ocenianych pod kątem bezpieczeństwa przez 123 oceniających w 16 wymiarach. D3code to wielokulturowy zbiór 4554 pozycji ocenianych przez uczestników z 21 krajów. Jobs to 2000 tweetów związanych z rynkiem pracy.
Różnorodność tych zbiorów jest nieprzypadkowa – autorzy chcieli sprawdzić, czy wnioski trzymają się niezależnie od kontekstu. I trzymają się.
Dlaczego to ważne teraz
Moment publikacji nie jest przypadkowy. Wyścig modeli AI nabrał takiego tempa, że benchmarki stały się narzędziem marketingowym, a nie naukowym. Każdy nowy model ogłasza się „state of the art” na kilku wybranych testach, często tych, na których był optymalizowany. Google nie krytykuje wprost konkurencji, ale przesłanie jest czytelne: jeśli testy są źle zaprojektowane, to „state of the art” może być iluzją.
Powtarzalność wyników to fundament nauki. W świecie AI ten fundament jest kruchy – i to badanie dostarcza narzędzi, żeby go wzmocnić. Pytanie tylko, czy firmy będą chciały go użyć, skoro lepszy benchmark może pokazać gorsze wyniki ich modelu.
