W kwietniu 2023 roku dwóch doktorantów z Uniwersytetu Kalifornijskiego w Berkeley postanowiło rozwiązać problem, który irytował całe środowisko badaczy AI – brak wiarygodnego sposobu oceniania modeli językowych. Nikt wtedy nie przypuszczał, że ich skromny projekt akademicki stanie się najważniejszym rankingiem w branży i osiągnie wycenę 1,7 miliarda dolarów w niespełna trzy lata.
Anastasios Angelopoulos i Wei-Lin Chiang zbudowali coś pozornie prostego: platformę, na której każdy może wpisać pytanie, dostać odpowiedzi od dwóch anonimowych modeli, wybrać lepszą – i dopiero po oddaniu głosu zobaczyć, kto z kim walczył. Z tego mechanizmu wyrósł startup Arena (dawniej LMArena, jeszcze wcześniej Chatbot Arena), który dziś uchodzi za nieoficjalny standard oceny modeli AI na świecie.
Ślepe testy zamiast szkolnych kartkówek
Tradycyjne benchmarki AI działają trochę jak egzaminy z góry wiadomych pytań – laboratorium może wręcz „nauczyć” model konkretnych odpowiedzi. Arena przyjęła inną filozofię. Użytkownicy przynoszą własne pytania, modele odpowiadają anonimowo, a ocena jest czysto ludzka i nieuprzedzona. Wyniki agreguje system punktacji wzorowany na rankingu Elo ze szachów: jeśli niżej sklasyfikowany model pokona faworyta, zyskuje nieproporcjonalnie dużo punktów – i odwrotnie.
Efekt? Ponad 5 milionów użytkowników miesięcznie ze 150 krajów, 60 milionów rozmów w miesiącu i leaderboard, który obserwują prezesi, inwestorzy oraz działy PR największych laboratoriów AI.
Kiedy jakiś model wspina się w rankingu Arena, jego twórcy natychmiast krzyczą o tym na każdej konferencji. Kiedy spada – milczą.
Sędzia finansowany przez zawodników
Tu zaczyna się najciekawsza część historii. Arena jest finansowana między innymi przez OpenAI, Google i Anthropic – dokładnie te firmy, których modele ocenia. W maju 2025 roku startup zebrał 100 milionów dolarów w rundzie seed przy wycenie 600 milionów. Zaledwie siedem miesięcy później, w styczniu 2026, zamknął rundę serii A za 150 milionów dolarów, tym razem przy wycenie 1,7 miliarda. Inwestorami zostali m.in. Felicis, a16z, Kleiner Perkins i Lightspeed Venture Partners.
Założyciele bronią się pojęciem „neutralności strukturalnej” – twierdzą, że samo finansowanie przez wielkich graczy nie oznacza, że rankingi można kupić, bo mechanizm oparty na milionach anonimowych ocen jest z natury trudny do zmanipulowania.
Trudny – ale nie niemożliwy. W kwietniu 2025 roku grupa badaczy z Cohere, Stanforda i MIT opublikowała pracę, w której oskarżyła platformę o systemowe faworyzowanie największych laboratoriów. Zarzuty były konkretne: Meta miała przetestować prywatnie aż 27 wariantów modelu przed premierą Llamy 4, wystawiając publicznie tylko najsilniejszy. Duże laboratoria pojawiały się w parach częściej, co dawało im więcej danych i szybszą stabilizację ocen. Arena wszystko odrzuciła, zapowiedziała zmiany i opublikowała dane na swoją obronę. Dyskusja jednak nie ucichła.
Platforma Arena rozwiązuje realny problem – brakuje nam niezależnych, wiarygodnych sposobów porównywania modeli AI, które naprawdę odzwierciedlają codzienne użycie. To, co zbudowali Angelopoulos i Chiang, jest bliższe rzeczywistości niż jakikolwiek statyczny benchmark. Ale jednocześnie trudno mi nie zadać pytania: czy można być naprawdę neutralnym sędzią, gdy twoi główni sponsorzy są jednocześnie zawodnikami? Strukturalna neutralność to świetne hasło – pytanie, czy wystarczy jako odpowiedź na systemowe konflikty interesów. I co się stanie z niezależnością Arena, gdy inwestorzy zaczną oczekiwać zwrotu z kapitału?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Co Arena mierzy dziś – i co będzie mierzyć jutro
Platforma wyszła dawno poza prosty chat. Dziś Arena oferuje wyspecjalizowane areny dla:
- programowania i tworzenia stron (WebDev, Coding),
- zadań wizualnych i multimodalnych,
- trudnych, wieloetapowych pytań (Hard Prompts),
- oceny przez ekspertów z konkretnych dziedzin zawodowych.
To ostatnie jest szczególnie interesujące. W nowym leaderboardzie eksperckim, gdzie oceniają prawnicy, lekarze i specjaliści branżowi, Claude od Anthropic przoduje w kategoriach prawniczych i medycznych. Gemini 2.5 Pro dominuje w naukach ścisłych i pisaniu. OpenAI trzyma mocno w matematyce i IT. Żaden model nie wygrywa wszędzie – co samo w sobie jest cenną informacją dla firm dobierających narzędzia AI do konkretnych zastosowań.
Arena wchodzi też na rynek enterprise. Uruchomiona we wrześniu 2025 roku usługa AI Evaluations pozwala firmom i laboratoriom zamówić własne, ukierunkowane testy z wykorzystaniem tej samej metodologii crowdsourcingowej. W grudniu 2025 roku platforma generowała już 30 milionów dolarów annualized ARR – mniej niż cztery miesiące po starcie komercyjnym.
Cały świat jako laboratorium
Warto zauważyć jeszcze jedną rzecz. Arena jako jedna z pierwszych platform dała szansę modelom spoza zachodniego mainstreamu. DeepSeek testował swoje prototypy na Arena na kilka miesięcy przed tym, zanim jego model R1 wywołał medialne trzęsienie ziemi na początku 2025 roku. Platforma działała jak okno na to, co dzieje się poza wąskim kręgiem największych laboratoriów.
Teraz twórcy Arena patrzą w stronę agentów AI – systemów, które nie odpowiadają na pytania, lecz samodzielnie wykonują zadania. Ocena agentów to znacznie trudniejszy orzech do zgryzienia niż porównywanie odpowiedzi chatbotów. Jak ocenić, czy agent „dobrze” wykonał wieloetapowe zlecenie? To pytanie, na które Arena zamierza odpowiedzieć jako następne.
Projekt zaczął się od pytania, któremu model lepiej odpowiada użytkownikom. Dziś Arena próbuje odpowiedzieć na pytanie dużo ważniejsze: kto w ogóle ma prawo decydować, który model AI jest dobry – i według jakich kryteriów.
