ServiceNow opublikował właśnie EVA (Evaluation of Voice Agents) – otwarty framework do kompleksowej oceny konwersacyjnych agentów głosowych. To pierwsza tego rodzaju metodologia, która jednocześnie mierzy dwa wymiary jakości: dokładność realizacji zadań i jakość samej rozmowy.
Do tej pory branża oceniała te aspekty osobno. EVA zmienia zasady gry, pokazując przy okazji coś nieoczekiwanego: agenty, które świetnie kończą zadania, często są do niczego w kontekście naturalnej rozmowy. I odwrotnie.
Dlaczego dotychczasowe metody oceny nie wystarczały
Głosowi asystenci AI to zupełnie inny świat niż chatboty tekstowe. Użytkownik nie może przewinąć odpowiedzi, wrócić do poprzedniego zdania ani ominąć fragmentu. Musi wysłuchać wszystkiego. To fundamentalna różnica, której większość istniejących benchmarków po prostu nie uwzględniała.
Dotychczasowe narzędzia skupiały się na fragmentach:
- transkrypcja mowy i rozumienie języka (AudioBench, VoxEval, VoiceBench)
- jakość syntezowanego głosu i subiektywne testy odsłuchowe (EmergentTTS, SHEET)
- dynamika rozmowy: przerywanie, zmiana ról w dialogu (Talking Turns, Full-Duplex-Bench)
- podstawowe możliwości agentyczne – wywoływanie narzędzi, złożone instrukcje (VoiceAgentBench, CAVA)
Żaden z tych systemów nie patrzył na całość. EVA robi to po raz pierwszy.
Jak działa EVA
Framework symuluje prawdziwe, wieloturowe rozmowy głosowe w architekturze bot-to-bot. Składa się z pięciu głównych komponentów:
- User Simulator – AI wcielające się w rozmówcę, z konkretnym celem i osobowością, komunikujące się przez wysokiej jakości syntezę mowy
- Voice Agent – testowany agent głosowy, zbudowany na bazie Pipecat (framework open-source dla aplikacji głosowych w czasie rzeczywistym)
- Tool Executor – silnik dostarczający deterministyczne odpowiedzi narzędzi przez niestandardowe funkcje Python
- Validators – zestaw metryk weryfikujących, czy rozmowy przebiegły poprawnie; błędne scenariusze są automatycznie regenerowane
- Metrics Suite – kompletny zestaw metryk oceniających nagranie, transkrypt i logi wywołań narzędzi
Wynikiem jest zawsze para wyników: EVA-A (Accuracy) i EVA-X (Experience).
Co i jak się mierzy
EVA-A: Dokładność obejmuje trzy wymiary. Po pierwsze, realizację zadania sprawdzaną deterministycznie przez porównanie oczekiwanego stanu bazy danych ze stanem po rozmowie. Po drugie, wierność odpowiedzi agenta – czy nie hallucynował polityk, numerów lotów, kwot. Po trzecie, i to jest nowość na skalę branżową, jakość mowy agenta ocenianą przez duży audiowy model językowy. To pierwszy benchmark, który sprawdza, czy agent poprawnie wypowiada kody potwierdzenia, numery lotów i wartości pieniężne w wygenerowanym audio.
EVA-X: Doświadczenie rozmowy mierzy zwięzłość odpowiedzi (czy agent nie zasypuje użytkownika ścianą słów), progresję rozmowy (czy nie powtarza pytań, zachowuje kontekst) oraz zarządzanie turami w dialogu (czy nie przerywa, nie milczy za długo).
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
EVA trafia w rzeczywisty problem, który branża głosowych agentów AI zbyt długo zamiatała pod dywan. Mamy dziś systemy, które technicznie „kończą zadanie”, ale w praktyce są nie do zniesienia w użyciu – mówią za długo, przerywają, powtarzają pytania. Użytkownik rozłącza się sfrustrowany, mimo że agent „zaliczył” test. To fundamentalny błąd w podejściu do oceny.
Jednocześnie warto zachować ostrożność. EVA w obecnej postaci obejmuje 50 scenariuszy w jednej domenie – lotniczej, w języku angielskim. To solidny fundament, ale nie podstawa do wyciągania szerokich wniosków o całej branży. Czy wyniki będą zbieżne dla obsługi klienta w banku? Dla agentów zdrowotnych? Dla języków z zupełnie inną fonetyką? To są pytania, na które EVA jeszcze nie odpowiada – i dobrze, że twórcy sami to przyznają.
Najbardziej interesuje mnie jedno odkrycie: kompromis między dokładnością a doświadczeniem rozmowy jest spójny we wszystkich testowanych konfiguracjach. Żaden system nie dominuje na obu osiach jednocześnie. To nie jest problem do rozwiązania jutro – to być może fundamentalne napięcie w projektowaniu agentów głosowych.
Pierwsze wyniki – i nieoczekiwany wniosek
Zespół ServiceNow przetestował 20 systemów: zarówno własnościowych, jak i open-source, w architekturach kaskadowych (STT + LLM + TTS) i natywnie audiowych. Największe odkrycie? Konsekwentny trade-off między dokładnością a doświadczeniem rozmowy. Agenty dobre w realizacji zadań są gorsze w konwersacji. I żaden system nie wychodzi zwycięsko na obu frontach jednocześnie.
Drugi kluczowy problem to transkrypcja nazwanych encji. Jeden źle usłyszany znak w kodzie potwierdzenia potrafi zawalić całą rozmowę.
Trzecia obserwacja dotyczy złożonych przepływów pracy. Zmiana biletu lotniczego przy zachowaniu miejsc i bagażu okazała się najczęściej łamiącym agentem scenariuszem. Co więcej, nawet agenty, które potrafią zadanie wykonać, nie robią tego konsekwentnie. Różnica między pass@3 (chociaż raz z trzech prób) a pass^3 (za każdym razem) jest znacząca – a dla zastosowań produkcyjnych liczy się właśnie to drugie.
Co dalej z EVA
Roadmapa jest ambitna. Planowane rozszerzenia obejmują ocenę prozodyczną (wymowa, rytm, ekspresywność), testy w warunkach szumów, z różnymi akcentami i w różnych językach. W planach są też nowe domeny – każda z własną strukturą polityk i profilem encji, a także bardziej złożone scenariusze z dłuższą pamięcią konwersacyjną.
Cały kod, dane i prompty oceniające są dostępne na GitHubie: github.com/ServiceNow/eva
Znaczenie dla branży
EVA pojawia się w momencie, gdy agenty głosowe zaczynają wychodzić z fazy pilotażowej i trafiają do produkcji w obsłudze klienta. Brak standaryzowanych metod oceny był do tej pory realnym problemem – zarówno dla firm wdrażających rozwiązania, jak i dla zespołów badawczych.
To co ServiceNow udostępnia jako open source, może stać się punktem odniesienia dla całej branży. Pytanie brzmi, czy inni gracze – Google, Microsoft, OpenAI, Amazon – zdecydują się budować na tym fundamencie, czy pójdą własną drogą. Historia standaryzacji w AI raczej nie napawa optymizmem, ale EVA przynajmniej stawia poprzeczkę we właściwym miejscu.
