ServiceNow prezentuje EVA: nowy standard oceny głosowych agentów AI

0:00

ServiceNow opublikował właśnie EVA (Evaluation of Voice Agents) – otwarty framework do kompleksowej oceny konwersacyjnych agentów głosowych. To pierwsza tego rodzaju metodologia, która jednocześnie mierzy dwa wymiary jakości: dokładność realizacji zadań i jakość samej rozmowy.

Do tej pory branża oceniała te aspekty osobno. EVA zmienia zasady gry, pokazując przy okazji coś nieoczekiwanego: agenty, które świetnie kończą zadania, często są do niczego w kontekście naturalnej rozmowy. I odwrotnie.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Dlaczego dotychczasowe metody oceny nie wystarczały

Głosowi asystenci AI to zupełnie inny świat niż chatboty tekstowe. Użytkownik nie może przewinąć odpowiedzi, wrócić do poprzedniego zdania ani ominąć fragmentu. Musi wysłuchać wszystkiego. To fundamentalna różnica, której większość istniejących benchmarków po prostu nie uwzględniała.

Dotychczasowe narzędzia skupiały się na fragmentach:

transkrypcja mowy i rozumienie języka (AudioBench, VoxEval, VoiceBench)
jakość syntezowanego głosu i subiektywne testy odsłuchowe (EmergentTTS, SHEET)
dynamika rozmowy: przerywanie, zmiana ról w dialogu (Talking Turns, Full-Duplex-Bench)
podstawowe możliwości agentyczne – wywoływanie narzędzi, złożone instrukcje (VoiceAgentBench, CAVA)

Żaden z tych systemów nie patrzył na całość. EVA robi to po raz pierwszy.

Jak działa EVA

Framework symuluje prawdziwe, wieloturowe rozmowy głosowe w architekturze bot-to-bot. Składa się z pięciu głównych komponentów:

User Simulator – AI wcielające się w rozmówcę, z konkretnym celem i osobowością, komunikujące się przez wysokiej jakości syntezę mowy
Voice Agent – testowany agent głosowy, zbudowany na bazie Pipecat (framework open-source dla aplikacji głosowych w czasie rzeczywistym)
Tool Executor – silnik dostarczający deterministyczne odpowiedzi narzędzi przez niestandardowe funkcje Python
Validators – zestaw metryk weryfikujących, czy rozmowy przebiegły poprawnie; błędne scenariusze są automatycznie regenerowane
Metrics Suite – kompletny zestaw metryk oceniających nagranie, transkrypt i logi wywołań narzędzi

Wynikiem jest zawsze para wyników: EVA-A (Accuracy) i EVA-X (Experience).

Co i jak się mierzy

EVA-A: Dokładność obejmuje trzy wymiary. Po pierwsze, realizację zadania sprawdzaną deterministycznie przez porównanie oczekiwanego stanu bazy danych ze stanem po rozmowie. Po drugie, wierność odpowiedzi agenta – czy nie hallucynował polityk, numerów lotów, kwot. Po trzecie, i to jest nowość na skalę branżową, jakość mowy agenta ocenianą przez duży audiowy model językowy. To pierwszy benchmark, który sprawdza, czy agent poprawnie wypowiada kody potwierdzenia, numery lotów i wartości pieniężne w wygenerowanym audio.

EVA-X: Doświadczenie rozmowy mierzy zwięzłość odpowiedzi (czy agent nie zasypuje użytkownika ścianą słów), progresję rozmowy (czy nie powtarza pytań, zachowuje kontekst) oraz zarządzanie turami w dialogu (czy nie przerywa, nie milczy za długo).

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:

EVA trafia w rzeczywisty problem, który branża głosowych agentów AI zbyt długo zamiatała pod dywan. Mamy dziś systemy, które technicznie „kończą zadanie”, ale w praktyce są nie do zniesienia w użyciu – mówią za długo, przerywają, powtarzają pytania. Użytkownik rozłącza się sfrustrowany, mimo że agent „zaliczył” test. To fundamentalny błąd w podejściu do oceny.

Jednocześnie warto zachować ostrożność. EVA w obecnej postaci obejmuje 50 scenariuszy w jednej domenie – lotniczej, w języku angielskim. To solidny fundament, ale nie podstawa do wyciągania szerokich wniosków o całej branży. Czy wyniki będą zbieżne dla obsługi klienta w banku? Dla agentów zdrowotnych? Dla języków z zupełnie inną fonetyką? To są pytania, na które EVA jeszcze nie odpowiada – i dobrze, że twórcy sami to przyznają.

Najbardziej interesuje mnie jedno odkrycie: kompromis między dokładnością a doświadczeniem rozmowy jest spójny we wszystkich testowanych konfiguracjach. Żaden system nie dominuje na obu osiach jednocześnie. To nie jest problem do rozwiązania jutro – to być może fundamentalne napięcie w projektowaniu agentów głosowych.

Pierwsze wyniki – i nieoczekiwany wniosek

Zespół ServiceNow przetestował 20 systemów: zarówno własnościowych, jak i open-source, w architekturach kaskadowych (STT + LLM + TTS) i natywnie audiowych. Największe odkrycie? Konsekwentny trade-off między dokładnością a doświadczeniem rozmowy. Agenty dobre w realizacji zadań są gorsze w konwersacji. I żaden system nie wychodzi zwycięsko na obu frontach jednocześnie.

Drugi kluczowy problem to transkrypcja nazwanych encji. Jeden źle usłyszany znak w kodzie potwierdzenia potrafi zawalić całą rozmowę.

Trzecia obserwacja dotyczy złożonych przepływów pracy. Zmiana biletu lotniczego przy zachowaniu miejsc i bagażu okazała się najczęściej łamiącym agentem scenariuszem. Co więcej, nawet agenty, które potrafią zadanie wykonać, nie robią tego konsekwentnie. Różnica między pass@3 (chociaż raz z trzech prób) a pass^3 (za każdym razem) jest znacząca – a dla zastosowań produkcyjnych liczy się właśnie to drugie.

Co dalej z EVA

Roadmapa jest ambitna. Planowane rozszerzenia obejmują ocenę prozodyczną (wymowa, rytm, ekspresywność), testy w warunkach szumów, z różnymi akcentami i w różnych językach. W planach są też nowe domeny – każda z własną strukturą polityk i profilem encji, a także bardziej złożone scenariusze z dłuższą pamięcią konwersacyjną.

Cały kod, dane i prompty oceniające są dostępne na GitHubie: github.com/ServiceNow/eva

Znaczenie dla branży

EVA pojawia się w momencie, gdy agenty głosowe zaczynają wychodzić z fazy pilotażowej i trafiają do produkcji w obsłudze klienta. Brak standaryzowanych metod oceny był do tej pory realnym problemem – zarówno dla firm wdrażających rozwiązania, jak i dla zespołów badawczych.

To co ServiceNow udostępnia jako open source, może stać się punktem odniesienia dla całej branży. Pytanie brzmi, czy inni gracze – Google, Microsoft, OpenAI, Amazon – zdecydują się budować na tym fundamencie, czy pójdą własną drogą. Historia standaryzacji w AI raczej nie napawa optymizmem, ale EVA przynajmniej stawia poprzeczkę we właściwym miejscu.

Oceń artykuł

Średnia: 4.8 (11 ocen)

ServiceNow prezentuje EVA: nowy standard oceny głosowych agentów AI

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

ServiceNow prezentuje EVA: nowy standard oceny głosowych agentów AI

Dlaczego dotychczasowe metody oceny nie wystarczały

Jak działa EVA

Co i jak się mierzy

Pierwsze wyniki – i nieoczekiwany wniosek

Co dalej z EVA

Znaczenie dla branży

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas