Naukowcy z University of Melbourne sprawdzili, jak roboty wyposażone w modele wizyjno-językowe (VLM) radzą sobie z odczytywaniem ludzkich emocji podczas wspólnej pracy. Wyniki, opublikowane 18 maja w IEEE Robotics and Automation Letters, są lepsze od dotychczasowych systemów, ale i pokazują coś znacznie istotniejszego dla branży: nawet najlepiej wyszkolony robot-empat nie odbuduje zaufania, jeśli po prostu nie wykona zadania.
Kluczowe fakty:
- Naukowcy z University of Melbourne wytrenowali model wizyjno-językowy (VLM) do rozpoznawania ludzkich emocji podczas współpracy z robotem, analizując całą scenę – postawę ciała, gesty i mimikę – a nie tylko twarz.
- Model VLM osiągnął wynik 0,86 w skali zgodności z ocenami ludzkimi, w porównaniu do 0,77 uzyskanego przez konwencjonalny system oparty na analizie twarzy i śledzeniu obiektów.
- W eksperymencie z udziałem 40 ochotników robot celowo popełniał błędy i reagował przeprosinami dopasowanymi emocjonalnie do reakcji człowieka, badając wpływ takiej odpowiedzi na poziom zaufania użytkowników.
Skąd robot wie, że jesteś sfrustrowany
Zespół kierowany przez Seung Chan Honga, który prowadził badanie jako część pracy licencjackiej, postawił sprawę dość prosto. Roboty współpracujące (coboty) coraz częściej pracują obok ludzi, więc same umiejętności manipulacyjne to dopiero połowa sukcesu. Druga połowa? Zrozumienie, co czuje człowiek po drugiej stronie stołu.
Tradycyjne systemy rozpoznawania emocji bazują głównie na analizie twarzy. Problem w tym, że marszczenie brwi może oznaczać irytację, ale równie dobrze może być po prostu skupieniem na trudnym zadaniu. Zespół z Melbourne poszedł inną drogą – wytrenował model VLM (podobny koncepcyjnie do dużych modeli językowych typu ChatGPT, ale przyjmujący też dane wizyjne) na nagraniach, gdzie ochotnicy oceniali emocje osób wchodzących w interakcję z robotem podającym przedmioty.
Kluczowa różnica: oceniający widzieli całą scenę, a nie tylko twarz. Bębnienie palcami, zaciskanie warg, postawa ciała – to wszystko wchodziło do oceny.
I to zadziałało. Na skali od 0 do 1 (gdzie 1 oznacza pełną zgodność z oceną ludzkich obserwatorów), konwencjonalny system oparty na analizie twarzy i śledzeniu obiektów osiągnął 0,77. Model VLM – 0,86. Różnica może wydawać się niewielka, ale w praktyce oznacza znacznie lepsze dopasowanie do tego, co faktycznie widzi i czuje człowiek.
Eksperyment z przeprosinami
Drugi etap badania był ciekawszy. Czterdziestu ochotników współpracowało z robotem, który – celowo – popełniał błąd. Robot reagował na dwa sposoby: albo wygłaszał przeprosiny dopasowane emocjonalnie do reakcji człowieka, albo standardowy, zapisany wcześniej tekst.
31 z 40 osób wybrało wersję adaptacyjną. To dość jednoznaczny wynik.
Ale tu jest haczyk. Bo gdy badacze zapytali uczestników o poziom zaufania do robota po jego błędzie, okazało się, że spersonalizowane przeprosiny nie naprawiały relacji. Ludzie po prostu mniej ufali maszynie, która zawaliła zadanie – niezależnie od tego, jak elegancko się tłumaczyła.
Hong ujął to tak:
„A personalized apology acts as a social lubricant, but it cannot repair the trust lost by the robot failing its physical task” / „Spersonalizowane przeprosiny działają jak smar społeczny, ale nie naprawią zaufania utraconego przez robota, który nie wykonał swojego zadania fizycznego”.
Robot widzi to, co widzą inni – ale nie to, co czujesz ty
Jest jeszcze jeden szczegół, który moim zdaniem jest najważniejszy w całym badaniu, choć łatwo go przegapić.
Model VLM oceniał emocje uczestników podobnie jak ludzie obserwujący interakcję z boku. Ale kiedy porównano te oceny z tym, co sami uczestnicy zgłaszali jako swoje rzeczywiste odczucia (czyli najbardziej wiarygodnym źródłem), zgodność spadała wyraźnie.
Hong: „While the VLM is a good observer of outward social cues, it isn’t a mind reader. It matched third-person human observers well, but it didn’t always align with the user’s internal, self-reported feelings” / „VLM jest dobrym obserwatorem zewnętrznych sygnałów społecznych, ale nie czyta myśli. Dopasowywał się dobrze do oceny obserwatorów trzecioosobowych, ale nie zawsze zgadzał się z wewnętrznymi, samodzielnie zgłaszanymi odczuciami użytkownika”.
Czyli robot widzi to, co widać z zewnątrz. Nie to, co naprawdę dzieje się w głowie człowieka. A to jest dokładnie ta różnica, która w psychologii odróżnia empatię od czegoś, co bardziej przypomina dobrze skalibrowaną symulację empatii.
Obserwuję dyskusję o „emocjonalnych” robotach od dłuższego czasu i mam mieszane odczucia. Z jednej strony, postęp jest realny. Skok z 0,77 do 0,86 w rozpoznawaniu kontekstu emocjonalnego to nie jest kosmetyka, to konkretna różnica w tym, jak robot reaguje na frustrację pracownika przy stanowisku montażowym. Z drugiej strony, mam pytanie, które rzadko pada w tego typu badaniach: komu właściwie ma służyć ta emocjonalna inteligencja robota? Bo jeśli celem jest, żeby pracownik czuł się komfortowo przy maszynie, która i tak go zastąpi za dwa lata, to mówimy o dość cynicznym zastosowaniu psychologii. Drugi problem, praktyczny. Wynik tego badania (że spersonalizowane przeprosiny nie naprawiają zaufania po błędzie robota) powinien dać do myślenia każdej firmie wdrażającej coboty na produkcji. Bo jeśli inwestujesz w warstwę „emocjonalną” interfejsu, a nie w samą niezawodność maszyny, to inwestujesz w fasadę. Ludzie i tak zauważą, że robot się myli. I jeszcze jedno, co mnie trochę niepokoi. Robot, który dobrze odgaduje emocje na podstawie zewnętrznych sygnałów, ale nie wie, co naprawdę czuje człowiek, to robot, który może podejmować decyzje na podstawie błędnej interpretacji. W kontekście współpracy przy linii produkcyjnej to może być nieszkodliwe. Ale jeśli podobne systemy trafią np. do opieki nad osobami starszymi czy do rekrutacji, gdzie „odczyt emocji” ma realny wpływ na decyzje wobec człowieka, różnica między „wygląda na zły” a „jest zły” przestaje być akademicka. Patrzę na to z umiarkowanym optymizmem, ale bez entuzjazmu marketingowego. To dobry research. Pytanie, czy ktoś go odczyta jako „zbudujmy lepsze coboty” czy jako „zbudujmy roboty, które ładnie udają, że nas rozumieją”. Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Co to znaczy dla rynku cobotów
Warto zauważyć ten wątek w szerszym kontekście. Rynek robotów współpracujących rośnie globalnie w tempie kilkudziesięciu procent rocznie, a w Polsce coboty są coraz częściej pierwszym krokiem firm produkcyjnych w stronę automatyzacji. Z przeprowadzonych badań wynika, że w przypadku robotów współpracujących najważniejszym czynnikiem decydującym o wyborze rozwiązania pozostaje koszt zakupu i wdrożenia, a sama emocjonalna „inteligencja” maszyny jest na razie zdecydowanie niżej na liście priorytetów polskich przedsiębiorców.
Co nie znaczy, że jest nieważna. Wręcz przeciwnie. Im więcej cobotów trafia na hale produkcyjne (a w Polsce ten trend jest jednym z najszybszych w regionie), tym częściej pracownicy będą wchodzić w codzienne interakcje z maszynami, które „obserwują” ich zachowanie. Wprowadzenie robota współpracującego do środowiska pracy nie zmienia podstawowej zasady wynikającej z przepisów prawa pracy – za zapewnienie bezpiecznych i higienicznych warunków pracy odpowiada pracodawca, a oceny ryzyka muszą uwzględniać specyfikę takiej interakcji.
Pytanie, czy te oceny ryzyka w 2026 roku obejmują już aspekt „robot błędnie odczytuje moje emocje i reaguje nieadekwatnie” – szczerze, wątpię. Ale może powinny.
Trzy rzeczy, które warto zapamiętać z tego badania
- Model VLM rozpoznający emocje na podstawie całej scenografii interakcji (a nie tylko twarzy) osiągnął wynik 0,86 vs 0,77 dla klasycznego systemu opartego na analizie twarzy
- 31 z 40 uczestników wolało robota, który dopasowuje przeprosiny do ich emocji, ale to nie przełożyło się na wyższe zaufanie po błędzie robota
- Ocena emocji przez VLM zgadza się z oceną obserwatorów trzecioosobowych, nie zawsze jednak z tym, co dana osoba faktycznie czuje
Pełne wyniki badania, opublikowanego w IEEE Robotics and Automation Letters, dostępne są pod linkiem do publikacji IEEE Xplore (DOI: 11523497).
