Koreańscy naukowcy z Uniwersytetu Yonsei opracowali zestaw elektronicznych pierścieni, które bezprzewodowo tłumaczą język migowy na tekst w czasie rzeczywistym. Wyniki badań opublikowano na początku maja w prestiżowym czasopiśmie Science Advances i choć technologia wciąż jest we wczesnym etapie rozwoju, jej potencjał robi wrażenie.
Kluczowe fakty:
- Naukowcy z Uniwersytetu Yonsei opracowali siedem elektronicznych pierścieni zakładanych na palce, które bezprzewodowo tłumaczą język migowy na tekst w czasie rzeczywistym. System wykorzystuje akcelerometry do rejestrowania ruchu palców i przesyła dane do zewnętrznego procesora.
- Model głębokiego uczenia osiągnął dokładność 88,3% dla 100 najczęstszych słów w amerykańskim języku migowym i 88,5% dla Międzynarodowego Języka Migowego. System potrafi tłumaczyć nie tylko pojedyncze słowa, ale całe zdania z ciągłego migania.
- Pierścienie działają przez blisko 12 godzin na baterii, a naukowcy planują integrację ze smartfonami bez dodatkowego sprzętu zewnętrznego. System nie uwzględnia jednak mimiki twarzy, postawy ciała ani syntaksy przestrzennej, które są integralną częścią języka migowego.
Koniec z rękawicami, kamerami i kablami
Wcześniejsze próby automatycznego tłumaczenia języka migowego napotykały na podobne bariery. Systemy oparte na kamerach działały tylko w kontrolowanych warunkach i były wrażliwe na zmienne oświetlenie. Inteligentne rękawice z kolei zatrzymywały ciepło i wilgoć, przez co ich długotrwałe użytkowanie było po prostu niekomfortowe. Czujniki noszone na ciele często wymagały podłączenia do komputera przewodami, co ograniczało swobodę ruchów.
Teraz badacze poszli w innym kierunku. Siedem niewielkich pierścieni zakładanych na palce, każdy wyposażony w akcelerometr, przesyła dane ruchowe bezprzewodowo do zewnętrznego procesora. Dlaczego siedem, a nie dziesięć? Naukowcy najpierw przeanalizowali, które palce odgrywają kluczową rolę przy tworzeniu znaków migowych, i wybrali tylko te najważniejsze. Mniej sprzętu, większa wygoda.
Zamiast rejestrować sygnały bioelektryczne mięśni (które są silnie indywidualne i wymagają żmudnej kalibracji dla każdego użytkownika), system skupia się wyłącznie na ruchu. To kluczowy wybór projektowy, który może zadecydować o tym, czy technologia trafi kiedyś do szerokiego użytku.
Model AI nie potrzebuje znać cię osobiście
Serce systemu stanowi model głębokiego uczenia, który rozpoznaje znaki migowe. W testach z udziałem pięciu osób, które nie brały udziału w treningu modelu, system osiągnął dokładność:
- 88,3% dla 100 najczęstszych słów w amerykańskim języku migowym (ASL)
- 88,5% dla 100 najczęstszych słów w Międzynarodowym Języku Migowym (ISL)
To istotna różnica w stosunku do większości poprzednich rozwiązań, które obsługiwały słowniki liczące mniej niż 50 słów. Co ważne, system potrafi tłumaczyć nie tylko pojedyncze słowa, ale całe zdania z ciągłego migania.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Wyniki są imponujące i cieszę się, że ktoś wreszcie podszedł do problemu od strony użytkownika, nie laboratorium. Pierścienie zamiast rękawic, bezprzewodowość zamiast kabli, ruch zamiast sygnałów bioelektrycznych. To są słuszne decyzje. Natomiast 200 słów to nadal ledwie ułamek pełnego języka migowego, który liczy ich tysiące. Do tego system ignoruje na razie mimikę twarzy, postawę ciała i syntaksę przestrzenną, a to wszystko jest integralną częścią gramatyki języka migowego, nie ozdobnikiem. Prawdziwy przełom nastąpi wtedy, gdy technologia połączy te elementy w jedno, i kiedy do jej projektowania w pełni włączą się osoby głuche. Bo kto, jeśli nie one, wie najlepiej, czego naprawdę potrzebują?
Co naukowcy sami przyznają wprost
Dosik Hwang, profesor inżynierii elektrycznej i elektronicznej na Uniwersytecie Yonsei, nie owija w bawełnę:
„Two hundred words is a meaningful advance over prior wireless systems, but it is still a small fraction of a full sign language lexicon, which can contain thousands of signs. I want to be careful not to overstate what the current system can do in open-vocabulary, real-world conversation.” / „Dwieście słów to znaczący postęp w stosunku do wcześniejszych systemów bezprzewodowych, ale wciąż stanowi ułamek pełnego leksykonu języka migowego, który może zawierać tysiące znaków. Zależy mi, żeby nie wyolbrzymiać tego, co obecny system potrafi w swobodnej, rzeczywistej rozmowie.”
Hwang wskazuje też na głębszy problem: system tłumaczy ruch dłoni na tekst, ale nie uwzględnia gramatyki twarzy, ruchów ust, postawy ciała ani syntaksy przestrzennej. A to wszystko jest częścią języka migowego, nie dekoracją. Ki Jun Yu, współautor badań, podkreśla, że włączenie tych elementów do niskoenergetycznej architektury noszonej na ciele to jedno z największych wyzwań na przyszłość.
Bateria, smartfon i głucha społeczność
Docelowo pierścienie mają działać przez cały dzień. Na razie wytrzymują blisko 12 godzin, ale miniaturyzacja i optymalizacja zużycia energii są w planach. Cel jest jasny: przesyłanie danych migowych bezpośrednio do smartfona, bez żadnego dodatkowego sprzętu zewnętrznego.
Yu mówi wprost:
„Our goal is to make the system work with everyday devices such as smartphones without requiring specialized external equipment. The rings could wirelessly transmit sign language signals to a mobile device, where they would be automatically translated and displayed in real time.” / „Naszym celem jest sprawienie, żeby system działał na codziennych urządzeniach, takich jak smartfony, bez potrzeby specjalistycznego sprzętu zewnętrznego. Pierścienie mogłyby bezprzewodowo przesyłać sygnały języka migowego do urządzenia mobilnego, gdzie byłyby automatycznie tłumaczone i wyświetlane w czasie rzeczywistym.”
Ważny krok, który badacze planują podjąć jak najszybciej: współpraca z organizacjami społeczności głuchych. Hwang mówi, że technologia będzie znacznie lepsza, zarówno funkcjonalnie, jak i pod względem społecznej integracji, jeśli jej projektowanie obejmie tych, którzy będą z niej korzystać na co dzień. To podejście, które zbyt często pomija się w technologicznych projektach adresowanych do osób z niepełnosprawnościami.
Nie tylko język migowy
Potencjał pierścieni wykracza poza komunikację. Hwang wskazuje na kilka obszarów zastosowań:
- monitoring rehabilitacji dłoni
- ocena motoryki precyzyjnej w chorobach neurologicznych
- interfejsy do wirtualnej i rozszerzonej rzeczywistości (VR/AR)
System przetestowany w złożonym środowisku języka migowego ma, według naukowców, stanowić swoisty stress test dla szerszych zastosowań biomedycznych i interaktywnych. Logika jest prosta: jeśli pierścienie radzą sobie z subtelnym, szybkim i złożonym miganiem, poradzą sobie z większością innych zadań gestowych.
Kolejne kroki obejmują trening z większą liczbą użytkowników, rozbudowę słownika i uwzględnienie regionalnych dialektów języka migowego. Naturalnym następnym etapem jest dla zespołu koreański język migowy, co biorąc pod uwagę kraj, w którym powstało badanie, nie dziwi.
Jedno jest pewne: pomysł jest słuszny, wykonanie obiecujące, a droga do prawdziwego narzędzia użytkowego, jeszcze długa.
