DAIMON Robotics z Hongkongu opublikował właśnie Daimon-Infinity – największy na świecie zbiór danych omni-modalnych dla fizycznej AI, który ma nauczyć roboty tego, czego wciąż im brakuje: umiejętności czucia. Projekt wspierają Google DeepMind, Northwestern University oraz National University of Singapore.
Kluczowe fakty:
- DAIMON Robotics opublikował Daimon-Infinity – największy na świecie zbiór danych omni-modalnych dla fizycznej AI, zawierający ponad milion godzin danych multimodalnych z ponad 80 rzeczywistych scenariuszy.
- Firma opracowała monochromatyczny czujnik dotykowy mieszczący ponad 110 000 jednostek sensorycznych w module wielkości opuszki palca, który rejestruje obrazy odkształceń zamiast klasycznych pomiarów elektrycznych.
- Startup proponuje rozszerzenie dominującego modelu Vision-Language-Action (VLA) do VTLA (Vision-Tactile-Language-Action), dodając zmysł dotyku jako kluczowy element dla robotyki.
Czego robotom brakuje najbardziej?
Roboty widzą. Coraz lepiej rozumieją polecenia. Poruszają się sprawnie, a w niektórych środowiskach – jak chińskie hotele czy magazyny – pracują już niemal bez nadzoru. Ale wciąż mają jeden poważny problem: nie czują.
Człowiek, który sięga po szklankę w ciemności, wie, kiedy jego palce ją dotknęły. Wie, jak mocno ją ściskać, żeby nie upuścić, ale też nie rozgnieść. Robot wyposażony tylko w kamery i modele językowe tego nie wie. Musi zgadywać.
Właśnie tę lukę próbuje zapełnić prof. Michael Yu Wang, współzałożyciel i główny naukowiec DAIMON Robotics. Przez cztery dekady zajmował się robotiką – najpierw na Carnegie Mellon, gdzie doktoryzował się pod okiem Matta Masona, jednego z pionierów manipulacji robotycznej, a potem zakładając Instytut Robotyki na Hongkońskim Uniwersytecie Nauki i Technologii. Teraz buduje startup, który chce dać robotom zmysł dotyku.
Daimon-Infinity: paliwo dla fizycznej AI
W kwietniu 2025 roku firma opublikowała zbiór danych Daimon-Infinity. Liczby robią wrażenie:
- ponad milion godzin danych multimodalnych,
- ponad 80 rzeczywistych scenariuszy,
- ponad 2000 ludzkich umiejętności,
- ultra-wysokiej rozdzielczości dane dotykowe,
- 10 000 godzin udostępnionych open-source społeczności badawczej.
Dane obejmują wszystko – od składania prania w domu po montaż na liniach fabrycznych. Nie są zbierane w laboratoriach, ale przez rozproszoną sieć kolekcji danych działającą w rzeczywistych środowiskach, zdolną generować miliony godzin materiału rocznie.
Od VLA do VTLA, czyli dotyk jako nowy wzrok
Dominującym paradygmatem w robotyce jest dziś model Vision-Language-Action (VLA) – robot widzi, rozumie polecenie i działa. Wang i jego zespół twierdzą, że to za mało. Proponują rozszerzenie do VTLA: Vision-Tactile-Language-Action.
Kluczowy sensor DAIMON to monochromatyczny czujnik dotykowy oparty na wizji – mieszczący ponad 110 000 jednostek sensorycznych w module wielkości opuszki palca. Zamiast klasycznych elektrycznych pomiarów siły, sensor rejestruje obrazy odkształceń powierzchni gumowej końcówki. Te obrazy – sekwencje zmian kształtu – kodują informacje o kontakcie, tarciu, poślizgu i właściwościach materiału.
„To podejście jest naturalne dla integracji z istniejącymi modelami VLA” – tłumaczy Wang – „ponieważ dane dotykowe są już w formacie wizualnym.”
Komentarz redaktora
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Dotyk w robotyce to jeden z tych tematów, które przez lata były traktowane jako „miło mieć”, a nie „must have”. DAIMON zmienia tę narrację i robi to przekonującymi argumentami. Sensor mieszczący 110 000 jednostek sensorycznych w opuszce palca robi wrażenie – i rozumiem entuzjazm.
Ale warto zadać kilka pytań. Po pierwsze: jak bardzo te dane są przenoszone między różnymi typami robotów i zadaniami? Zbiór danych zebrany w chińskich hotelach i fabrykach może świetnie działać w chińskich hotelach i fabrykach. Prawdziwym testem będzie generalizacja.
Po drugie, model biznesowy „3D” – Devices, Data, Deployment – brzmi elegancko na slajdach, ale to bardzo szeroki front do utrzymania dla stosunkowo małej firmy. Historia robotyki zna sporo przypadków, gdzie ambicja budowania całego stosu technologicznego kończyła się rozciągnięciem zasobów i brakiem prawdziwej głębi w którymkolwiek z obszarów.
I wreszcie: open-sourcing 10 000 godzin danych to gest w stronę społeczności – doceniam to. Pytanie, czy wystarczający, żeby budować rzeczywistą ekosystemową przewagę, czy raczej przemyślany marketing strategiczny. Obie odpowiedzi mogą być jednocześnie prawdziwe.
Sklep convenience jako poligon doświadczalny
Wang podaje konkretny przykład komercyjnego zastosowania. Jeden z potencjalnych klientów DAIMON planuje wdrożenie robotów humanoidalnych w małych sklepach convenience – tych gęsto zastawionych regałach, gdzie półki są dosłownie wypchane towarami.
„Obecne dwupalczaste chwytaki po prostu tam nie wejdą” – mówi Wang. „Patrzysz na to, jak człowiek wyjmuje produkt z ciasnego miejsca, i rozumiesz: potrzeba co najmniej trzech smukłych palców, które dotykają przedmiotu, obracają go i wysuwają ku sobie. To niemożliwe bez czucia.”
Hotele były pierwszym etapem. Roboty dostawcze – bez rąk, po prostu jeżdżące pojazdy – są już według Wanga wdrożone niemal w każdym większym chińskim hotelu. Teraz czas na roboty z rękami.
Startup zbudowany na czterech dekadach badań
DAIMON liczy sobie niecałe trzy lata, ale stoi za nim kapitał intelektualny budowany przez dekady. Wang założył firmę razem z dr. Duan Jianghua – swoim byłym postdokiem, który, jak sam przyznaje, „ma wyczucie dla możliwości komercyjnych”.
Strategia firmy koncentruje się na pionowej integracji całego łańcucha technologicznego: czujniki, dane, wdrożenie. To podejście, które wybiera coraz więcej startupów robotycznych – i które dla wielu z nich staje się zarówno siłą, jak i pułapką.
Jednak projekt Daimon-Infinity pokazuje, że DAIMON myśli też ekosystemowo. Otwierając dane dla społeczności, firma próbuje stać się infrastrukturą – nie tylko produktem.
Kiedy roboty naprawdę wyjdą z laboratoriów?
Wang jest ostrożny w prognozach, ale konkretny w obserwacjach. Porównuje trajektorię robotów humanoidalnych do pojazdów autonomicznych: pełne wdrożenie generalistycznych robotów to jeszcze odległa perspektywa, ale specyficzne zastosowania – sklepy, hotele, apteki nocne – są w zasięgu.
„Nasza wizja jest taka, żeby roboty osiągnęły solidne możliwości manipulacyjne i stały się niezawodnymi partnerami dla ludzi” / „Our vision is for robots to achieve robust manipulation capabilities and evolve into reliable partners for humans” – mówi Wang.
Droga do tego celu wiedzie przez dane. A dane zaczynają się od dotyku.
