Przez dekadę setki milionów graczy biegały po ulicach miast z telefonami wycelowanymi w budynki, pomniki i skrzyżowania. Łapali wirtualne stworzenia. Przy okazji zbudowali największą wizualną bazę danych miejskiej przestrzeni w historii. Teraz te 30 miliardów zdjęć służy do czegoś zupełnie innego: uczą roboty dostawcze, gdzie dokładnie mają zaparkować pod drzwiami twojego mieszkania.
Niantic Spatial: ze studia gamingowego do firmy AI
Historia jest taka: Niantic, twórca Pokémon Go, sprzedał w 2025 roku dział gier firmie Scopely (należącej do saudyjskiego kapitału). Z całego przedsięwzięcia wyodrębnił się za to nowy podmiot, Niantic Spatial, który skupił się wyłącznie na technologii mapowania przestrzennego i sztucznej inteligencji.
Niantic Spatial to dział enterprise AI i mapowania wydzielony z Niantic Inc., który od lat przekształca ogromny zbiór danych zebranych przez graczy w coś, czego branża robotyki nigdy wcześniej nie widziała: fotorealistyczny, stale aktualizowany model fizycznego świata, zbudowany specjalnie z myślą o robotach.
Brian McClendon, CTO Niantic Spatial, podkreśla skalę zebranych danych: „Five hundred million people installed that app in 60 days”. I każdy z tych ludzi, szukając Squirtle’a albo Jigglypuffa, fotografował otoczenie. Wielokrotnie. Z różnych kątów. W różnych porach dnia i przy różnej pogodzie.
VPS, czyli GPS nie wystarczy
Choć większość autonomicznych robotów korzysta dziś z GPS, system ten nie jest zawsze niezawodny. Inne roboty dostawcze testowane na kampusach uczelni były znane z gubienia drogi lub trudności z przekraczaniem ulic. W gęstej zabudowie miejskiej sygnał satelitarny po prostu się odbija od wieżowców i płata figle.
Odpowiedzią Niantic Spatial jest VPS, czyli Visual Positioning System, który potrafi określić lokalizację z dokładnością do kilku centymetrów, nie korzystając wcale z satelitów GPS. To szczególnie przydatne wewnątrz budynków oraz w tzw. urban canyons, czyli wąskich ulicach otoczonych wysokimi budynkami, które potrafią zakłócić sygnał nawigacji satelitarnej.
VPS omija satelity całkowicie, porównując w czasie rzeczywistym obraz z kamer robota do ogromnej bazy zdjęć, by ustalić pozycję i kierunek poruszania się.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Ta historia ma kilka warstw i warto je rozłożyć spokojnie. Z technologicznego punktu widzenia to naprawdę imponujące osiągnięcie: zebrać 30 miliardów zdjęć miejskiej przestrzeni z dziesiątek tysięcy lokalizacji, w różnych warunkach pogodowych i porach dnia, bez wysyłania choćby jednego samochodu z kamerą na ulicę. Google wydał miliardy dolarów na Street View, a Niantic dostał podobny efekt przy okazji gry mobilnej. To uczciwy sukces inżynieryjny.
Ale jest też druga strona medalu. Gracze budowali tę bazę danych, nie mając pełnej świadomości, że ich skany staną się komercyjnym produktem sprzedawanym firmom robotycznym. Klauzule w regulaminach to za mało, żeby powiedzieć, że „zgoda była świadoma”. Warto też zapytać: co dalej z tą mapą? Dziś zasilają ją roboty dostawcze, ale ta sama technologia, która potrafi zlokalizować robota z dokładnością do centymetrów, mogłaby być używana do zupełnie innych celów. Czy to paranoja? Może. Ale pytanie warto zadać teraz, zanim mapa stanie się jeszcze bardziej szczegółowa.
30 miliardów zdjęć i milion lokalizacji
Skąd pochodzi ta niesamowita precyzja? Model Niantic Spatial trenowano na zdjęciach skupionych wokół hot spotów, czyli miejsc ważnych w grach Nianticu, takich jak areny walk Pokémonów, gdzie gracze byli zachęcani do odwiedzin. „We had a million-plus locations around the world where we can locate you precisely,” mówi McClendon. „We know where you’re standing within several centimeters of accuracy and, most importantly, where you’re looking.”
Efekt? Dla każdej z tych ponad miliona lokalizacji system dysponuje tysiącami zdjęć wykonanych mniej więcej w tym samym miejscu, ale z różnych kątów, o różnych porach dnia i w różnych warunkach atmosferycznych. Do każdego zdjęcia przypisane są szczegółowe metadane: gdzie dokładnie był telefon w chwili wykonania zdjęcia, w jakim kierunku był skierowany, czy się poruszał i z jaką prędkością.
Niantic Spatial wytrenowało do tej pory ponad 50 milionów sieci neuronowych właśnie na tej bazie.
Coco Robotics jako pierwszy partner
Model jest teraz wdrażany do nawigacji floty ok. 1000 robotów dostawczych firmy Coco Robotics, działających w miastach na całym świecie, w tym w Los Angeles, Chicago, Miami, Jersey City i Helsinkach, gdzie roboty te zaliczyły już miliony mil dostaw.
CEO Coco, Zach Rash, wskazuje na konkretny problem, który VPS ma rozwiązać: „Robots don’t have the same intuition yet as a human, where a human can understand, 'My GPS isn’t really working, but I understand that’s probably the right place to go’. We need the robot to have that sort of intuition.”
„It is a terrible customer experience if the robot parks in the wrong place waiting to receive that order” – dodaje Rash, wskazując, że stawką jest coś tak prozaicznego jak zimna pizza dostarczona pod zły adres.
Roboty Coco wyposażone są w cztery kamery, które nie tylko korzystają z VPS, ale też aktywnie zasilają bazę danych nowymi zdjęciami.
Dane zbierane w grze, niekoniecznie bez wiedzy graczy
Ważne zastrzeżenie: użycie tych danych nie odbyło się całkowicie bez wiedzy graczy, ani też dane nie były zbierane po prostu w trakcie spacerów z telefonem. Niantic wprowadził dedykowane funkcje mapowania AR dopiero w 2020 roku. Model trenowany jest na ponad 30 miliardach zdjęć, przy czym gracze musieli aktywnie wyrazić zgodę na udział, skanując m.in. siłownie i areny bojowe z wielu różnych kątów i o różnych porach dnia.
Jednak, jak słusznie zauważają krytycy, jest spora różnica między „technicznie poinformowany” a „w pełni świadomy konsekwencji”. To nie jest zarzut pod adresem Nianticu, ale szerszy problem całej branży zbierania danych.
Warto tu wskazać kilka podobnych precedensów:
- Google reCAPTCHA przez lata zbierała od użytkowników etykiety do trenowania modeli rozpoznawania obrazu (m.in. na potrzeby samochodów autonomicznych)
- Waze udostępniał dane użytkowników organom ścigania
- Ogromna część danych używanych do trenowania modeli językowych pochodzi ze stron, których autorzy nigdy nie wyrazili na to zgody
Gra stała się mapą, mapa stała się produktem
Trzydzieści miliardów zdjęć. Osiem lat. Miliony graczy skanujących każdy zabytek, sklep i chodnik, przez który przechodzili w pogoni za wirtualnymi stworzeniami. Niantic zamienił grę mobilną w największą crowdsourcingową operację mapowania w historii, a teraz ta mapa kieruje robotami dostawczymi.
John Hanke, CEO Niantic Spatial, mówi wprost: „It turns out that getting Pikachu to realistically run around and getting Coco’s robot to safely and accurately move through the world is actually the same problem.”
Poza VPS Niantic buduje też tzw. Large Geospatial Model (LGM), czyli przestrzenny odpowiednik dużych modeli językowych, trenowany na skanach, danych LiDAR, zdjęciach dronów i innych źródłach. Wizja: model rozumiejący przestrzeń fizyczną tak, jak LLM rozumie język.
Czy gracze cokolwiek na tym zyskają? Na razie nic nie wskazuje na to, żeby Niantic planował jakiś podział zysków. Ale być może ważniejsze pytanie brzmi inaczej: czy takie modele przestrzenne, budowane z danych milionów zwykłych ludzi, powinny być własnością prywatnej firmy? Albo kto tak naprawdę powinien nad nimi sprawować kontrolę?
Pokémon Go skończy w tym roku dekadę. Jedno jest pewne: dziedzictwo tej gry okazało się znacznie większe, niż ktokolwiek mógł się spodziewać w lecie 2016 roku.
