Google Research zaprezentowało S2Vec, system, który potrafi „rozumieć” charakter dzielnicy tak jak człowiek, bez potrzeby ręcznego opisywania danych. To jeden z tych projektów badawczych, które na pierwszy rzut oka wyglądają jak akademicki eksperyment, ale w praktyce mogą zmienić sposób, w jaki planujemy miasta i monitorujemy środowisko.
Kiedy myślimy o AI i mapach, zazwyczaj myślimy o nawigacji. Gdzie skręcić, jak uniknąć korka, ile minut do celu. S2Vec idzie w zupełnie innym kierunku. Zamiast pytać „jak tam dojechać?”, pyta „co to miejsce mówi o ludziach, którzy tam żyją?”
Co to właściwie jest ten S2Vec?
S2Vec to framework oparty na samouczeniu się bez nadzoru (self-supervised learning), który zamienia dane geoprzestrzenne w tak zwane embeddingi, czyli zwarte, liczbowe reprezentacje obszarów geograficznych. W uproszczeniu: system patrzy na rozkład budynków, sklepów, parków, przystanków i innych elementów infrastruktury w danej lokalizacji, a następnie tworzy „odcisk palca” tego miejsca w postaci wektora liczbowego.
Projekt powstał w ramach inicjatywy Google Earth AI, której celem jest przekształcenie informacji o planecie w wiedzę możliwą do wykorzystania w praktyce.
Jak to działa?
Żeby przerobić chaotyczne dane geograficzne na coś, co model uczenia maszynowego może „zobaczyć”, Google zastosowało dwuetapowe podejście.
Pierwszy etap to podział powierzchni Ziemi na komórki za pomocą biblioteki S2 Geometry. Biblioteka ta dzieli glob na hierarchię komórek o różnych rozmiarach, od całych krajów po obszary liczące zaledwie kilka metrów kwadratowych.
Drugi etap to rasteryzacja. Zamiast traktować budynki czy drogi jako listę współrzędnych, system zlicza typy elementów w każdej komórce S2 i układa je w wielowarstwowy obraz. Jeśli w komórce są trzy kawiarnie i jeden park, stają się one „kolorami” na geoprzestrzennym obrazku.
Efekt? Dane geograficzne wyglądają jak zdjęcie satelitarne, które AI może analizować sprawdzonymi technikami computer vision.
Uczenie bez etykiet, czyli magia masked autoencoding
Tu robi się naprawdę ciekawie. S2Vec wykorzystuje technikę zwaną masked autoencoding (MAE), którą część czytelników może kojarzyć z modelem MAE od Meta, stosowanym pierwotnie do zdjęć. W tym przypadku działa to tak:
- Model „widzi” fragment środowiska miejskiego
- Część danych jest ukryta (zamaskowana)
- Model musi przewidzieć, co kryje się w zamaskowanym obszarze
Jeśli model widzi blok wieżowców mieszkalnych i stację metra, uczy się, że w pobliżu prawdopodobnie jest też supermarket. Po milionach takich iteracji na danych z całego świata model zaczyna rozumieć głębsze zależności między elementami tkanki miejskiej.
Co kluczowe: nie potrzebuje do tego żadnych ręcznie tworzonych etykiet. A oznaczanie każdego miejsca na Ziemi byłoby zadaniem z gatunku niemożliwych.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Projekty takie jak S2Vec robią na mnie wrażenie przede wszystkim dlatego, że dotykają bardzo konkretnego problemu: jak sprawić, żeby maszyna „rozumiała” kontekst przestrzenny, a nie tylko reagowała na punkty na mapie. To mądre podejście. Ale zaraz zadaję sobie pytanie: kto będzie miał dostęp do tego rodzaju narzędzi i w jaki sposób? Predykcja dochodów na poziomie dzielnicy, gęstość zaludnienia, emisje węgla, ukryte wzorce urbanistyczne, to dane, które w rękach administracji publicznej lub firm ubezpieczeniowych mogą służyć bardzo różnym celom. Planowanie przestrzenne to jedno. Scoring dzielnic na potrzeby kredytów hipotecznych to drugie. Historia pokazuje, że narzędzia stworzone z dobrymi intencjami potrafią być używane w sposób, jakiego twórcy się nie spodziewali. Nie mówię, że Google to zrobi źle. Mówię, że warto o tym rozmawiać zanim technologia się upowszechni, a nie dopiero potem.
Jak wypada w porównaniu z konkurencją?
Google porównało S2Vec z kilkoma istniejącymi modelami geoprzestrzennymi: SATCLIP, GEOCLIP, RS-MaMMUT, Hex2vec i GeoVeX. Testy przeprowadzono na dwóch typach zadań:
- losowe podziały danych treningowych i testowych (interpolacja)
- zero-shot geographic adaptation, czyli testowanie modelu na obszarach geograficznych, których wcześniej nie widział (ekstrapolacja)
W zadaniach ekstrapolacji dotyczących wskaźników społeczno-ekonomicznych, takich jak mediana dochodów czy gęstość zaludnienia w USA, S2Vec radzi sobie lepiej od innych modeli. Wyraźna słabość pojawia się przy predykcji czynników środowiskowych, takich jak pokrycie drzewami czy wysokość terenu. W tych przypadkach sam S2Vec nie wystarcza i potrzebuje wsparcia ze strony danych satelitarnych. Połączenie obu modeli daje jednak najlepsze wyniki spośród wszystkich testowanych konfiguracji.
Zastosowania, które mogą mieć realne znaczenie
Google wymienia kilka konkretnych obszarów zastosowań:
- Planowanie urbanistyczne: analiza, jak zmiany infrastruktury wpływają na kondycję dzielnicy
- Badania środowiskowe: dokładniejsze modelowanie śladu węglowego szybko rozwijających się miast
- Przewidywanie gęstości zaludnienia: bez konieczności drogich i rzadkich spisów ludności
- Analiza terenów słabo skatalogowanych: S2Vec działa tam, gdzie dane satelitarne są słabej jakości lub niedostępne
Jeden krok w stronę fundamentalnej inteligencji geograficznej
S2Vec wpisuje się w szerszy ekosystem narzędzi Google Earth AI, obok modelu Population Dynamics Foundation Model (PDFM) i modelu RS-MaMMUT. Razem tworzą coraz pełniejszy obraz planety w formie możliwej do analizy przez modele AI.
Pytanie, czy to dobry kierunek, jest zasadne. Ale chyba bardziej zasadne jest pytanie, czy mamy jakąkolwiek alternatywę dla naukowego i odpowiedzialnego zbierania takich danych w dobie, gdy miasta rosną szybciej, niż jesteśmy w stanie je rozumieć.
Artykuł źródłowy i paper dostępne na stronie Google Research.
