Google AI opublikowało właśnie metodologię o nazwie Groundsource – system, który wykorzystuje model Gemini do wydobywania ustrukturyzowanych danych historycznych z chaosu globalnych doniesień prasowych. Pierwszym, konkretnym efektem tego projektu jest otwarty zbiór danych zawierający 2,6 miliona historycznych zdarzeń miejskich powodzi błyskawicznych z ponad 150 krajów.
Brzmi jak akademicki projekt. W rzeczywistości chodzi o coś znacznie ważniejszego.
Dziura w danych, która kosztuje życie
Systemy wczesnego ostrzegania przed katastrofami naturalnymi potrzebują obszernych danych historycznych do trenowania i walidacji modeli predykcyjnych. Problem w tym, że powodzie błyskawiczne – w odróżnieniu od powolnych wezbrań rzek – przez dekady były dokumentowane nierównomiernie i fragmentarycznie.
Skala problemu jest poważna:
- Według Światowej Organizacji Meteorologicznej (WMO) powodzie błyskawiczne odpowiadają za około 85% wszystkich ofiar śmiertelnych związanych z powodziami, czyli ponad 5 000 zgonów rocznie.
- Satelitarne bazy danych, takie jak Global Flood Database czy Dartmouth Flood Observatory, mają istotne ograniczenia: zachmurzenie, rzadkie przejścia satelitów, a przede wszystkim systematyczne niedoszacowanie krótkich, intensywnych zdarzeń.
- Globalna baza GDACS liczy zaledwie około 10 000 zdarzeń wysokiego ryzyka – ilość zdecydowanie niewystarczająca do trenowania globalnych modeli predykcyjnych.
Innymi słowy: dane istniały, tyle że były zakopane w dziesiątkach tysięcy lokalnych artykułów prasowych w kilkudziesięciu językach.
Gemini jako parser historii
Rozwiązanie zaproponowane przez zespół Google AI jest eleganckie w swojej prostocie. Pipeline Groundsource działa dwuetapowo.
Najpierw model Gemini przetwarza nieustrukturyzowany, wielojęzyczny tekst – wydobywa z artykułów konkretne zdarzenia, klasyfikuje ich intensywność i odsiewa szum informacyjny. To zadanie, przy którym tradycyjne metody NLP regularnie się potykają. Następnie wyekstrahowane opisy lokalizacji trafiają do Google Maps API, które przypisuje im precyzyjne współrzędne geograficzne i granice obszarów.
Efekt końcowy? Subiektywna relacja dziennikarska zamienia się w ustrukturyzowany, maszynowo czytelny rekord zdarzenia.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
„To jeden z tych projektów, przy których trudno pozostać obojętnym. Z jednej strony mamy tu naprawdę sensowne zastosowanie dużych modeli językowych – nie kolejny chatbot, ale narzędzie wydobywające wartość z danych, które w inny sposób byłyby praktycznie niedostępne dla nauki. Z drugiej strony warto zadać pytanie: jak duże jest ryzyko błędów systematycznych? Lokalne media nie dokumentują katastrof równomiernie – bogate regiony mają więcej dziennikarzy, lepszy dostęp do internetu, więcej archiwów online. Czy model wytrenowany na danych z Groundsource nie odziedziczy tych nierówności geograficznych? A jeśli tak – czy system wczesnego ostrzegania oparty na takich danych będzie faktycznie globalny, czy tylko pozornie globalny? To pytania, które Google powinno transparentnie zaadresować w dokumentacji technicznej.”
Od rzek do miast
Historycznie Google Flood Forecasting Initiative skupiało się na powodziach rzecznych – wolniejszych, łatwiejszych do śledzenia, bardziej przewidywalnych. Powodzie błyskawiczne rządzą się zupełnie innymi prawami: mogą osiągnąć szczytowe natężenie w ciągu minut, nie godzin.
Dzięki zbiorowi Groundsource zespół Google wytrenował nowy model predykcyjny zdolny do prognozowania ryzyka miejskich powodzi błyskawicznych z wyprzedzeniem do 24 godzin. To istotna liczba – badania wskazują, że już 12-godzinne ostrzeżenie może ograniczyć straty materialne nawet o 60%.
Prognozy są już aktywne na platformie Google Flood Hub. Zbiór danych trafił do domeny publicznej – jest dostępny na platformie Zenodo i może służyć każdemu zespołowi badawczemu do trenowania własnych, lokalnie dopasowanych modeli.
Otwarte dane, otwarte pytania
Udostępnienie zbioru to dobry ruch. Pozwala innym naukowcom weryfikować metodologię, uzupełniać luki i budować na tym fundamencie własne rozwiązania. Alternatywa – zamknięcie danych wewnątrz Google – byłaby trudna do obrony etycznie w kontekście ratowania życia.
Pozostaje jednak kwestia jakości. Dziennikarstwo lokalne bywa rzetelne, bywa też dalekie od rzetelności. Model Gemini musi oceniać wiarygodność źródeł, odróżniać potwierdzone zdarzenia od plotek i przesadnych relacji. Jak radzi sobie z tym zadaniem w językach o mniejszej reprezentacji w danych treningowych? Jak zachowuje się wobec artykułów sprzed dekady, gdy terminologia i standardy reportażu wyglądały inaczej?
To nie są zarzuty – to naturalne pytania, które każdy poważny projekt naukowy powinien stawiać sobie wprost.
Groundsource pokazuje jeden ważny kierunek: ogromne zasoby niestrukturyzowanego tekstu, które ludzkość zgromadziła przez ostatnie dekady, mogą stać się surowcem dla systemów ratujących życie. Pod warunkiem, że podejdziemy do tego z odpowiednią dozą metodologicznej ostrożności.
