General Motors opublikował szczegółowy opis swojego podejścia do budowy autonomicznych systemów jazdy. W centrum tej strategii leży nie tyle liczba przejechanych kilometrów na prawdziwych drogach, co skala symulacji — dziesiątki tysięcy wirtualnych dni jazdy skompresowanych w kilka godzin obliczeń.
Artykuł sygnowany przez Bena Snydera, szefa zespołu badań AI dla pojazdów autonomicznych w GM, trafił na łamy IEEE Spectrum. Snyder to inżynier z ponad dekadą doświadczenia w AI i robotyce, wcześniej pracował m.in. w Amazon, Microsoft i Cruise. Jego tekst to rzadka chwila szczerości ze strony dużego producenta samochodowego — bez marketingowego szumu, z konkretnymi nazwami technologii i otwartymi pytaniami badawczymi.
Problem „długiego ogona” w autonomicznej jeździe
Każdy, kto śledzi temat autonomicznych pojazdów, zna tę frazę: „long tail”. Chodzi o scenariusze rzadkie, ale krytyczne. Materac na środku autostrady. Awaria sygnalizacji w całym mieście. Policjant ręcznie kierujący ruchem na skrzyżowaniu — i to właśnie ten gestykulujący funkcjonariusz, a nie czerwone światło, ma tu rację.
GM przyznaje wprost: 99% codziennej jazdy to rozwiązany problem. Reszta — te graniczne, dziwne, nieprzewidywalne sytuacje — to właśnie centralne wyzwanie inżynieryjne na drodze do pełnej autonomii.
Modele VLA, czyli „rozumiejące” auto
Jednym z narzędzi, które GM wdraża w tym celu, są modele Vision Language Action (VLA). To rozwinięcie standardowych modeli językowych rozumiejących obrazy, wzbogacone o zdolność do podejmowania decyzji dotyczących jazdy. Taki model potrafi rozpoznać, że gest policjanta ma pierwszeństwo przed czerwonym światłem, albo zidentyfikować specyfikę strefy załadunku na zatłoczonym lotnisku.
Co istotne — modele VLA generują też tzw. ślady rozumowania. Innymi słowy, system jest w stanie wyjaśnić, dlaczego podjął daną decyzję. To kluczowe narzędzie nie tylko dla inżynierów debugujących system, ale też dla budowania zaufania wśród użytkowników i regulatorów.
Komentarz redaktora
To jest właśnie ten moment, w którym duże firmy motoryzacyjne zaczynają mówić językiem laboratoriów AI. Ben Snyder opisuje architekturę, która brzmi imponująco — i pewnie taka jest. Ale warto zadać kilka trudniejszych pytań. Po pierwsze: czy symulacja, nawet 50 000 razy szybsza od rzeczywistości, naprawdę odwzorowuje chaos prawdziwego świata? Mamy tu do czynienia z ryzykiem, że system „nauczy się symulatora”, a nie drogi. Po drugie: kto weryfikuje te „edge cases” z zewnątrz? GM pisze o własnych narzędziach, własnych symulatorach, własnych testach. To brzmi jak zamknięty ekosystem bez niezależnego audytu. Z drugiej strony — skala tych badań jest autentycznie imponująca. Jeśli „On Policy Distillation” rzeczywiście pozwala skompresować 12 godzin uczenia się do 30 minut, to mówimy o realnym przełomie w efektywności trenowania modeli. Pytanie brzmi: kiedy to zobaczymy na prawdziwych drogach — i kto będzie odpowiadał za błędy, zanim to nastąpi?
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Dwa tryby, jeden system
Problemem modeli VLA jest latencja — za dużo myślą. W przypadku samochodu jadącego z prędkością 120 km/h każda milisekunda opóźnienia ma znaczenie. Dlatego GM pracuje nad tzw. Dual Frequency VLA: dużym modelem pracującym z niską częstotliwością, który podejmuje decyzje semantyczne wysokiego poziomu („czy to gałąź czy blok betonowy?”), oraz małym, szybkim modelem obsługującym sterowanie i hamowanie w czasie rzeczywistym.
To eleganckie rozwiązanie — podział na „mózg strategiczny” i „rdzeń motoryczny”.
Boxworld: symulator 50 000 razy szybszy od rzeczywistości
Sercem opisywanego systemu jest GM Gym — własny symulator wieloagentowego uczenia przez wzmacnianie. Jego kluczowy komponent to „Boxworld”: uproszczone środowisko, które pomija detale (kałuże, nierówności asfaltu), a skupia się na tym, co naprawdę kształtuje decyzje: pozycji, prędkości i zasadach ruchu.
Efekt? Boxworld działa 50 000 razy szybciej niż czas rzeczywisty, symulując 1000 km jazdy na każdą sekundę czasu GPU.
Kluczowe komponenty całego ekosystemu treningowego GM to:
- VLA models — rozumienie złożonych scenariuszy drogowych
- Dual Frequency VLA — podział na decyzje strategiczne i reakcje w czasie rzeczywistym
- Seed-to-Seed Translation — transformacja istniejących nagrań w nowe warunki pogodowe przy zachowaniu geometrii sceny
- GM World — symulator generatywny tworzący nowe scenariusze z opisu słownego
- GM Gym / Boxworld — środowisko reinforcement learning z prędkością 50 000x
- On Policy Distillation — transfer wiedzy z modelu abstrakcyjnego do modelu „drogowego”
- SHIFT3D — generowanie trudnych, „wrogich” obiektów do testowania percepcji
- Epistemic Uncertainty Head — mechanizm sygnalizowania przez AI własnej niepewności
SHIFT3D i „wrogie” obiekty
Szczególnie interesującym elementem jest SHIFT3D — różniczkowalny pipeline, który aktywnie modyfikuje obiekty w symulacji tak, żeby zmylić system percepcji. Bierze sedan i deformuje go w kierunku wersji, której AI trudniej zidentyfikować. Cel: zmuszenie modelu do trenowania na najtrudniejszych przypadkach, zanim pojawią się na prawdziwej drodze. GM twierdzi, że iteracyjne douczanie na takich „trudnych” obiektach zmniejszyło liczbę niemal-kolizji o ponad 30%.
System wie, kiedy nie wie
Ostatni element układanki to architektoniczna ciekawostka: „Epistemic Uncertainty Head” — dodatkowy komponent modelu, który pozwala AI odróżnić zwykły szum sensoryczny od prawdziwej dezorientacji. Kiedy samochód napotka scenariusz spoza rozkładu treningowego, system sygnalizuje wysoką niepewność i automatycznie oznacza ten przypadek do analizy przez inżynierów.
To nie tylko mechanizm bezpieczeństwa. To też bardzo sensowny sposób na automatyczne budowanie zestawu danych treningowych z najcenniejszych, najtrudniejszych przypadków.
Konkluzja: imponująca architektura, otwarte pytania
GM nie udaje, że rozwiązał problem pełnej autonomii. Snyder wprost wymienia nierozstrzygnięte pytania badawcze: jak łączyć nieograniczone dane z symulacji z bogatszymi, ale skończonymi danymi z prawdziwych dróg? Jak ludzka stać się może polityka jazdy zoptymalizowana przez funkcję nagrody? Jak daleko mogą zajść generatywne modele świata w tworzeniu sensownych scenariuszy granicznych?
To rzadki poziom intelektualnej uczciwości ze strony dużej korporacji. I właśnie dlatego ten artykuł jest wart uwagi — nie jako komunikat prasowy, lecz jako rzeczywisty wgląd w to, jak naprawdę wygląda inżynieria autonomicznej jazdy w 2026 roku.
