Volkswagen Group wspólnie z AWS zbudował system generowania i weryfikacji zdjęć marketingowych oparty na generatywnej AI. To nie jest eksperyment – to działające narzędzie produkcyjne, które obsługuje dziesięć marek jednocześnie.
Koncern Volkswagen Group dostarcza miliony samochodów rocznie i prowadzi marketing dla dziesięciu marek z pięciu europejskich krajów: Volkswagen, Volkswagen Commercial Vehicles, ŠKODA, SEAT, CUPRA, Audi, Lamborghini, Bentley, Porsche i Ducati. Każda z nich ma własny język wizualny, własne wytyczne i własnych klientów. Skala tego wyzwania jest trudna do wyobrażenia z zewnątrz – a tradycyjne metody produkcji treści po prostu przestały za nią nadążać.
Problem, który znają wszyscy w branży
Klasyczna sesja zdjęciowa dla jednego modelu samochodu potrafi kosztować sześć cyfr i pochłonąć tygodnie pracy. Fizyczny prototyp, profesjonalne studia, specjalistyczne oświetlenie, logistyka transportu pojazdów między lokalizacjami – do tego dochodzi mozolna weryfikacja każdego zdjęcia pod kątem zgodności z wytycznymi marki, zanim trafi do kampanii.
A wytycznych jest mnóstwo. Bentley wymaga innego podejścia do staging’u niż Porsche, które z kolei różni się od ŠKODY. Każde zdjęcie musi być weryfikowane nie tylko technicznie, ale też kulturowo i prawnie – to, co jest akceptowalne w Niemczech, może naruszać przepisy w Szwecji.
Patrząc na ten projekt, widzę coś więcej niż kolejną wdrożenie AI w dużej korporacji. Volkswagen dotknął problemu, który dotyczy każdej branży pracującej z dużą ilością treści wizualnych: jak skalować jakość bez skalowania kosztów? Odpowiedź, którą wypracowali, jest technicznie imponująca, ale rodzi też pytania. Co z fotografami i studioami, które dotąd żyły z tych kontraktów? Co z autentycznością zdjęć, jeśli w przyszłości nie będziemy wiedzieć, czy obraz pochodzi z sesji, czy z modelu? I wreszcie – jak daleko ta technologia może zajść, zanim marki premium zaczną tracić na percepcji ekskluzywności, zastępując prawdziwe fotografie syntetycznymi obrazami? To są pytania, których nie warto odkładać na później.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Jak działa system generowania obrazów
Zespół z AWS Generative AI Innovation Center rozpoczął od podstawowego pytania: czy modele fundamentalne potrafią wygenerować fotorealistyczne zdjęcia pojazdów VW? Odpowiedź była: tak, ale niewystarczająco dobrze.
Bazowe modele diffuzyjne generowały auta, ale z generycznymi felgami i atrapą chłodnicy, która nie pasowała do żadnego konkretnego modelu. I nie miały pojęcia o pojazdach, które jeszcze nie weszły do sprzedaży – a właśnie dla nich potrzebne są materiały marketingowe z wyprzedzeniem.
Rozwiązaniem było fine-tuning. Zespół, przy współpracy z firmą SolidMeta, użył techniki DreamBooth do douczenia modeli na własnych zasobach wizualnych koncernu – włącznie z danymi z cyfrowych bliźniaków w NVIDIA Omniverse. Wdrożono model Flux.1-Dev z adapterem LoRA na Amazon SageMaker AI. Efekt? Model zaczął rozumieć konkretne detale:
- teksturę kratki chłodnicy dla każdej marki
- wzory szprych kół charakterystyczne dla konkretnych wersji wyposażenia
- proporcje nadwozia unikalne dla każdego modelu
Samo generowanie to jednak połowa sukcesu. Żeby prompt działał jak należy, trzeba umieć go sformułować. Marketingowiec wpisze „srebrny VW w lesie” – a model potrzebuje szczegółowej specyfikacji oświetlenia, kąta kamery, środowiska i detali pojazdu. Dlatego zbudowano dodatkowy system automatycznej optymalizacji promptów oparty na Amazon Nova Lite, który rozbudowuje wejście użytkownika o odpowiednie elementy brandingowe zanim trafi do modelu generatywnego.
Weryfikacja, która myśli jak ekspert
Generowanie na skalę to jedno. Weryfikacja tysięcy zdjęć pod kątem jakości – to inny problem.
Klasyczne metryki jak PSNR czy SSIM szybko okazały się bezużyteczne. Oceniały cały obraz, łącznie z tłem, i nie potrafiły wskazać, który konkretny element jest błędny. Zdjęcie z nieprawidłową atrapy chłodnicy mogło dostać dobry wynik.
Zespół poszedł inną drogą: ocena komponentowa. System najpierw segmentuje obraz na części – koła, atrapę chłodnicy, reflektory, lusterka, zderzaki, logo – używając open-source’owego modelu Florence-2 na SageMaker. Każdy komponent z wygenerowanego zdjęcia porównuje się z odpowiednim komponentem z referencyjnego zdjęcia producenta.
Oceny dokonuje Claude 4.5 Sonnet na Amazon Bedrock jako „sędzia” VLM, używając kryteriów specyficznych dla motoryzacji. Skala od 1 do 5, gdzie 1 oznacza błąd widoczny dla przypadkowego obserwatora, a 5 – brak różnic dostrzegalnych nawet przez ekspertów. Wyniki są granularne: w jednym z przykładów reflektor dostał 5/5 za obudowę i wykończenie, ale 4/5 za strukturę wewnętrzną, bo wygenerowane zdjęcie pokazywało więcej detali niż rzeczywisty samochód.
Brand compliance – najtrudniejsza część
Techniczne odwzorowanie pojazdu to dopiero połowa wymagań. Każda marka Grupy Volkswagen ma wytyczne, które wychodzą daleko poza to, czy felga ma właściwy wzór szprych.
Volkswagen jako marka stawia na realistyczne, codzienne otoczenie – miejskie ulice, wiejskie drogi, podjazdy do domów – z miękkim oświetleniem w godzinach złotej godziny. Emocjonalny ton musi być „disarmingly honest, genuinely human, and surprisingly empathetic”. Takich rzeczy nie zmierzysz klasyczną metryką.
Do tego dochodzą regulacje regionalne. Jeden z flagowych przykładów z projektu: w Szwecji prawo wymaga, żeby pies był transportowany w specjalnym zabezpieczeniu lub klatce. Zdjęcie z psem luźno siedzącym w bagażniku Touarega – poprawne w Niemczech – jest nielegalne jako materiał marketingowy w Szwecji.
System oparty na Claude 4.5 Sonnet wyłapał coś jeszcze: zdjęcie przygotowane dla rynku brytyjskiego (z kierownicą po prawej stronie, w brytyjskim otoczeniu miejskim) dostało niski wynik za tablice rejestracyjne. Model wskazał, że tablica jest w stylu kontynentalnym i zidentyfikował ją jako rejestrację zaczynającą się od „WOI” – co brytyjski klient od razu by zauważył.
Fine-tuning modelu oceniającego
Ostatni element układanki to ciągłe doskonalenie. Zamiast zatrudniać marketerów do ręcznego etykietowania tysięcy zdjęć, zespół użył wytycznych marki do generowania syntetycznych danych treningowych.
LLM wygenerował 1000 promptów zgodnych z wytycznymi marki i 1000 promptów celowo je naruszających. Ponieważ wiedziano z góry, które są zgodne a które nie, można było automatycznie wygenerować poprawne oceny dla każdego obrazu. Te pary (obraz + ocena) posłużyły do fine-tuningu modelu Nova Pro przez Amazon SageMaker Training Jobs.
Wynik: model oceniający, który rozumie specyficzny język brandingowy Volkswagena i potrafi go stosować precyzyjniej niż model ogólny. I – co kluczowe – tę samą metodę można zastosować dla każdej z dziesięciu marek koncernu.
Co to oznacza dla branży
Sebastian Angersbach, Head of IT Strategy & Innovation w Volkswagen Group Services, podsumował efekt projektu tak: „By combining our domain expertise with AWS, we built a generative AI platform that makes our marketing faster, smarter, and safer.”
Szybciej, mądrzej, bezpieczniej. Brzmi jak slogan, ale za tym kryją się konkretne liczby: sesje zdjęciowe kosztujące sześć cyfr zastępowane generowaniem w minutach, weryfikacja setek wariantów zdjęć bez manualnego przeglądu, możliwość tworzenia materiałów dla modeli, które jeszcze nie istnieją fizycznie.
Motoryzacja jest branżą, która przyzwyczaiła nas do powolnych zmian. Tym razem tempo wdrożenia jest inne.
