Google ogłosiło nową funkcję w aplikacji Google Photos, która pozwala zmienić kąt widzenia zdjęcia już po jego zrobieniu. Technologia, opracowana we współpracy Google DeepMind z zespołem Platforms & Devices, łączy modele 3D z generatywną sztuczną inteligencją i trafia teraz do funkcji Auto frame.
Zdjęcie zrobione, ale kąt zły
Każdy to zna. Selfie wyszło świetnie pod względem uśmiechu, ale szerokokątny obiektyw zrobił swoje i proporcje twarzy wyglądają niepokojąco. Albo grupowe zdjęcie, na którym komuś uciął się kawałek głowy, a moment już minął. Klasyczne kadrowanie i zoom pomagają tylko do pewnego stopnia, bo nie zmieniają czegoś fundamentalnego: zdjęcie nadal pokazuje scenę z tego samego, niedoskonałego punktu widzenia.
Google postanowiło rozwiązać ten problem inaczej niż przez proste przycinanie.
Jak działa nowa technologia
System działa dwuetapowo. Najpierw model uczenia maszynowego analizuje zdjęcie i rekonstruuje scenę w trzech wymiarach, szacując dla każdego piksela odpowiadający mu punkt w przestrzeni 3D oraz przybliżoną ogniskową oryginalnego aparatu. Szczególną uwagę poświęcono wiernej rekonstrukcji twarzy i ciał ludzkich, co ma minimalizować zniekształcenia tożsamości.
Następnie klasyczny rendering 3D generuje podgląd sceny z nowego punktu widzenia. I tu pojawia się problem, który musiał rozwiązać Google: gdy wirtualna kamera „przesuwa się” wokół obiektu, odsłaniają się fragmenty tła, które nigdy nie znalazły się w kadrze oryginalnego zdjęcia. Pojawiają się „dziury”.
Do ich wypełnienia służy generatywny model latentnej dyfuzji, wytrenowany specjalnie na tym zadaniu, na zbiorze par zdjęć z dokładnie znanymi parametrami kamery. Model uczy się, jak zrekonstruować obraz z nowej perspektywy, zachowując oryginalną treść tam, gdzie to możliwe, i twórczo uzupełniając brakujące fragmenty.
Obsługiwane typy korekcji to między innymi:
- zmiana pozycji i orientacji wirtualnej kamery (pose),
- korekta ogniskowej,
- automatyczne wykrywanie i naprawianie zniekształceń perspektywicznych w selfie,
- inteligentne kadrowanie portretów na podstawie wykrytej pozycji i orientacji twarzy.
Komentarz redaktora
To technologicznie imponujące rozwiązanie i cieszę się, że wreszcie ktoś zabrał się za problem, który każdy fotograf-amator zna z autopsji. Jednak warto zadać pytanie: gdzie kończy się „naprawa zdjęcia”, a gdzie zaczyna jego fałszowanie? Jeśli AI uzupełnia fragmenty tła, których aparat nigdy nie widział, czy mamy nadal do czynienia z dokumentem chwili, czy już z jej interpretacją? Na razie to narzędzie działa na portretach i selfie, więc stawki są niskie. Ale kierunek jest wyraźny i warto śledzić, dokąd nas zaprowadzi.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl
Dostępne teraz w Google Photos
Funkcja działa w pełni automatycznie i jest już aktywna w Google Photos jako część Auto frame. System sam wykrywa kwalifikujące się zdjęcia z ludźmi i proponuje alternatywną wersję z poprawionym kadrem jako drugą opcję w zestawie propozycji Auto frame. Jedno dotknięcie.
Projekt powstał przy współpracy między Google DeepMind a zespołem Platforms & Devices. Główni autorzy to Thiemo Alldieck, Marcos Seefelder, Hannah Woods, Pedro Velez i inni inżynierowie i badacze z obu zespołów.
