Zespół badawczy Netflix we współpracy z instytutem INSAIT z Sofii opublikował otwartoźródłowy model o nazwie VOID (Video Object and Interaction Deletion). To nie jest kolejne narzędzie do uzupełniania tła w filmach. To coś innego.
Dotychczasowe narzędzia do usuwania obiektów z wideo radziły sobie z efektami wizualnymi: cieniami, refleksami, rozmyciem. Problem pojawia się, gdy usuwany obiekt faktycznie na coś wpływa fizycznie. Usuń aktora trzymającego gitarę, a instrument zostaje zawieszony w powietrzu jak duch. Poprawne rozwiązanie takiego problemu kosztowało wcześniej tygodnie pracy specjalistów od efektów wizualnych. VOID robi to automatycznie.
Skąd wziął się pomysł
Tradycyjne modele do inpaintingu wideo działają jak bardzo zaawansowane „malarze tła”. Analizują, jakie piksele powinny wypełnić puste miejsce po usuniętym obiekcie. Nie rozumują jednak o przyczynowości. Nie wiedzą, że gitara była podtrzymywana przez człowieka i że po jego zniknięciu powinna spaść.
Badacze z Netflix i INSAIT zidentyfikowali tę lukę i postanowili ją zamknąć. Efektem jest model, który nie pyta tylko „jakie piksele tu wstawić?”, ale też „co fizycznie wydarzy się po tym usunięciu?”.
Jak działa VOID
Model zbudowano na bazie CogVideoX-Fun-V1.5-5b-InP, czyli modelu dyfuzyjnego od Alibaba PAI, a następnie dostrojono go do zadania usuwania obiektów z uwzględnieniem interakcji fizycznych. Architektura opiera się na 3D Transformerze z 5 miliardami parametrów, pracującym domyślnie w rozdzielczości 384×672 i przetwarzającym do 197 klatek.
Kluczową innowacją jest tzw. quadmask, czyli maska czterowartościowa. Zamiast prostego podziału „usuń/zachowaj”, każdy piksel sceny otrzymuje jeden z czterech kodów:
- 0 – główny obiekt do usunięcia
- 63 – obszar nakładania się obiektu głównego i obszarów dotkniętych zmianą
- 127 – strefa interakcji (obiekty, które w wyniku usunięcia zmienią zachowanie, np. spadną)
- 255 – tło, pozostaw bez zmian
Dzięki temu model rozumie nie tylko gdzie jest obiekt, ale co się wokół niego dzieje.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To naprawdę interesujące podejście, bo problem „fizycznej przyczynowości” w edycji wideo był do tej pory rozwiązywany wyłącznie ręcznie przez ludzi. Z jednej strony otwarta publikacja kodu to świetna wiadomość dla twórców i badaczy. Z drugiej warto zadać sobie pytanie: gdzie przebiega granica między użytecznym narzędziem a narzędziem do manipulacji? Możliwość usunięcia osoby z nagrania wideo „wraz z fizyką” brzmi jak bajka dla filmowca, ale też jak koszmar dla każdego, kto myśli o deepfake’ach i dezinformacji. Czy Netflix zastanowił się nad tym, co zrobi ze swoim modelem społeczność, która nie produkuje filmów klasy A? To pytanie, które powinno towarzyszyć każdej tego typu premierze.
Dwa przebiegi inferencji
VOID działa w trybie dwuprzebiegowym. Pierwszy przebieg (Pass 1) obsługuje większość przypadków i sam w sobie daje dobre wyniki. Drugi przebieg (Pass 2) pełni konkretną funkcję naprawczą: koryguje znane zjawisko morphingu obiektów, czyli stopniowe zniekształcanie ich kształtów przez model dyfuzyjny w kolejnych klatkach.
Mechanizm jest elegancki. Pass 2 używa optical flow do „warpowania” wyników z Pass 1 i podaje je jako punkt startowy dla drugiego przebiegu dyfuzji. Efekt: obiekty syntetyzowane przez model zachowują stabilną formę od klatki do klatki.
Skąd wzięły się dane treningowe
To jeden z ciekawszych aspektów całego projektu. Trening modelu rozumiejącego fizykę wymaga par wideo: ta sama scena, z obiektem i bez niego, z poprawnie zasymulowaną fizyką w obu wariantach. Takich danych w świecie rzeczywistym po prostu nie ma na potrzebną skalę.
Badacze zbudowali je syntetycznie. Użyli dwóch źródeł:
- HUMOTO – interakcje człowieka z obiektami renderowane w Blenderze z symulacją fizyczną. Kluczowy mechanizm: scena jest renderowana z człowiekiem, następnie postać jest usuwana z symulacji i fizyka jest przeliczana od nowa. Obiekty, które były trzymane, teraz spadają dokładnie tak, jak powinny.
- Kubric – framework Google’a do interakcji między obiektami, stosujący tę samą zasadę do kolizji i wzajemnych oddziaływań fizycznych.
Wyniki i porównania
Model był testowany na danych syntetycznych i rzeczywistych. W porównaniu z konkurencyjnymi rozwiązaniami, takimi jak ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE i Gen-Omnimatte, VOID lepiej zachowuje spójną dynamikę sceny po usunięciu obiektu.
Kod, wagi modelu i dokumentacja są dostępne publicznie. Bazowy checkpoint CogVideoX-Fun należy pobrać oddzielnie z Hugging Face, bo VOID to nakładka na ten model, nie samodzielny system.
Materiały do pobrania: Paper | Model | Repozytorium GitHub
