Netflix udostępnia VOID: model AI, który wymazuje obiekty z wideo razem z fizyką

0:00

Zespół badawczy Netflix we współpracy z instytutem INSAIT z Sofii opublikował otwartoźródłowy model o nazwie VOID (Video Object and Interaction Deletion). To nie jest kolejne narzędzie do uzupełniania tła w filmach. To coś innego.

Dotychczasowe narzędzia do usuwania obiektów z wideo radziły sobie z efektami wizualnymi: cieniami, refleksami, rozmyciem. Problem pojawia się, gdy usuwany obiekt faktycznie na coś wpływa fizycznie. Usuń aktora trzymającego gitarę, a instrument zostaje zawieszony w powietrzu jak duch. Poprawne rozwiązanie takiego problemu kosztowało wcześniej tygodnie pracy specjalistów od efektów wizualnych. VOID robi to automatycznie.

Spis treści:

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Jeśli chcesz otrzymać raport przed oficjalną premierą oraz zobaczyć nazwę swojej firmy wśród uczestników badania – zostaw adres email na końcu ankiety.

Skąd wziął się pomysł

Tradycyjne modele do inpaintingu wideo działają jak bardzo zaawansowane „malarze tła”. Analizują, jakie piksele powinny wypełnić puste miejsce po usuniętym obiekcie. Nie rozumują jednak o przyczynowości. Nie wiedzą, że gitara była podtrzymywana przez człowieka i że po jego zniknięciu powinna spaść.

Badacze z Netflix i INSAIT zidentyfikowali tę lukę i postanowili ją zamknąć. Efektem jest model, który nie pyta tylko „jakie piksele tu wstawić?”, ale też „co fizycznie wydarzy się po tym usunięciu?”.

Jak działa VOID

Model zbudowano na bazie CogVideoX-Fun-V1.5-5b-InP, czyli modelu dyfuzyjnego od Alibaba PAI, a następnie dostrojono go do zadania usuwania obiektów z uwzględnieniem interakcji fizycznych. Architektura opiera się na 3D Transformerze z 5 miliardami parametrów, pracującym domyślnie w rozdzielczości 384×672 i przetwarzającym do 197 klatek.

Kluczową innowacją jest tzw. quadmask, czyli maska czterowartościowa. Zamiast prostego podziału „usuń/zachowaj”, każdy piksel sceny otrzymuje jeden z czterech kodów:

0 – główny obiekt do usunięcia
63 – obszar nakładania się obiektu głównego i obszarów dotkniętych zmianą
127 – strefa interakcji (obiekty, które w wyniku usunięcia zmienią zachowanie, np. spadną)
255 – tło, pozostaw bez zmian

Dzięki temu model rozumie nie tylko gdzie jest obiekt, ale co się wokół niego dzieje.

Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:

To naprawdę interesujące podejście, bo problem „fizycznej przyczynowości” w edycji wideo był do tej pory rozwiązywany wyłącznie ręcznie przez ludzi. Z jednej strony otwarta publikacja kodu to świetna wiadomość dla twórców i badaczy. Z drugiej warto zadać sobie pytanie: gdzie przebiega granica między użytecznym narzędziem a narzędziem do manipulacji? Możliwość usunięcia osoby z nagrania wideo „wraz z fizyką” brzmi jak bajka dla filmowca, ale też jak koszmar dla każdego, kto myśli o deepfake’ach i dezinformacji. Czy Netflix zastanowił się nad tym, co zrobi ze swoim modelem społeczność, która nie produkuje filmów klasy A? To pytanie, które powinno towarzyszyć każdej tego typu premierze.

Dwa przebiegi inferencji

VOID działa w trybie dwuprzebiegowym. Pierwszy przebieg (Pass 1) obsługuje większość przypadków i sam w sobie daje dobre wyniki. Drugi przebieg (Pass 2) pełni konkretną funkcję naprawczą: koryguje znane zjawisko morphingu obiektów, czyli stopniowe zniekształcanie ich kształtów przez model dyfuzyjny w kolejnych klatkach.

Mechanizm jest elegancki. Pass 2 używa optical flow do „warpowania” wyników z Pass 1 i podaje je jako punkt startowy dla drugiego przebiegu dyfuzji. Efekt: obiekty syntetyzowane przez model zachowują stabilną formę od klatki do klatki.

Skąd wzięły się dane treningowe

To jeden z ciekawszych aspektów całego projektu. Trening modelu rozumiejącego fizykę wymaga par wideo: ta sama scena, z obiektem i bez niego, z poprawnie zasymulowaną fizyką w obu wariantach. Takich danych w świecie rzeczywistym po prostu nie ma na potrzebną skalę.

Badacze zbudowali je syntetycznie. Użyli dwóch źródeł:

HUMOTO – interakcje człowieka z obiektami renderowane w Blenderze z symulacją fizyczną. Kluczowy mechanizm: scena jest renderowana z człowiekiem, następnie postać jest usuwana z symulacji i fizyka jest przeliczana od nowa. Obiekty, które były trzymane, teraz spadają dokładnie tak, jak powinny.
Kubric – framework Google’a do interakcji między obiektami, stosujący tę samą zasadę do kolizji i wzajemnych oddziaływań fizycznych.

Wyniki i porównania

Model był testowany na danych syntetycznych i rzeczywistych. W porównaniu z konkurencyjnymi rozwiązaniami, takimi jak ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE i Gen-Omnimatte, VOID lepiej zachowuje spójną dynamikę sceny po usunięciu obiektu.

Kod, wagi modelu i dokumentacja są dostępne publicznie. Bazowy checkpoint CogVideoX-Fun należy pobrać oddzielnie z Hugging Face, bo VOID to nakładka na ten model, nie samodzielny system.

Materiały do pobrania: Paper | Model | Repozytorium GitHub

Oceń artykuł

Średnia: 4.9 (20 ocen)

Netflix udostępnia VOID: model AI, który wymazuje obiekty z wideo razem z fizyką

🔥 RAPORT: Polska firma w erze AI 2026 - Weź udział w ankiecie

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

Anthropic uruchamia Claude Design – AI projektuje razem z tobą

AI w uchu i AI przy drzwiach – jak AirPods Pro 3 i Blink zmieniają codzienne gadżety w inteligentnych asystentów

Grayson Perry kontra AI: dokumentalny film, który sprawia, że chcesz uciec do lasu

Dairy Queen wdraża AI w drive-thru. Automat przyjmuje zamówienia w ponad 25 stanach

AIport.pl - o nas

Netflix udostępnia VOID: model AI, który wymazuje obiekty z wideo razem z fizyką

Skąd wziął się pomysł

Jak działa VOID

Dwa przebiegi inferencji

Skąd wzięły się dane treningowe

Wyniki i porównania

Przeczytaj podobne artykuły:

Jesteś z nami!

na skróty

Spotkajmy się

tematy

AI w praktyce

Najnowsze artykuły

AIport.pl - o nas