Zespół AWS opublikował właśnie szczegółowy opis rozwiązania, które rozszerza popularną technikę RAG (Retrieval Augmented Generation) na obszar generowania wideo. VRAG, bo tak nazwano pipeline, pozwala tworzyć filmy dopasowane do konkretnych treści wizualnych – nie tylko na podstawie tekstu, ale z wykorzystaniem własnej biblioteki obrazów.
Dotychczas generatywne modele wideo były skazane wyłącznie na wiedzę z treningu. Chcesz wygenerować film z konkretnym produktem, miejscem czy obiektem? Trudno – model nie zna Twoich zdjęć. AWS postanowił to zmienić i połączył Amazon Bedrock, model Nova Reel, silnik wektorowy OpenSearch oraz S3 w jeden zautomatyzowany workflow.
Jak to działa?
Mechanizm jest stosunkowo prosty w założeniu, choć technicznie wymagający. Użytkownik podaje opis obiektu, który go interesuje – na przykład „blue sky” albo „red shoes”. System przeszukuje indeks wektorowy w OpenSearch, odnajduje najbardziej pasujący obraz z wcześniej zaindeksowanej biblioteki, a następnie łączy go z promptem akcji („Camera pans down”, „Camera rotates clockwise”) i przekazuje do Nova Reel. Efektem jest film zakotwiczony wizualnie w konkretnym zdjęciu.
Cały pipeline wspiera też przetwarzanie wsadowe – można zdefiniować listę promptów w pliku tekstowym i wygenerować serię filmów w jednym uruchomieniu. Każdy prompt zawiera zmienne zastępcze dla obiektu i dla akcji kamery.
Przykład z agencją turystyczną
AWS pokazuje różnicę między podejściem „text-only” a VRAG na konkretnym przykładzie. Agencja turystyczna chce stworzyć reklamę pięknej plaży z kajakiem. Przy samym tekście model generuje coś ogólnego. Gdy dostarczy się konkretne zdjęcie z danej lokalizacji i ten sam prompt tekstowy, wynikowy film odzwierciedla rzeczywiste miejsce – konkretną wodę, konkretne niebo.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
To ciekawe rozwinięcie techniki RAG, którą znamy z systemów pytań i odpowiedzi. Przeniesienie jej na grunt generowania wideo ma sens – w końcu problem „halucynacji wizualnych” jest równie poważny jak tekstowych. Jeśli firma chce wygenerować film z własnym produktem, potrzebuje punktu odniesienia w postaci realnego obrazu. Z drugiej strony trzeba zadać sobie pytanie: kto realnie będzie konfigurował cały ten stack – CloudFormation, SageMaker, OpenSearch, S3, Bedrock? To nie jest rozwiązanie dla małych zespołów bez kompetencji chmurowych. Na razie jest to potężne narzędzie, ale dostępne tylko dla tych, którzy i tak już głęboko siedzą w ekosystemie AWS.
Siedem notebooków, jeden workflow
AWS udostępnia rozwiązanie jako zestaw siedmiu sequencyjnych notebooków Jupyter, oznaczonych od _00 do _06. Każdy odpowiada za inny etap:
- przetwarzanie i zmiana rozmiaru obrazów, generowanie opisów przez Amazon Nova
- indeksowanie w OpenSearch z wykorzystaniem Amazon Titan Embeddings
- generowanie wideo wyłącznie z tekstu
- generowanie wideo z tekstu i obrazu
- multimodalne wejście z pełnym procesem VRAG
- in-painting – modyfikowanie wybranych regionów obrazu
- generowanie wideo z obrazów po in-paintingu
Każdy notebook jest niezależną jednostką dydaktyczną, więc można testować poszczególne etapy bez przechodzenia przez cały flow.
In-painting jako bonus
Szczególnie interesujące jest rozszerzenie o in-painting. Użytkownik może wskazać maskę na obrazie i polecić modelowi, żeby wygenerował lub zastąpił tylko wybraną część. Dopiero z tak zmodyfikowanego obrazu powstaje wideo. To otwiera możliwości usuwania niechcianych elementów ze scen, wstawiania nowych obiektów lub kreatywnej modyfikacji tła przed generowaniem animacji.
Dla kogo to jest?
AWS wprost wskazuje trzy główne obszary zastosowań:
- materiały edukacyjne tworzone automatycznie z wiedzy dziedzinowej
- reklamy dopasowane do konkretnych produktów i grup demograficznych
- spersonalizowane treści wideo generowane na podstawie zainteresowań użytkownika
Warto jednak pamiętać o zastrzeżeniu samych autorów: jakość wynikowego wideo zależy bezpośrednio od jakości i trafności bazy obrazów. Słaba biblioteka zdjęć to słabe wideo – RAG nie jest tu żadną magią.
Dostępność i wymagania
Rozwiązanie wdraża się przez AWS CloudFormation w regionie US East (N. Virginia). Nova Reel nie jest dostępna we wszystkich regionach AWS, więc przed startem warto sprawdzić aktualną listę. Wymagane jest konto AWS i podstawowa znajomość środowiska SageMaker.
Dokumentacja techniczna, kod notebooków i instrukcja krok po kroku są dostępne na blogu AWS Machine Learning, opublikowanym 19 marca 2026 roku.
