Google właśnie uruchomiło w aplikacji Gemini generowanie muzyki oparte na modelu Lyria 3 – i to nie jest kolejny eksperyment dla wybranych. Funkcja dostępna jest w wersji beta dla użytkowników powyżej 18. roku życia w ośmiu językach, a Polacy na razie czekają w kolejce.
Wystarczy wpisać opis, wgrać zdjęcie i po kilku sekundach Gemini produkuje 30-sekundowy utwór z tekstem i własną okładką. Brzmi prosto, bo prostota to właśnie cel.
Co potrafi Lyria 3?
Poprzednie wersje modelu Lyria wymagały od użytkownika dostarczenia gotowych tekstów. Lyria 3 generuje słowa samodzielnie, na podstawie prompta. Wzrasta też kontrola twórcza – można określić styl, tempo, rodzaj wokalu. Efekty mają być bardziej realistyczne i muzycznie złożone niż dotychczas.
W praktyce działają dwa tryby:
- Tekst do utworu – opisujesz gatunek, nastrój, wspomnienie albo wewnętrzny żart, a model tworzy utwór z tekstem lub instrumentalny
- Zdjęcie/wideo do utworu – wgrywasz materiał, Gemini analizuje nastrój i komponuje ścieżkę pasującą do klimatu
Okładki generuje model Nano Banana. Gotowy utwór można od razu pobrać albo udostępnić linkiem.
Piotr Wolniewicz, Redaktor Naczelny AIPORT.pl:
Obserwuję ten segment rynku od kilku lat i widzę wyraźny wzorzec – każdy duży gracz chce mieć swój kawałek generatywnej kreatywności. Obrazy, wideo, teraz muzyka. Google robi to trochę inaczej niż Suno czy Udio – zamiast celować w profesjonalistów, idzie w kierunku codziennego, lekkiego użycia. 30-sekundowy track jako nowy format „selfie” – to ciekawy pomysł, choć zastanawiam się, jak szybko ludzie się tym znudzą. Pytanie nie brzmi „czy to działa”, ale „czy to zostanie”. Na razie brak polskiego wśród obsługiwanych języków wyraźnie ogranicza zasięg tej funkcji w Polsce.
Watermarking i odpowiedzialność
Każdy utwór tworzony w Gemini otrzymuje niewidzialny znak wodny SynthID – technologię Google DeepMind identyfikującą treści generowane przez AI. Co ważne, Google rozszerza możliwości weryfikacji w aplikacji Gemini na audio, obok obrazów i wideo. Wystarczy wgrać plik i zapytać, czy pochodzi z Google AI.
Model celowo nie naśladuje konkretnych artystów. Jeśli w prompcie pojawi się nazwisko muzyka, Gemini traktuje to jako inspirację stylistyczną, nie jako polecenie kopiowania. Działają też filtry sprawdzające wygenerowane treści pod kątem podobieństwa do istniejących nagrań.
Google podkreśla, że przy trenowaniu Lyria 3 dbało o kwestie praw autorskich i umowy partnerskie – co brzmi jak bezpośrednia odpowiedź na pozwy, które dotknęły konkurencyjne serwisy.
Kiedy i dla kogo?
Lyria 3 działa na desktopie od dziś, na urządzeniach mobilnych pojawi się w ciągu kilku dni. Obsługiwane języki to angielski, niemiecki, hiszpański, francuski, hindi, japoński, koreański i portugalski. Subskrybenci Google AI Plus, Pro i Ultra mają wyższe limity generowania.
Funkcja trafia też na YouTube w ramach Dream Track, gdzie twórcy Shorts mogą tworzyć niestandardowe ścieżki dźwiękowe do swoich filmów – początkowo w USA, teraz stopniowo w kolejnych krajach.
Muzyka z Gemini nie aspiruje do bycia arcydziełem. Google wprost mówi, że chodzi o ekspresję i zabawę. Nowe narzędzie czeka na gemini.google.com/music.
