Recenze

Olivia Rodrigo, The Weeknd a Selena Gomez: Nejlepší hudební videa natočená na chytré telefony – The City

Představte si, že sledujete hudební video, kde každou scénu, každou postavu a každý pohyb kamery vytvořila umělá inteligence. Zní to jako sci-fi? Budoucnost je už tady. Seznamte se s The Hardest Part, vůbec prvním hudebním videoklipem vygenerovaným výhradně neuronovou sítí Sora od OpenAI.

Tento průlomový projekt je výsledkem spolupráce indie hudebníka Washed Out (vlastním jménem Ernest Green) a režiséra Paula Trilla. Videoklip k písni „The Hardest Part“ ukazuje působivé schopnosti generativních modelů vytvářet realistické a pohlcující vizuální prvky. Ale jak přesně tato technologie funguje a jaký dopad bude mít na zábavní průmysl? Pojďme to zjistit.

Pod kapotou Sory: Jak neuronová síť vytváří videa

Poznámka: Následující popis vychází z myšlenek Ethana He, výzkumníka umělé inteligence ve společnosti NVIDIA, bývalého člena FAIR a absolventa CMU s více než 6000 5000 citacemi a XNUMX XNUMX hvězdičkami na GitHubu. Původní článek je k dispozici na adrese LinkedIn PulseSamotné technologie jsou obchodním tajemstvím OpenAI a dosud nebyly zveřejněny.

Sora má být založena na DiT (Diffusion Transformer) – architektuře, která využívá škálovací schopnosti transformátorů spolu s iterativním procesem zdokonalování difuzních modelů, již jsem mluvil o AnimateDiff, který umožňuje generovat video na modelech Stable Diffusion, zde je tento princip výrazně vylepšen.

Transformátory jsou známé svou efektivitou při zpracování sekvenčních dat a poskytují robustní architekturu pro modelování časové dynamiky videa. Proces difúze zase iterativně zpřesňuje výstupní data, počínaje zašumeným počátečním stavem a směřující k požadovanému video výstupu, čímž se zlepšuje kvalita a konzistence generovaných videí.

Pro kompresi videa používá Sora vektorově kvantizovaný variační autoenkodér (VQ-VAE) založený na 3D konvoluční neuronové síti (XNUMXD CNN). Tato síťová architektura se skládá z kodéru, který redukuje dimenzionalitu vizuálních dat na latentní prostor, a dekodéru, který z této komprimované reprezentace rekonstruuje video.

Použití 3D CNN umožňuje zachycení časové dynamiky videa, což je důležité pro vytváření konzistentního a plynulého pohybu v generovaných klipech. Symetrický design kodéru a dekodéru umožňuje efektivní kompresi a rekonstrukci videa při zachování vysoké věrnosti původního obsahu.

Během trénování je k video tokenům přidáván náhodný šum. Transformátor jako vstup obdrží textovou podmínku, časový krok difúze a zašumené video tokeny.

Sora nabízí širokou škálu aplikací, včetně animace statických obrázků a vytváření dokonale smyčkových videí. Animace statického obrázku se dosahuje zakódováním obrázku jako prvního tokenu a použitím šumu pro zbývající tokeny. Pro vytvoření plynule smyčkových videí Sora zajišťuje, aby první a poslední token byly v každém kroku difúze identické, což zlepšuje estetickou přitažlivost generovaného obsahu.

Jedním z nejpozoruhodnějších aspektů Sora je jeho schopnost demonstrovat emergentní vlastnosti, jako je 3D koherence a perzistence objektů, bez explicitního programování. Tradičně vyžadovalo dosažení 3D koherence v generovaných videích speciální ztrátové funkce. Sora však ukazuje, že tyto vlastnosti se mohou objevit přirozeně při škálování, což umožňuje generování videí, která přesně napodobují dynamiku a interakce reálného světa.

Přečtěte si více
Odstranění pařezu: Ceny | Cena | Sazby - Jekatěrinburg a Sverdlovská oblast

Sora tak představuje významný skok v generování videa s využitím umělé inteligence, protože kombinuje několik špičkových technologií k vytváření vysoce kvalitních videí z textových popisů.

Natáčení videa k písni „The Hardest Part“: Výzvy a ponaučení

Navzdory působivým výsledkům nebyl proces tvorby videa k filmu Nejtěžší část se Sorou zdaleka jednoduchý. Režisér Paul Trillo musel vygenerovat více 700 fragmenty videa, ze kterých si můžete vybrat 55 nejlepší pro finální klip. Každý fragment vyžadoval podrobný textový popis, který zohledňoval nejen vizuální prvky, ale také pohyby kamery, úhly a jednání postav.

„Proletíme bublinou, ta praskne, proletíme žvýkačkou a dostaneme se na otevřené fotbalové hřiště,“ popsal Trillo jednu ze scén ve videu.

Paul Trillo sice měl přístup k Sorovi, ale také natočil promo pro TED Talks se svými oblíbenými záběry kamery. Podle mého názoru to dopadlo zajímavěji než ve videu.

Tato zkušenost ukazuje, že i s pokročilými algoritmy umělé inteligence vyžaduje tvorba kvalitního video obsahu značné úsilí a kreativitu. Sora sice otevírá nové možnosti, ale nenahrazuje lidský talent, ale spíše ho doplňuje.

Překážky hromadného přijetí

Navzdory obrovskému potenciálu Sory a podobných technologií se jejich široké využití v zábavním průmyslu stále potýká s řadou překážek. Hlavní z nich jsou vysoké náklady na generování videa.

Sora vyžaduje obrovské množství výpočetního výkonu a paměti k vytvoření koherentních a realistických videosekvencí. Odborníci odhadují, že generování i krátkého klipu může stát stovky nebo tisíce dolarů. Pro srovnání, jiné multimodální modely, jako jsou LLaVA a CogVLM, které pracují pouze s obrázky a textem, již vyžadují značné náklady na GPU a energii.

Další překážkou je otázka autorských práv a duševního vlastnictví. Modely jako Sora jsou trénovány na obrovském množství video dat vlastněných různými držiteli autorských práv, včetně těch s otevřeným zdrojovým kódem. Používání obsahu generovaného umělou inteligencí v komerčních projektech může vést k právním sporům a střetu zájmů.

OpenAI a Hollywood: Implementační strategie

Společnost OpenAI, vývojář platformy Sora, aktivně propaguje svou technologii ve filmovém průmyslu. V březnu 2024 uspořádal generální ředitel společnosti Sam Altman a další zástupci sérii setkání s hollywoodskými studii, režiséry a producenty. Cílem těchto setkání je najít partnery pro další rozvoj a implementaci platformy Sora ve filmové produkci.

Pro velká filmová studia by používání generativních modelů mohlo znamenat významné úspory nákladů na produkci vizuálních efektů a rychlejší tvorbu filmů. OpenAI doufá, že její partnerství s Hollywoodem nejen pomůže vylepšit Soru, ale také předvede její schopnosti širšímu publiku.

Ne všichni ve filmovém průmyslu však sdílejí nadšení pro umělou inteligenci. Mnoho herců, režisérů a dalších kreativních profesionálů se obává, že generativní modely by je mohly připravit o práci a snížit hodnotu lidského talentu. OpenAI proto musí najít rovnováhu mezi technologickým pokrokem a zájmy profesní komunity.

Sora a budoucnost zábavy

První hudební video vytvořené pomocí Sora je jen začátkem dlouhé cesty. S tím, jak generativní modely dozrávají a jejich používání se stává levnějším, uvidíme více příkladů využití umělé inteligence ve filmu, hudbě, videohrách a dalších zábavních odvětvích.

Přečtěte si více
Jak upravit mikroventilaci plastového okna?

Je však důležité si uvědomit, že technologie jako Sora jsou nástroje, nikoli náhrada lidské kreativity. Otevírají nové obzory a umožňují realizaci těch nejodvážnějších nápadů, ale za každým úspěšným projektem stále stojí talentovaní lidé – režiséři, scenáristé, umělci a mnoho dalších.

První krátký film natočený v Sora se jmenuje Vzduchová hlava od Shy Kids

Budoucnost zábavy je symbiózou kreativity a technologie, kde umělá inteligence doplňuje a vylepšuje lidské schopnosti. A videoklip k písni „The Hardest Part“ je jen prvním krokem k této budoucnosti.

Co si myslíte o potenciálu generativních modelů, jako je Sora? Jaký dopad budou mít na zábavní průmysl a kreativní profese? Podělte se o své myšlenky v komentářích!

O neuronových sítích mluvím více na svém YouTube, Telegramu a Boosti. Budu rád za vaše odběry a podporu. Objímám všechny.

The Weeknd ukázal zákulisí nového videa, které bylo kompletně natočeno na iPhone 16. Ať už se tento krok zdá jakkoli inovativní, už to není žádná novinka. Hudebníci experimentují s natáčením mobilními telefony od začátku roku 2010. Shromáždili jsme ta nejlepší videa natočená na telefonu.

The Weeknd – Dancing in the Flames

Nové video kanadské zpěvačky se stalo součástí reklamní kampaně na iPhone 16. Režisér videa Erik Henriksson ukázal zákulisí natáčení, během kterého využil různé režimy vestavěné kamery ve verzi Pro. K dispozici je zpomalené záběry ve 4K, vestavěná korekce barev a širokoúhlé snímání. Ve videu The Weeknd opět touží po svých bývalých v neonovém světle a v dešti.

Olivia Rodrigo – Získejte ho zpátky!

Apple obecně rád propaguje své nové produkty klipy. V roce 2023 Olivia Rodrigo předvedla všechny možnosti iPhonu 15 Pro v klipu, který byl zveřejněn během prezentace telefonu. Operátoři využili pětinásobný zoom, natáčení v rozlišení 4K a rychlý přenos souborů přes USB-C. Samozřejmě nechyběl ani klip ze zákulisí, který ukazoval Olivii, jak řídí rozbité auto a na cestách zpívá o těžkém rozchodu.

Selena Gomez – Podívej se na ni teď a ztrať tě, abys mě miloval/a

Selena Gomez se neomezila pouze na jedno video pro telefon a v roce 2019 vydala hned dvě. První obsahuje tanec a neon a druhé černobílý filtr a text písně o lásce. Místo kamer operátoři použili nový iPhone 11 Pro. Režisérkou videoklipů Lose You to Love Me a Look At Her Now byla legendární Sophie Muller, která dříve spolupracovala s Lanou Del Rey, Gwen Stefani a Björk.

John Legend, BloodPop — Dobrou noc

Pro toto video nepoužili jeden mobilní telefon, ale 23. A všechny stejného modelu – Google Pixel 2. Režisérem videa byl fotograf Mishka Kornai. Na rok 2018 vypadá video skvěle, vzhledem k množství neonů a scén s komparzisty. Pravda, pohyby hrdinů videa jsou někdy rozmazané, zejména ve zpomalených záběrech.

Ellie Goulding – Jak dlouho tě budu milovat

V roce 2013 zveřejnila popová hvězda Ellie Goulding video natočené vertikálně na Nokii Lumia 1020. Autorem videa byl Brit Roger Michell, režisér filmu „Notting Hill“. Video vypráví příběh zamilovaného páru, jejich společného života a výletů. Jasné záběry jsou kombinovány s černobílým záznamem zpěváka ze studia. A ve scéně, kde postavy řídí auto, je vidět, jak špatná byla v minulosti stabilizace v mobilních kamerách.

  • Nová skladba od Artema Šilovce a rock z alba „Třináct karátů“: hlavní hudební novinky týdne
  • Vydání alba „Zveri“ a Eldžejeva spolupráce s FEDUK: hlavní hudební novinky týdne
  • 10 hlavních koncertů podzimu
Přečtěte si více
Jak stříkat okurky během období plodů?

Více o nových filmech, hudbě a premiérách – u nás na VKontakte

21 2024 сентября

Přečtěte si také

  • Vstupenky na srpen: 11 hlavních koncertů měsíce v Moskvě
  • „Léto v Moskvě“: 3 nejlepší bezplatná místa projektu
  • „Muž, který snědl netopýra“: Vzpomínka na velkého Ozzyho Osbournea
  • Hudební festivaly v Moskvě, které musíte navštívit do konce července

Všechna práva k materiálům umístěným na webu m24.ru jsou chráněna v souladu s právními předpisy Ruské federace, včetně autorských práv a souvisejících práv. Pro jakékoli použití materiálů webu je vyžadován odkaz na m24.ru. Redakce nezodpovídá za informace a názory vyjádřené v komentářích čtenářů a zpravodajských materiálech sestavených na základě sdělení čtenářů.

Publikace sítě masmédií „City Information Channel m24.ru“ je registrována u Federální služby pro dohled nad komunikacemi, informačními technologiemi a hromadnými komunikacemi. Osvědčení o registraci hromadných sdělovacích prostředků El č. ФС77-53981 ze dne 30. dubna 2013

Edice sítě masmédií „City Information Channel m24.ru“ byla vytvořena s finanční podporou Ministerstva masmédií a reklamy Moskvy. (C) JSC Moscow Media.

Webové stránky Thecity.m24.ru mohou obsahovat materiály z internetových zdrojů Facebooku a Instagramu vlastněných společností Meta Platforms Inc., která je v Ruské federaci zakázána.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Back to top button