Naujasis „Runway“ vaizdo įrašą generuojantis AI „Gen-3“ siūlo patobulintus valdiklius

Lenktynės dėl aukštos kokybės, dirbtinio intelekto sukurtų vaizdo įrašų įkaista.
Pirmadienį bendrovė „Runway“, kurianti generatyvius AI įrankius, skirtus filmų ir vaizdo turinio kūrėjams, pristatė „Gen-3 Alpha“. Naujausias bendrovės AI modelis generuoja vaizdo klipus iš tekstinių aprašymų ir nejudančių vaizdų. „Runway“ teigia, kad modelis užtikrina „didelį“ generavimo greičio ir tikslumo patobulinimą, palyginti su ankstesniu „Runway“ pavyzdiniu vaizdo modeliu „Gen-2“, taip pat puikiai valdo sukuriamų vaizdo įrašų struktūrą, stilių ir judėjimą.
„Gen-3“ bus pasiekiamas artimiausiomis dienomis „Runway“ abonentams, įskaitant verslo klientus ir „Runway“ kūrybinių partnerių programos kūrėjus.
„Gen-3 Alpha“ puikiai sugeba sukurti išraiškingus žmogaus charakterius su įvairiais veiksmais, gestais ir emocijomis“, – rašė Runway savo tinklaraštyje. „Jis buvo sukurtas interpretuoti įvairius stilius ir kino terminologiją [and enable] vaizduotės perėjimai ir tikslus scenos elementų kadravimas.
„Gen-3 Alpha“ turi savo apribojimų, įskaitant tai, kad jo filmuota medžiaga trunka iki 10 sekundžių. Tačiau „Runway“ įkūrėjas Anastasis Germanidis žada, kad „Gen-3“ yra tik pirmasis ir mažiausias iš kelių vaizdo įrašus generuojančių modelių, patenkančių į naujos kartos modelių šeimą, parengtą pagal atnaujintą infrastruktūrą.
„Modelis gali kovoti su sudėtinga charakterio ir objekto sąveika, o kartos ne visada tiksliai laikosi fizikos įstatymų“, – šį rytą interviu „TechCrunch“ sakė Germanidis. „Šis pradinis diegimas palaikys 5 ir 10 sekundžių didelės raiškos kartos, kurių generavimo laikas bus pastebimai greitesnis nei 2 kartos. 5 sekundžių klipas sugeneruojamas per 45 sekundes, o 10 sekundžių klipas sugeneruojamas per 90 sekundžių.
„Gen-3 Alpha“, kaip ir visi vaizdo įrašus generuojantys modeliai, buvo apmokyta pagal daugybę vaizdo įrašų ir vaizdų pavyzdžių, todėl galėjo „išmokti“ šiuose pavyzdžiuose pateiktus modelius, kad sukurtų naujus klipus. Iš kur gauti treniruočių duomenys? Kilimo ir tūpimo takas nepasakytų. Šiomis dienomis tik nedaugelis kūrybingų dirbtinio intelekto pardavėjų savanoriškai teikia tokią informaciją, iš dalies todėl, kad mokymo duomenis laiko konkurenciniu pranašumu, todėl juos ir su jais susijusią informaciją laiko prie krūtinės.
„Turime vidinę tyrimų grupę, kuri prižiūri visus mūsų mokymus, o modeliams mokyti naudojame kuruojamus vidinius duomenų rinkinius“, – sakė Germanidis. Jis tai paliko.

Mokymų duomenų detalės taip pat yra galimas su IP susijusių ieškinių šaltinis, jei pardavėjas mokosi apie viešuosius duomenis, įskaitant autorių teisių saugomus duomenis iš žiniatinklio, o tai dar viena kliūtis atskleisti daug. Kelios teismuose vykstančios bylos atmeta pardavėjų sąžiningo naudojimo mokymo duomenų apsaugą, teigdami, kad generatyvūs AI įrankiai atkartoja menininkų stilius be menininkų leidimo ir leidžia vartotojams kurti naujus kūrinius, panašius į menininkų originalus, už kuriuos menininkai negauna jokio atlyginimo.
Runway šiek tiek atkreipė dėmesį į autorių teisių problemą, sakydamas, kad kuriant modelį konsultavosi su menininkais. (Kokie menininkai? Neaišku.) Tai atspindi tai, ką Germanidis man pasakė per „TechCrunch's Disrupt“ konferencijos 2023 m. gaisrą:
„Mes glaudžiai bendradarbiaujame su menininkais, kad išsiaiškintume, kokie yra geriausi būdai tai išspręsti“, – sakė jis. „Tiriame įvairias duomenų partnerystes, kad galėtume toliau augti… ir kurti naujos kartos modelius.
„Runway“ taip pat teigia, kad planuoja išleisti „Gen-3“ su naujomis apsaugos priemonėmis, įskaitant moderavimo sistemą, kuri blokuoja bandymus generuoti vaizdo įrašus iš autorių teisių saugomų vaizdų ir turinio, kuris neatitinka „Runway“ paslaugų teikimo sąlygų. Taip pat kuriama kilmės sistema, suderinama su C2PA standartu, kurį palaiko „Microsoft“, „Adobe“, „OpenAI“ ir kiti, siekiant nustatyti, kad vaizdo įrašai atkeliavo iš „Gen-3“.
„Mūsų nauja ir patobulinta vidinė vaizdo ir teksto moderavimo sistema naudoja automatinę priežiūrą, kad būtų išfiltruotas netinkamas ar žalingas turinys“, – sakė Germanidis. „C2PA autentifikavimas patikrina laikmenos, sukurtos naudojant visus Gen-3 modelius, kilmę ir autentiškumą. Didėjant modelių galimybėms ir galimybei generuoti aukštos kokybės turinį, mes ir toliau daug investuosime į savo derinimo ir saugos pastangas.

„Runway“ taip pat atskleidė, kad bendradarbiauja ir bendradarbiauja su „pirmaujančiomis pramogų ir žiniasklaidos organizacijomis“, kad sukurtų pasirinktines „Gen-3“ versijas, kurios leistų labiau „stilistiškai valdomus“ ir nuoseklesnius personažus, taikydami „konkrečius meninius ir pasakojimo reikalavimus“. Bendrovė priduria: „Tai reiškia, kad sukurti personažai, fonas ir elementai gali išlaikyti nuoseklią išvaizdą ir elgesį įvairiose scenose.
Pagrindinė neišspręsta vaizdo įrašą generuojančių modelių problema yra kontrolė – tai yra, kad modelis generuotų nuoseklų vaizdo įrašą, suderintą su kūrėjo meniniais ketinimais. Kaip neseniai rašė mano kolega Devinas Coldewey, tradicinių filmų kūrimo paprastiems dalykams, pavyzdžiui, veikėjo drabužių spalvos parinkimui, reikia išeities naudojant generatyvius modelius, nes kiekvienas kadras kuriamas nepriklausomai nuo kitų. Kartais net sprendimai nepadeda – redaktoriams tenka daug rankinio darbo.
„Runway“ surinko daugiau nei 236,5 mln. USD iš investuotojų, įskaitant „Google“ (su kuria ji turi debesų skaičiavimo kreditus) ir „Nvidia“, taip pat rizikos kapitalo įmones, tokias kaip „Amplify Partners“, „Felicis“ ir „Coatue“. Didėjant investicijoms į generuojamąsias AI technologijas, bendrovė glaudžiai susiliejo su kūrybine industrija. „Runway“ valdo „Runway Studios“ – pramogų padalinį, kuris yra verslo klientų gamybos partneris, ir organizuoja AI filmų festivalį – vieną iš pirmųjų renginių, skirtų visiškai arba iš dalies dirbtinio intelekto sukurtų filmų demonstravimui.
Tačiau konkurencija darosi vis aštresnė.

„Generative AI“ startuolis „Luma“ praėjusią savaitę paskelbė apie „Dream Machine“ – vaizdo įrašų generatorių, kuris išpopuliarėjo dėl gebėjimo animuoti memus. Ir tik prieš porą mėnesių „Adobe“ atskleidė, kad kuria savo vaizdo įrašų generavimo modelį, parengtą pagal „Adobe Stock“ medijos bibliotekos turinį.
Kitur yra įsitvirtinusių operatorių, tokių kaip „OpenAI“ „Sora“, kuri tebėra griežtai uždaryta, bet kurią „OpenAI“ skatina rinkodaros agentūros ir nepriklausomi bei Holivudo filmų režisieriai. („OpenAI CTO Mira Murati“ dalyvavo 2024 m. Kanų kino festivalyje.) Šių metų „Tribeca“ festivalyje, kuris taip pat bendradarbiauja su „Runway“, kurdamas filmus, sukurtus naudojant dirbtinio intelekto įrankius, buvo rodomi trumpametražiai filmai, sukurti kartu su Sora režisierių, kuriems buvo suteikta išankstinė prieiga.
„Google“ taip pat atidavė savo įvaizdį generuojantį modelį „Veo“ į atrinktų kūrėjų, įskaitant Donaldą Gloverį (dar žinomą kaip Childish Gambino) ir jo kūrybinės agentūros „Gilga“, rankas, nes ji stengiasi įtraukti Veo į tokius produktus kaip „YouTube Shorts“.
Kad ir koks bendradarbiavimas susvyruotų, aiškėja vienas dalykas: generatyvūs AI vaizdo įrankiai grasina apversti kino ir televizijos pramonę, kaip mes ją žinome.

Kino kūrėjas Tyleris Perry neseniai pasakė, kad sustabdė planuotą 800 milijonų dolerių vertės savo gamybos studijos plėtrą, pamatęs, ką Sora gali padaryti. Joe Russo, „Marvel“ filmų, tokių kaip „Keršytojai: Endgame“, režisierius prognozuoja, kad per metus dirbtinis intelektas galės sukurti visavertį filmą.
2024 m. atliktas tyrimas, kurį užsakė Holivudo animatorių ir karikatūristų sąjunga Animation Guild, parodė, kad 75 % filmų gamybos įmonių, kurios pritaikė dirbtinį intelektą, sumažino, konsolidavo arba panaikino darbo vietas po to, kai įdiegė šią technologiją. Tyrimas taip pat apskaičiavo, kad iki 2026 m. daugiau nei 100 000 JAV pramogų darbų bus sutrikdyta dėl generatyvaus AI.
Prireiks rimtai stiprios darbo apsaugos, kad vaizdo įrašų kūrimo įrankiai nesektų kitų generuojamųjų AI technologijų pėdomis ir smarkiai sumažėtų kūrybinio darbo paklausa.