Naujasis „DeepMind“ AI sukuria vaizdo įrašų garso takelius ir dialogus
„Google“ AI tyrimų laboratorija „DeepMind“ teigia kurianti AI technologiją vaizdo įrašų garso takeliams generuoti.
Įraše savo oficialiame tinklaraštyje „DeepMind“ teigia, kad technologiją V2A (sutrumpinimas iš „vaizdo įrašo į garsą“) laiko esmine AI sukurtos medijos galvosūkio dalimi. Nors daugelis organizacijų, įskaitant „DeepMind“, sukūrė vaizdo įrašą generuojančius AI modelius, šie modeliai negali sukurti garso efektų, kurie būtų sinchronizuojami su jų kuriamais vaizdo įrašais.
„Vaizdo įrašų kartos modeliai tobulėja neįtikėtinu tempu, tačiau daugelis dabartinių sistemų gali generuoti tik tylų išvestį“, – rašo „DeepMind“. „V2A technologija [could] tapti perspektyviu būdu sukurtiems filmams atgaivinti.
DeepMind V2A technologija apibūdina garso takelį (pvz., „medūza, pulsuojanti po vandeniu, jūrų gyvūnija, vandenynas“), suporuotas su vaizdo įrašu, kad sukurtų muziką, garso efektus ir net dialogą, atitinkantį vaizdo įrašo personažus ir toną, vandens ženklu pažymėtą DeepMind giliomis klastotėmis. -kovojant su SynthID technologija. AI modelis, maitinantis V2A – difuzijos modelį – buvo išmokytas derinti garsus ir dialogo nuorašus bei vaizdo klipus, teigia DeepMind.
„Mokydamiesi vaizdo, garso ir papildomų komentarų, mūsų technologija išmoksta susieti konkrečius garso įvykius su įvairiomis vaizdinėmis scenomis, reaguodama į informaciją, pateiktą anotacijose ar nuorašuose“, – rašo „DeepMind“.
Mama kalba apie tai, ar treniruočių duomenys buvo saugomi autorių teisių ir ar duomenų kūrėjai buvo informuoti apie „DeepMind“ darbą. Susisiekėme su „DeepMind“ norėdami paaiškinti ir atnaujinsime šį įrašą, jei sulauksime atsakymo.
AI varomi garsą generuojantys įrankiai nėra naujiena. „Startup Stability AI“ išleido tik praėjusią savaitę, o „ElevenLabs“ – gegužę. Taip pat modeliai negali sukurti vaizdo garso efektų. „Microsoft“ projektas gali sukurti kalbančius ir dainuojančius vaizdo įrašus iš nejudančio vaizdo, o tokios platformos kaip „Pika“ ir „GenreX“ apmokė modelius filmuoti ir geriausiai atspėti, kokia muzika ar efektai tinka tam tikroje scenoje.
Tačiau „DeepMind“ tvirtina, kad jos V2A technologija yra unikali tuo, kad gali suprasti neapdorotus vaizdo įrašo pikselius ir automatiškai sinchronizuoti sugeneruotus garsus su vaizdo įrašu, pasirinktinai be aprašymo.
V2A nėra tobulas – ir DeepMind tai pripažįsta. Kadangi pagrindinis modelis nebuvo išmokytas žiūrėti daug vaizdo įrašų su artefaktais ar iškraipymais, jis nesukuria ypač aukštos kokybės garso įrašų. Ir apskritai generuojamas garsas nėra toks super įtikinamas; mano kolegė Natasha Lomas tai apibūdino kaip „stereotipinių garsų dvelksmą“, ir negaliu sakyti, kad nesutinku.
Dėl šių priežasčių – ir siekiant išvengti piktnaudžiavimo – „DeepMind“ teigia, kad artimiausiu metu, jei kada nors, šios technologijos nepaskleis.
„Siekdami įsitikinti, kad mūsų V2A technologija gali turėti teigiamą poveikį kūrybinei bendruomenei, renkame įvairias perspektyvas ir įžvalgas iš pirmaujančių kūrėjų ir filmų kūrėjų ir naudojame šiuos vertingus atsiliepimus informuodami apie vykdomus tyrimus ir plėtrą“, – rašo „DeepMind“. „Prieš svarstant galimybę suteikti prieigą prie jos platesnei visuomenei, mūsų V2A technologija bus kruopščiai įvertinta ir išbandyta.
DeepMind pristato savo V2A technologiją kaip ypač naudingą įrankį archyvarams ir žmonėms, dirbantiems su istorine filmuota medžiaga. Tačiau, kaip rašiau šį rytą, generatyvus dirbtinis intelektas taip pat kelia grėsmę kino ir televizijos pramonei. Prireiks rimtai stiprios darbo apsaugos, kad generacinės žiniasklaidos priemonės nepanaikintų darbo vietų arba, jei taip yra, ištisų profesijų.