Spawning nori sukurti etiškesnius AI mokymo duomenų rinkinius
Jordanas Meyeris ir Mathew Dryhurstas įkūrė „Spawning AI“, siekdami sukurti įrankius, padedančius menininkams labiau kontroliuoti, kaip jų darbai naudojami internete. Jų naujausias projektas, pavadintas „Source.Plus“, skirtas „nepažeidžiančioms“ žiniasklaidos priemonėms dirbtinio intelekto modelių mokymui.
Pirmoji projekto Source.Plus iniciatyva yra duomenų rinkinys, kuriame yra beveik 40 milijonų viešųjų vaizdų ir vaizdų pagal Creative Commons CC0 licenciją, leidžiantį kūrėjams atsisakyti beveik visų teisinių interesų savo darbais. Meyer tvirtina, kad nepaisant to, kad jis yra daug mažesnis nei kai kurie kiti generatyvūs AI mokymo duomenų rinkiniai, „Source.Plus“ duomenų rinkinys jau yra pakankamai „aukštos kokybės“, kad būtų galima parengti naujausią vaizdą generuojantį modelį. .
„Su „Source.Plus“ kuriame universalią „pasirinkimo“ platformą“, – sakė Meyeris. „Mūsų tikslas – kad teisių turėtojai galėtų lengvai pasiūlyti savo žiniasklaidą naudoti generuojančiame AI mokyme – jų pačių sąlygomis – ir kad kūrėjai galėtų lengvai įtraukti šią laikmeną į savo mokymo darbo eigą.
Teisių valdymas
Diskusijos apie generuojamųjų AI modelių, ypač meną kuriančių modelių, tokių kaip „Stable Diffusion“ ir „OpenAI“ DALL-E 3, lavinimo etiką, tęsiasi nenutrūkstamai – ir turi didžiulį poveikį menininkams, tačiau dulkės nusėda.
Generatyvieji dirbtinio intelekto modeliai „išmoksta“ gaminti savo rezultatus (pvz., fotorealistinį meną) treniruodamiesi su didžiuliu kiekiu svarbių duomenų – tokiu atveju – vaizdų. Kai kurie šių modelių kūrėjai teigia, kad sąžiningas naudojimas suteikia jiems teisę gauti duomenis iš viešųjų šaltinių, neatsižvelgiant į tų duomenų autorių teisių statusą. Kiti bandė peržengti liniją, kompensuodami arba bent jau kredituodami turinio savininkus už jų indėlį į mokymo rinkinius.
Meyeris, Spawning generalinis direktorius, mano, kad dar niekas nepasirinko geriausio požiūrio.
„Mokant dirbtinį intelektą dažnai naudojamasi lengviausiais turimais duomenimis, kurie ne visada buvo patys teisingiausi ar atsakingiausi“, – interviu „TechCrunch“ sakė jis. „Menininkai ir teisių turėtojai mažai kontroliavo, kaip jų duomenys naudojami AI mokymui, o kūrėjai neturėjo aukštos kokybės alternatyvų, kurios palengvintų duomenų teisių laikymąsi.
Source.Plus, pasiekiama ribota beta versija, remiasi esamais Spawning meno kilmės ir naudojimo teisių valdymo įrankiais.
2022 m. „Spawning“ sukūrė „HaveIBeenTrained“ – svetainę, kuri leidžia kūrėjams atsisakyti mokymo duomenų rinkinių, kuriuos naudoja pardavėjai, bendradarbiaujantys su „Spawning“, įskaitant „Hugging Face“ ir „Stability AI“. Pritraukusi 3 mln. USD rizikos kapitalo iš investuotojų, įskaitant „True Ventures“ ir „Seed Club Ventures“, „Spawning“ išleido ai.text – būdą svetainėms „nustatyti leidimus“ dirbtiniam intelektui, ir sistemą – „Kudurru“, skirtą apsisaugoti nuo duomenis naikinančių robotų. .
„Source.Plus“ yra pirmasis „Spawning“ bandymas sukurti medijos biblioteką ir ją kuruoti savo viduje. Pradinis vaizdo duomenų rinkinys, PD/CC0, gali būti naudojamas komercinėms ar mokslinių tyrimų programoms, sako Meyer.
„Source.Plus yra ne tik treniruočių duomenų saugykla; tai sodrinimo platforma su įrankiais, skirtais mokymo vamzdynui palaikyti“, – tęsė jis. „Mūsų tikslas – per metus turėti aukštos kokybės nepažeidžiantį CC0 duomenų rinkinį, galintį palaikyti galingą bazinį AI modelį.
Organizacijos, įskaitant „Getty Images“, „Adobe“, „Shutterstock“ ir AI startuolį „Bria“, teigia, kad modelių mokymui naudoja tik sąžiningai gautus duomenis. („Getty“ taip toli, kad savo generuojamus AI produktus vadina „komerciškai saugiais“.) Tačiau Meyeris teigia, kad „Spawning“ siekia nustatyti „aukštesnę kartelę“, ką reiškia sąžiningai gauti duomenis.
„Source.Plus“ filtruoja vaizdus „atsisakymams“ ir kitoms menininkų mokymo nuostatoms, rodydamas kilmės informaciją apie tai, kaip ir iš kur buvo gauti vaizdai. Taip pat neįtraukiami vaizdai, kurie nėra licencijuoti pagal CC0, įskaitant tuos, kurie turi Creative Commons BY 1.0 licenciją, kuriems reikia priskirti. Spawning teigia, kad stebi autorių teisių iššūkius iš šaltinių, kuriuose už kūrinio autorių teisių statuso nurodymą atsako kas nors kitas, o ne kūrėjai, pvz., „Wikimedia Commons“.
„Mes kruopščiai patvirtinome praneštas surinktų vaizdų licencijas, o bet kokios abejotinos licencijos buvo pašalintos – tai žingsnis, kurio daugelis „sąžiningų“ duomenų rinkinių nedaro“, – sakė Meyeris.
Istoriškai probleminiai vaizdai, įskaitant smurtinius ir pornografinius, jautrius asmeninius vaizdus, kenkė atviriems ir komerciniams mokymo duomenų rinkiniams.
LAION duomenų rinkinio prižiūrėtojai buvo priversti išjungti vieną biblioteką po to, kai pranešimai atskleidė medicininius įrašus ir seksualinės prievartos prieš vaikus vaizdų; kaip tik šią savaitę Human Rights Watch tyrimas parodė, kad vienoje iš LAION saugyklų buvo Brazilijos vaikų veidai be tų vaikų sutikimo ar žinios. Kitur buvo nustatyta, kad „Adobe“ atsarginėje medijos bibliotekoje „Adobe Stock“, kurią bendrovė naudoja generuojantiems dirbtinio intelekto modeliams, įskaitant meną kuriantį „Firefly Image“ modelį, yra AI sukurtų vaizdų iš konkurentų, tokių kaip „Midjourney“.
„Spawning“ sprendimas – tai klasifikatorių modeliai, išmokyti aptikti nuogybes, kruvinas akis, asmenį identifikuojančią informaciją ir kitas nepageidaujamas vaizdų dalis. Suprasdama, kad joks klasifikatorius nėra tobulas, Spawning planuoja leisti vartotojams „lanksčiai“ filtruoti Source.Plus duomenų rinkinį koreguojant klasifikatorių aptikimo slenksčius, sako Meyeris.
„Mes samdome moderatorius, kad patikrintų duomenų nuosavybės teisę“, – pridūrė Meyer. „Mes taip pat turime integruotas taisymo funkcijas, kuriose vartotojai gali pažymėti pažeidžiančius ar galimus teises pažeidžiančius darbus, ir galima patikrinti, kaip tie duomenys buvo naudojami.
Kompensacija
Dauguma programų, skirtų kompensuoti kūrėjams už generuojamą AI mokymo duomenų indėlį, nebuvo itin sėkmingi. Kai kurios programos, apskaičiuodamos kūrėjų išmokas, remiasi nepermatoma metrika, o kitos moka sumas, kurios, menininkų nuomone, yra nepagrįstai mažos.
Paimkite, pavyzdžiui, „Shutterstock“. Akcijų medijos biblioteka, sudariusi dešimtis milijonų dolerių sandorius su dirbtinio intelekto pardavėjais, moka į „pagalbininkų fondą“ už meno kūrinius, kuriuos naudoja savo generuojamųjų AI modelių ar licencijų mokymui trečiųjų šalių kūrėjams. Tačiau „Shutterstock“ nėra skaidrus, ką menininkai gali tikėtis uždirbti, taip pat neleidžia menininkams nustatyti savo kainodaros ir sąlygų; viena trečioji šalis apskaičiavo, kad uždarbis už 2000 vaizdų yra 15 USD, o tai nėra visiškai žemę drebinanti suma.
Kai vėliau šiais metais „Source.Plus“ išeis iš beta versijos ir pradės naudoti daugiau nei PD/CC0 duomenų rinkinius, ji imsis kitokios krypties nei kitos platformos, todėl atlikėjai ir teisių turėtojai galės nustatyti savo atsisiuntimo kainas. Nerštas apims mokestį, bet tik fiksuotą mokestį – „dešimtąją cento“, – sako Meyeris.
Klientai taip pat gali pasirinkti mokėti Spawning 10 USD per mėnesį ir įprastą mokestį už paveikslėlio atsisiuntimą už „Source.Plus Curation“ prenumeratos planą, leidžiantį privačiai tvarkyti vaizdų kolekcijas, atsisiųsti duomenų rinkinį iki 10 000 kartų per mėnesį ir gauti naudos. anksti gauti prieigą prie naujų funkcijų, pvz., „Premium“ kolekcijų ir duomenų praturtinimo.
„Mes pateiksime gaires ir rekomendacijas, pagrįstus dabartiniais pramonės standartais ir vidine metrika, tačiau galiausiai duomenų rinkinio autoriai nustato, kas jiems naudinga“, – sakė Meyeris. „Tokį kainodaros modelį pasirinkome sąmoningai, kad menininkams būtų suteikta liūto dalis pajamų ir leistų jiems patiems nustatyti dalyvavimo sąlygas. Manome, kad šis pajamų padalijimas yra daug palankesnis menininkams nei įprastas procentinis pajamų padalijimas, todėl bus išmokamos didesnės išmokos ir bus skaidresnis.
Jei „Source.Plus“ įgaus trauką, kurios tikisi „Spawning“, „Spawning“ ketina išplėsti ją ne tik vaizdais, bet ir kitų tipų laikmenose, įskaitant garso ir vaizdo įrašus. Spawning diskutuoja su neįvardytomis įmonėmis, kad jų duomenys būtų prieinami Source.Plus. Be to, Meyer sako, kad „Spawning“ gali sukurti savo generuojančius AI modelius, naudodamas duomenis iš „Source.Plus“ duomenų rinkinių.
„Tikimės, kad teisių turėtojai, norintys dalyvauti generacinėje AI ekonomikoje, turės galimybę tai padaryti ir gauti teisingą kompensaciją“, – sakė Meyeris. „Mes taip pat tikimės, kad menininkai ir kūrėjai, kurie jautėsi nesutarę dėl sąveikos su AI, turės galimybę tai padaryti taip, kad būtų gerbiami kiti kūrėjai.
Žinoma, nerštas čia turi išsiskirti nišą. Source.Plus atrodo vienas iš perspektyviausių bandymų įtraukti menininkus į generatyvų AI kūrimo procesą ir leisti jiems dalytis pelnu iš savo darbo.
Kaip neseniai rašė mano kolegė Amanda Silberling, tokių programų kaip meno prieglobos bendruomenė „Cara“, kurios naudojimas išaugo po to, kai „Meta“ paskelbė, kad gali lavinti savo generatyvųjį dirbtinį intelektą naudojant „Instagram“ turinį, įskaitant menininkų turinį, rodo, kad kūrybinė bendruomenė pasiekė. lūžio taškas. Jie desperatiškai ieško alternatyvų įmonėms ir platformoms, kurias suvokia kaip vagis – o „Source.Plus“ gali būti tiesiog perspektyvus.
Tačiau jei „Spawning“ visada veikia geriausiais menininkų interesais (svarbu, jei „Spawning“ yra VC remiamas verslas), įdomu, ar „Source.Plus“ gali išsiplėsti taip sėkmingai, kaip tikisi Meyeris. Jei socialinė žiniasklaida mus ko nors išmokė, tai, kad moderavimas – ypač milijonų vartotojų sukurto turinio dalių – yra neišsprendžiama problema.
Greitai sužinosime.