PlayAI klonuoja balsus pagal komandą

2016 m. Hammadas Syedas ir buvęs „WhatsApp“ inžinierius Mahmoudas Felfelis manė, kad būtų puiku sukurti „Chrome“ plėtinį tekstą į kalbą, skirtą „Medium“ straipsniams. Plėtinys, kuris galėjo garsiai perskaityti bet kokią vidutinę istoriją, buvo pristatytas produktų medžioklėje. Po metų tai sukūrė visą verslą.
„Matėme didesnę galimybę padėti asmenims ir organizacijoms sukurti tikrovišką garso turinį jų programoms“, – „TechCrunch“ sakė Syedas. „Jei nereikia kurti savo modelio, jie galėtų greičiau nei bet kada anksčiau panaudoti žmogaus kokybės kalbos patirtį.
Syedo ir Felfelio kompanija PlayAI (anksčiau PlayHT) pristato save kaip „AI balso sąsają“. Klientai gali pasirinkti iš daugybės iš anksto nustatytų balsų arba klonuoti balsą ir naudoti PlayAI API, kad integruotų teksto į kalbą funkciją į savo programas.
Perjungikliai leidžia vartotojams reguliuoti balso intonaciją, ritmą ir garsumą.
„PlayAI“ taip pat siūlo „žaidimų aikštelę“, kur vartotojai gali įkelti failą, kad sukurtų skaitymo versiją, ir prietaisų skydelį, kad būtų galima sukurti patobulintus garso pasakojimus ir balso perteikimus. Neseniai bendrovė įsitraukė į „AI agentų“ žaidimą su įrankiais, kurie gali būti naudojami automatizuoti užduotis, pavyzdžiui, atsakyti į klientų skambučius įmonėje.

Vienas iš įdomesnių „PlayAI“ eksperimentų yra „PlayNote“, paverčiantis PDF, vaizdo įrašus, nuotraukas, dainas ir kitus failus į podcast’o stiliaus laidas, perskaitomas santraukas, individualias diskusijas ir net vaikų istorijas. Kaip ir „Google NotebookLM“, „PlayNote“ generuoja scenarijų iš įkelto failo arba URL ir pateikia jį AI modelių rinkiniui, kurie kartu sukuria gatavą produktą.
Pasukau, o rezultatai buvo visai neblogi. „PlayNote“ „podcast“ nustatymas sukuria klipus, kurių kokybė daugmaž prilygsta „NotebookLM“, o įrankio galimybė įtraukti nuotraukas ir vaizdo įrašus sukuria įspūdingų kūrinių. Atsižvelgdama į neseniai turėtą vištienos kurmio patiekalo nuotrauką, PlayNote parašė apie tai penkių minučių trukmės podcast'o scenarijų. Tiesą sakant, mes gyvename ateitimi.
Tiesa, įrankis, kaip ir visi AI įrankiai, retkarčiais sukuria keistus artefaktus ir haliucinacijas. Ir nors „PlayNote“ padarys viską, kad failas būtų pritaikytas jūsų pasirinktam formatui, nesitikėkite, kad, tarkime, sausa teisinė byla bus geriausia šaltinio medžiaga. Žiūrėkite: Musk v. OpenAI ieškinys, sukurtas kaip pasaka prieš miegą:
„PlayNote“ tinklalaidės formatas yra įmanomas dėl naujausio „PlayAI“ modelio „PlayDialog“, kuris, pasak Syedo, gali naudoti pokalbio „kontekstą ir istoriją“, kad sukurtų kalbą, atspindinčią pokalbio eigą. „Naudodamas istorinį pokalbio kontekstą prozodijai, emocijoms ir tempui valdyti, PlayDialog pokalbis vyksta natūraliai ir tinkamu tonu“, – tęsė jis.
„PlayAI“, kuri yra artima „ElevenLabs“ konkurentė, praeityje buvo kritikuojama dėl savo laissez faire požiūrio į saugumą. Bendrovės balso klonavimo įrankis reikalauja, kad vartotojai pažymėtų langelį, nurodantį, kad jie „turi visas reikalingas teises arba sutikimą“ klonuoti balsą, tačiau nėra jokio vykdymo mechanizmo. Man nebuvo sunku sukurti Kamala Harris balso kloną iš įrašo.
Tai susiję su apgavysčių ir klastočių galimybe.

„PlayAI“ taip pat teigia, kad ji automatiškai aptinka ir blokuoja „seksualų, įžeidžiantį, rasistinį ar grėsmingą turinį“. Bet mano bandymo metu taip nebuvo. Kalbos generavimui naudojau Harriso kloną, kurio, tiesą sakant, negaliu čia įterpti, ir niekada nemačiau įspėjamojo pranešimo.
Tuo tarpu „PlayNote“ bendruomenės portale, kuriame gausu viešai sukurto turinio, yra failų su aiškiais pavadinimais, pvz., „Moteris, užsiimanti oraliniu seksu“.
Syedas man sako, kad PlayAI reaguoja į pranešimus apie balsus, klonuotus be sutikimo, kaip šis, blokuodamas atsakingą vartotoją ir nedelsdamas pašalindamas klonuotą balsą. Jis taip pat teigia, kad PlayAI aukščiausios kokybės balso klonai, kuriems reikia 20 minučių balso pavyzdžių, yra brangesni (49 USD per mėnesį arba 99 USD per mėnesį), nei dauguma sukčių yra pasirengę mokėti.
„PlayAI turi keletą etinių apsaugos priemonių“, – sakė Syedas. „Įdiegėme patikimus mechanizmus, kad nustatytų, ar, pavyzdžiui, balsas buvo susintetintas naudojant mūsų technologiją. Jei pranešama apie bet kokį netinkamą naudojimą, nedelsdami patikriname turinio kilmę ir imamės ryžtingų veiksmų, kad ištaisytume situaciją ir užkirstume kelią tolesniems etikos pažeidimams.
Tikrai tikiuosi, kad taip ir yra – ir „PlayAI“ nutols nuo rinkodaros kampanijų, kuriose dalyvauja mirusios technologijų įžymybės. Jei „PlayAI“ moderavimas nėra tvirtas, Tenesyje gali kilti teisinių iššūkių, kur galioja įstatymas dėl knygų, draudžiančių platformoms priglobti dirbtinį intelektą, kad būtų galima neteisėtai įrašyti asmens balsą.
PlayAI požiūris į balso klonavimo AI mokymą taip pat yra šiek tiek miglotas. Bendrovė neatskleis, kur ji gavo savo modelių duomenis, tariamai dėl konkurencijos priežasčių.
„PlayAI dažniausiai naudoja atvirus duomenų rinkinius (taip pat ir licencijuotus duomenis) ir patentuotus duomenų rinkinius, kurie yra sukurti viduje“, – sakė Syedas. „Mes nenaudojame naudotojų duomenų iš produktų mokymo metu arba kūrėjų modeliams mokyti. Mūsų modeliai yra mokomi milijonų valandų realios žmogaus kalbos, perteikiantys vyriškos ir moteriškos lyties balsus įvairiomis kalbomis ir akcentais.
Dauguma dirbtinio intelekto modelių yra mokomi naudojant viešuosius žiniatinklio duomenis – kai kurie iš jų gali būti saugomi autorių teisių arba pagal ribojančią licenciją. Daugelis AI pardavėjų teigia, kad sąžiningo naudojimo doktrina apsaugo juos nuo pretenzijų dėl autorių teisių. Tačiau tai nesutrukdė duomenų savininkams pateikti kolektyvinių ieškinių, teigiančių, kad pardavėjai naudojo savo duomenis be leidimo.
PlayAI nebuvo iškelta byla. Tačiau paslaugų teikimo sąlygos rodo, kad naudotojams, jei jiems iškils teisinė grėsmė, jis nenukentės.
Balso klonavimo platformas, tokias kaip PlayAI, kritikuoja aktoriai, kurie baiminasi, kad balso darbą ilgainiui pakeis dirbtinio intelekto sukurtas vokalas ir kad aktoriai mažai kontroliuos, kaip naudojami jų skaitmeniniai dubliai.
Holivudo aktorių sąjunga SAG-AFTRA sudarė sandorius su kai kuriais startuoliais, įskaitant internetinę talentų rinką Narrativ ir Replica Studios, dėl to, ką ji apibūdina kaip „sąžiningą“ ir „etišką“ balso klonavimo tvarką. Tačiau net ir šios sąsajos buvo atidžiai stebimos, įskaitant pačių SAG-AFTRA narių.
Kalifornijoje įstatymai reikalauja, kad įmonės, pasikliaujančios atlikėjo skaitmenine kopija (pvz., klonuotu balsu), apibūdintų numatomą kopijos naudojimą ir derėtųsi su atlikėjo teisininku. Jie taip pat reikalauja, kad pramogų darbdaviai gautų mirusio atlikėjo palikimo sutikimą prieš naudodami skaitmeninį to asmens kloną.
Syedas sako, kad „PlayAI“ „garantuoja“, kad kiekvienas balso klonas, sukurtas naudojant platformą, yra išskirtinis kūrėjui. „Šis išskirtinumas yra gyvybiškai svarbus siekiant apsaugoti vartotojų kūrybines teises“, – pridūrė jis.
Didėjanti teisinė našta yra „PlayAI“ priešpriešinis vėjas. Kitas yra konkursas. „Papercup“, „Deepdub“, „Acapela“, „Respeecher“ ir „Voice.ai“, taip pat dideli technologijų operatoriai „Amazon“, „Microsoft“ ir „Google“ siūlo AI dubliavimo ir balso klonavimo įrankius. Teigiama, kad minėtasis „ElevenLabs“, vienas garsiausių balso klonavimo pardavėjų, renka naujų lėšų, kurių vertė viršija 3 mlrd.
Vis dėlto „PlayAI“ nesistengia rasti investuotojų. Šį mėnesį „Y Combinator“ remiama įmonė užbaigė 20 mln. Taip pat dalyvavo „Race Capital“ ir „500 Global“.
„Naujasis kapitalas bus naudojamas investuoti į mūsų generatyvius dirbtinio intelekto balso modelius ir balso agentų platformą bei sutrumpinti laiką, per kurį įmonės gali sukurti žmogiškosios kokybės kalbos patirtį“, – sakė Syedas ir pridūrė, kad PlayAI planuoja išplėsti savo 40 žmonių darbo jėgą. .