„DeepL“ paleidžia „DeepL Voice“, realiuoju laiku, teksto vertimus iš balsų ir vaizdo įrašų

„DeepL“ paleidžia „DeepL Voice“, realiuoju laiku, teksto vertimus iš balsų


„DeepL“ išgarsėjo internetiniu teksto vertimu, kuris, jo teigimu, yra labiau niuansuotas ir tikslesnis nei tokių, kaip „Google“, paslaugos – tai žingsnis, dėl kurio Vokietijos startuolis įvertino 2 mlrd. USD ir daugiau nei 100 000 mokančių klientų. Dabar, kai AI paslaugų ažiotažas ir toliau auga, platforma papildo kitą režimą: garsą. Dabar vartotojai galės naudoti „DeepL Voice“, norėdami klausytis, kas kalba viena kalba, ir automatiškai išversti jį į kitą realiuoju laiku.

Anglų, vokiečių, japonų, korėjiečių, švedų, olandų, prancūzų, turkų, lenkų, portugalų, rusų, ispanų ir italų kalbos yra šnekamosios kalbos, kurias DeepL šiandien gali „girdėti“. Tuo tarpu išversti subtitrai galimi visomis 33 kalbomis, kurias šiuo metu palaiko „DeepL Translator“.

„DeepL voice“ šiuo metu nustoja pateikti rezultatą kaip garso ar vaizdo failą: paslauga skirta realiuoju laiku, tiesioginiams pokalbiams ir vaizdo konferencijoms ir pateikiama kaip tekstas, o ne garsas. Pirmajame iš jų galite nustatyti, kad vertimai būtų rodomi kaip „veidrodžiai“ išmaniajame telefone – telefoną reikia padėti ant susitikimų stalo, kad kiekviena pusė pamatytų išverstus žodžius, arba kaip transkripciją, daliniesi greta su kuo nors. Vaizdo konferencijų paslauga mato vertimus kaip subtitrus.

Tai gali būti kažkas, kas laikui bėgant pasikeis, interviu užsiminė Jarekas Kutylowskis, bendrovės įkūrėjas ir generalinis direktorius (nuotrauka aukščiau). Tai pirmasis „DeepL“ produktas balsu, bet mažai tikėtina, kad jis bus paskutinis. „(Balsas) yra vieta, kur kitais metais bus atliktas vertimas“, – pridūrė jis.

Yra ir kitų įrodymų, patvirtinančių šį teiginį. „Google“ – viena didžiausių „DeepL“ konkurentų – taip pat pradėjo įtraukti realiuoju laiku išverstus antraštes į savo „Meet“ vaizdo konferencijų paslaugą. Be to, yra daugybė AI pradedančiųjų įmonių, kuriančių balso vertimo paslaugas. Tai apima AI balso specialisto „Eleven Labs“ („Eleven Labs Dubbing“) ir kitų, tokių kaip „Panjaya“, pastangas, kuri kuria vertimus naudodama „giliai netikrus“ balsus ir vaizdo įrašą, atitinkantį garsą. Pastaroji naudoja „Eleven Labs“ API, o, pasak Kutylowskio, pati „Eleven Labs“ naudoja „DeepL“ technologijas, kad galėtų teikti vertimo paslaugą.

Garso išvestis nėra vienintelis dalykas, kuris dar turi būti paleistas.

Šiuo metu „Voice“ produktui taip pat nėra API. „DeepL“ pagrindinė veikla yra orientuota į B2B, o Kutylowskis teigė, kad bendrovė bendradarbiauja su partneriais ir klientais tiesiogiai, kad galėtų juo naudotis.

Taip pat nėra didelio integravimo pasirinkimo: vienintelė vaizdo skambučių paslauga, palaikanti DeepL subtitrus, šiuo metu yra Teams, kuri „apima daugumą mūsų klientų“, sakė Kutylowskis. Jokių žodžių apie tai, kada ir ar „Zoom“ arba „Google Meet“ bus įtrauktas „DeepL Voice“.

„DeepL“ naudotojams produktas atrodys kaip ilgai lauktas, ne tik todėl, kad buvome užplūdę daugybės kitų dirbtinio intelekto balso paslaugų, skirtų vertimui. Kutylowskis sakė, kad tai buvo svarbiausias klientų prašymas, pradedant 2017 m., „DeepL“ paleidimo metais.

Viena iš priežasčių, kodėl reikia laukti, yra ta, kad „DeepL“ ėmėsi gana apgalvoto požiūrio kurdama savo produktą. Vargu ar daugelis kitų dirbtinio intelekto programų, kurios remiasi ir koreguoja kitų įmonių didelių kalbų modelius, pasaulyje, „DeepL“ tikslas yra kurti savo paslaugą nuo pat pradžių. Liepos mėnesį bendrovė išleido naują vertimams optimizuotą LLM, kuri, jos teigimu, pranoksta GPT-4, Google ir Microsoft, ypač dėl to, kad jos pagrindinė paskirtis yra vertimas. Be to, ji toliau gerino savo rašytinės produkcijos ir žodyno kokybę.

Be to, vienas iš unikalių „DeepL Voice“ pardavimo taškų yra tai, kad jis veiks realiuoju laiku, nes tai svarbu, nes daugelis „AI vertimo“ paslaugų šiuo metu rinkoje iš tikrųjų veikia vėluojant, todėl jas sunkiau / neįmanoma naudoti tiesioginėse situacijose. , kurį „DeepL“ konkrečiai nagrinėja. Kutylowski užsiminė, kad tai buvo dar viena priežastis, kodėl šis naujas balso apdorojimo produktas daugiausia dėmesio skiria tekstiniams vertimams: juos galima apskaičiuoti ir sukurti labai greitai, o apdorojimas ir dirbtinio intelekto architektūra dar turi nuveikti, kad būtų galima sukurti garsą. ir vaizdo įrašą taip pat greitai.

Nors galite įsivaizduoti, kad vaizdo konferencijos ir susitikimai greičiausiai yra „DeepL“ balso naudojimo atvejai, Kutylowski pažymėjo, kad kitas svarbus dalykas, kurį bendrovė numato, yra paslaugų pramonė, kur, tarkime, restoranų darbuotojai galėtų naudotis šia paslauga, kad padėtų bendrauti. su klientais lengviau.

Tai gali būti naudinga, bet taip pat pabrėžia vieną iš grubesnių paslaugos aspektų. Pasaulyje, kuriame visi staiga daug geriau žinome apie duomenų apsaugą ir susirūpinimą dėl to, kaip naujos paslaugos ir platformos naudoja privačią ar nuosavybės teise priklausančią informaciją, belieka pamatyti, kaip žmonės norės, kad jų balsas būtų išgirstas ir naudojamas šiuo būdu.

Kutylowski tvirtino, kad nors balsai keliaus į jo serverius, kad būtų išversti (apdorojimas nevyksta įrenginyje), jo sistemos nieko neišsaugo ir nenaudoja LLM mokymui, ir kad galiausiai jis dirbs su savo klientais, kad įsitikinkite, kad jie nepažeidžia BDAR ar kitų duomenų apsaugos taisyklių.



Source link

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Miesto naujienos - Šeimos gydytojai - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai - Teniso treniruotės - Pranešimai spaudai -