OpenAI nustato, kad GPT-4o kartais daro tikrai keistų dalykų
OpenAI GPT-4o, generatyvus AI modelis, kuris maitina neseniai paleistą išplėstinio balso režimo alfa chatGPT, yra pirmasis bendrovės mokymas apie balso, teksto ir vaizdo duomenis. Ir dėl to ji kartais elgiasi keistai, pavyzdžiui, imituoja kalbančiojo balsą arba atsitiktinai šaukia pokalbio viduryje.
Naujoje „raudonosios komandos“ ataskaitoje, kurioje dokumentuojami modelio privalumų ir rizikos tyrimai, „OpenAI“ atskleidžia kai kuriuos keistus GPT-4o ypatumus, pvz., minėtą balso klonavimą. Retais atvejais – ypač kai žmogus kalbasi su GPT-4o „didelio foninio triukšmo aplinkoje“, pavyzdžiui, važiuojant automobiliu – GPT-4o „imuliuos vartotojo balsą“, sako „OpenAI“. Kodėl? Na, o „OpenAI“ paveda jį modeliui, kuris stengiasi suprasti netinkamai suformuotą kalbą. Pakankamai teisingas!
Klausykite, kaip tai skamba žemiau esančiame pavyzdyje (iš ataskaitos). Keista, tiesa?
Kad būtų aišku, GPT-4o dabar to nedaro – bent jau ne išplėstiniu balso režimu. „OpenAI“ atstovas spaudai pasakoja „TechCrunch“, kad bendrovė pridėjo „sistemos lygio mažinimo“ elgseną.
GPT-4o taip pat yra linkęs generuoti nerimą keliančius arba netinkamus „nežodinius vokalizavimus“ ir garso efektus, tokius kaip erotinė aimana, žiaurūs riksmai ir šūviai, kai paraginama konkrečiais būdais. OpenAI teigia, kad yra įrodymų, kad modelis apskritai atmeta užklausas sukurti garso efektus, tačiau pripažįsta, kad kai kurios užklausos tikrai patenkinamos.
GPT-4o taip pat gali pažeisti muzikos autorių teises – arba, priešingai, OpenAI neįdiegė filtrų, kad to išvengtų. Ataskaitoje OpenAI nurodė, kad ji nurodė GPT-4o nedainuoti ribotai išplėstinio balso režimo alfa versijai, tikriausiai, kad būtų išvengta atpažįstamų atlikėjų stiliaus, tono ir (arba) tembro kopijavimo.
Tai reiškia, bet visiškai nepatvirtina, kad OpenAI apmokė GPT-4o apie autorių teisių saugomą medžiagą. Kaip skelbta anksčiau, neaišku, ar „OpenAI“ ketina panaikinti apribojimus, kai rudenį „Advanced Voice Mode“ pasirodys daugiau vartotojų.
„Siekdami atsižvelgti į GPT-4o garso modalumą, atnaujinome tam tikrus teksto filtrus, kad jie veiktų su garso pokalbiais [and] sukūrė filtrus, kad aptiktų ir blokuotų išvestis, kuriose yra muzikos“, – rašo „OpenAI“ ataskaitoje. „Išmokėme GPT-4o atmesti užklausas dėl autorių teisių saugomo turinio, įskaitant garsą, atsižvelgiant į mūsų platesnę praktiką.
Verta paminėti, kad „OpenAI“ neseniai pareiškė, kad būtų „neįmanoma“ mokyti šiuolaikinių modelių nenaudojant autorių teisių saugomos medžiagos. Nors bendrovė yra sudariusi daugybę licencijavimo sandorių su duomenų teikėjais, ji taip pat teigia, kad sąžiningas naudojimas yra pagrįsta gynyba nuo kaltinimų, kad ji be leidimo naudoja IP apsaugotus duomenis, įskaitant tokius dalykus kaip dainos.
Raudonosios komandos ataskaita – ko ji verta, atsižvelgiant į OpenAI žirgus lenktynėse – daro nupieškite bendrą AI modelio vaizdą, kuris buvo saugesnis dėl įvairių švelninimo ir apsaugos priemonių. Pavyzdžiui, GPT-4o atsisako identifikuoti žmones pagal tai, kaip jie kalba, ir atsisako atsakyti į tokius klausimus, kaip „koks šis garsiakalbis protingas? Ji taip pat blokuoja raginimus naudoti smurtinę ir seksualinio pobūdžio kalbą ir visiškai neleidžia tam tikrų kategorijų turinio, pvz., diskusijų, susijusių su ekstremizmu ir savęs žalojimu.