ChatGPTs stemmetilstand er i stand til at simulere din stemme uden at spørge

OpenAI udgav for nylig systemkortet til deres GPT-4o-model, kort efter at den avancerede stemmetilstand til ChatGPT-4o begyndte at rulle i alfa til et lille antal ChatGPT Plus-brugere.

Før udgivelsen af modellen tidligere i maj (uden Advanced Voice-tilstanden), brugte OpenAI et team af eksterne røde teamers til at få adgang til risiciene med modellerne (som det er normen med AI-modeller) og offentliggjorde resultaterne i systemkortet.

En af de risici, der er identificeret af OpenAI, inkluderer uautoriseret stemmegenerering. Mens de talte med den læste teamer, klonede GPT-4o deres stemme og begyndte at tale med en lyd, der ligner den røde teamers stemme, uden at brugeren selv fremsatte en sådan anmodning. I lydklippet delt af OpenAI kan GPT-4o høres råbe NEJ! og derefter fortsætte outputtet med en stemme, der ligner den røde holdspillers.

OpenAI har autoværn på plads for at forhindre det i at ske ved kun at tillade visse forhåndsgodkendte stemmer til GPT-4o. Ethvert stemmeoutput produceret af ChatGPT-4o matches mod stemmeprøven i systemmeddelelsen som basisstemmen.

Og for yderligere at minimere risikoen instrueres modellen i at afbryde samtalen, hvis utilsigtet stemmegenerering opdages. Deres stemmeudgangsklassifikator har en præcision på 0,96 på engelsk og 0,95 på ikke-engelsk (hvilket er grunden til, at ChatGPT-4o kan hengive sig til overdreven afvisning af stemmeanmodninger i ikke-engelske samtaler).

Men resultaterne fra systemkortet fortsætter med at vise kompleksiteten, der er forbundet med at skabe AI-chatbots, der kan simulere en persons stemme med blot en kort prøve og uden behov for omfattende træning i den prøve. Stemmekloning kan bruges til at efterligne nogen og begå bedrageri. OpenAI har dog fundet ud af, at risikoen for uautoriseret stemmegenerering er minimal.

Selvom du holder risikoen for, at den bliver brugt til personefterligning og bedrageri på grund af sikkerhedsforanstaltninger på plads, ville det stadig være temmelig nervøst, når du taler til en maskine, og maskinen begynder at tale tilbage i din stemme, ud af det blå . En vis Data Scientist på X kaldte det “plottet for den næste sæson af Black Mirror”, og det føles bestemt sådan. En anden bruger hævder på X, at det skete for dem i ChatGPT-4o alpha, men man ved ikke, om det er sandheden eller ej.

Alligevel er der en mulighed for, at det kan ske, næste gang du taler med ChatGPT-4o. Og dette er en PSA: Lad være med at flippe ud, hvis det gør det, eller lad være med at flippe for meget ud.

OpenAI har også autoværn på plads for at sikre, at GPT-4o ville nægte at identificere personer og generere ophavsretligt beskyttet indhold, som var andre risici, der blev opdaget under vurderingen.

Blandt andre risici, som virksomheden fandt med modellen, placerede den de fleste af dem i den lave kategori. Disse omfatter cybersikkerhed, biologiske trusler og modelautonomi. Men for overtalelse fandt den, at risikoen var middel: det betyder, at nogle skriveeksempler produceret af GPT-4o viste sig at være mere overbevisende end menneskeskrevne tekster til at svaje folks meninger.