Hvis du spændt ventede på den seneste forårsopdatering fra OpenAI til ChatGPT og håbede på, at virksomheden ville frigive GPT-5, ville du blive skuffet i den henseende. Men det, OpenAI har udgivet i stedet, ville mere end opveje det.
Virksomheden afslørede for nylig sin nyeste flagskibsmodel – GPT-4o – og det er et mesterværk af menneskelig innovation. ‘o’et i GPT-4o står for “omni”, og det er et passende nik til ChatGPTs nyeste allestedsnærværende muligheder. Selvom der ikke er meget forbedring i intelligens- og ræsonnement-delen i forhold til GPT-4-modellen, byder den nye model på drastiske forbedringer i hastighed og multimodalitet.
Hvad betyder det? GPT-4o har forbedrede funktioner på tværs af tekst, stemme og syn. Det kan bedre forstå og diskutere billeder. Men den mest spændende del ved opdateringen er dens evne til at tale med dig i realtid over lyd og video, hvilket fører os ind i fremtiden for menneske-maskine-interaktion. De fleste af os forestillede os kun denne sci-fi-agtige interaktion med en kunstig intelligens langt nede ad banen. Men det er her, og det er spændende.
Mira Murati, CTO for OpenAI, viste sammen med to forskningsledere de nye muligheder i GPT-40.
Stemmemodellen har en utrolig personlighed og tonalitet, der er i stand til at få dig til at glemme (i et stykke tid), at du interagerer med en AI. Det er uhyggeligt spændende. Svarene er meget mere naturlige, og den griner endda og lader som om den rødmer som et menneske.
Demoen fremhævede også rækken af følelser, ChatGPT kan vise, når de udtrykkeligt bliver spurgt: Mens ChatGPT fortalte en historie, indsugede ChatGPT sin stemme med flere følelser og drama, skiftede til en robotlyd og sang endda, som det var i en musical, og det gjorde det alt sammen problemfrit.
Mange brugere siger, at stemmen minder dem om Scarlett Johanssons AI fra filmen “Her”, men det er især den samme stemme, som ChatGPT havde tidligere. Hele forskellen kommer fra ændringerne i tonalitet og nogle velplacerede grin.
Når du parrer det med dets evner til at se og reagere på indholdet på skærmen, er det direkte mindblowing. Med sine nye visningsmuligheder kunne ChatGPT ikke kun forstå ting som lineære ligninger, men det gjorde et temmelig knaldgodt arbejde med at fortolke omgivelserne såvel som følelserne i en persons ansigt, der blev vist til den ved hjælp af kameraet. Du kan nu endda spille sten-papir-saks og bede ChatGPT om at være dommeren eller tage interviewforberedelsen med ChatGPT et skridt videre ved at bede den om at kritisere dit outfit, og det vil ikke skylle over eventuelle dårlige valg, du træffer.
Samlet set er effekten bemærkelsesværdig og får dig næsten til at tro, at du interagerer med en rigtig person over et videoopkald (hvis den anden person holdt sit kamera slukket hele tiden, altså).
https://www.youtube.com/watch?v=DQacCB9tDaw
Stemmemodellen er også generelt bedre end den, der er tilgængelig i øjeblikket. Dialogen flyder mere som en naturlig samtale, hvor du kan afbryde den på midten, den kan forstå og skelne flere stemmer og baggrundsstøj, og tonen i stemmen.
På et teknisk plan er det, fordi GPT-4o kan gøre alt native, der indtil nu har krævet tre forskellige modeller: Transskription, Intelligence og Text-to-Speech. Disse forbedringer giver brugeren en mere fordybende, samarbejdsoplevelse i stedet for forsinkelserne fra de tidligere modeller.
Mens adgangen til GPT-4o allerede er begyndt at rulle ud til både gratis- og Plus-brugere i webappen, vil den nye Voice Mode med GPT-4o kun blive lanceret i alfa for ChatGPT Plus-brugere i de kommende uger. En ny macOS ChatGPT-app frigives også, med adgang, der udrulles iterativt, startende fra ChatGPT Plus-brugere.
Selvom demoen var ret imponerende, må vi vente for at se, om den virkelige applikation vil være lige så glat, når modellen endelig udgives.
Skriv et svar