Anmeldelse af ChatGPT Advanced Voice Mode: Underholdende og imponerende, men alligevel ikke en sand spilskifter

I maj betog demonstrationen af OpenAI’s Advanced Voice Mode publikum og skabte en bølge af spænding. Den første spænding blev dog hurtigt til skuffelse, da det blev afsløret, at funktionen ikke ville være tilgængelig før senere i år.

Spol frem et par måneder, og OpenAI har udrullet Advanced Voice Mode til alle brugere af ChatGPT, inklusive både gratis og betalte abonnenter. Med den teknologi, der nu er tilgængelig til bredere brug, er det tid til at evaluere dens ydeevne og se, om den lever op til de høje forventninger, som den indledende udstilling har stillet.

Vurdering af muligheder og begrænsninger

En håndgribelig følelse af svigt opstod fra brugere, der forventede, at Advanced Voice Mode ville afspejle de imponerende funktionaliteter, der blev vist i den tidligere demo. Nøglefunktioner såsom multimodalitet, internetforbindelse og filoverførsel er mærkbart fraværende. På trods af udrulningen af ChatGPT Search mangler stemmetilstanden stadig internetadgang og opdateringer i realtid.

Desuden begrænser den manglende evne til at fortsætte stemmesamtaler fra tidligere tekstbaserede interaktioner dets praktiske. Denne mangel står i skarp kontrast til de lovende egenskaber, der blev fremhævet under demoen, hvilket får brugerne til at ønske sig funktioner, der forbliver urealiseret.

Forbedringer i samtaleflow

På trods af sine begrænsninger viser Advanced Voice Mode markante forbedringer i forhold til sin forgænger. Samtaler føles mere organiske, og brugere kan afbryde uden at vente på, at AI’en “tænker”, hvilket skaber en mere engagerende oplevelse.

Mens nogle spekulerer over backend-processerne i den nye stemmetilstand, tyder min erfaring på, at der er minimal forsinkelse mellem at tale og modtage et svar. Denne umiddelbarhed fremmer en følelse af dialog, der ligner menneskelig samtale.

Evnen til at skifte mellem sprog, inklusive hindi, punjabi, engelsk og fransk, er også prisværdig. Det har dog nogle gange svært ved at skelne mellem hindi og punjabi, og stemmetilstanden kunne drage fordel af en live transskriptionsfunktion til sprogindlæring.

Forskellige og engagerende stemmemuligheder

ChatGPTs udvalg af stemmer forbedrer brugeroplevelsen. I øjeblikket tilbyder den følgende stemmer:

Arbor (M) – Let og alsidig
Vale (F) – Lyst og nysgerrigt
Breeze (M) – Animeret og seriøst
Sol (F) – Erfaren og afslappet
Maple (F) – munter og ærlig
Cove (M) – Komponeret og direkte
Ember (M) – Selvsikker og optimistisk
Juniper (F) – Åben og optimistisk
Gran (M) – Rolig og bekræftende

Disse stemmers livlige natur gør interaktioner langt mere behagelige sammenlignet med dem, der tilbydes af konkurrenter som Gemini Live og Copilot, som mangler en lignende konversationsfluiditet.

Udfordringer med restriktioner

Mens stemmetilstanden effektivt kan formidle følelsesmæssige nuancer til historiefortælling, kommer den til kort på grund af alt for strenge begrænsninger. I den tidligere demo oplevede brugerne en bredere række af muligheder, herunder evnen til at synge, som er blevet fjernet for at undgå potentielle krænkelser af ophavsretten.

Desværre forringer disse begrænsninger den samlede oplevelse. Brugere kan støde på afslag på rimelige anmodninger, såsom at generere dialoger for at handle praksis, skabe frustration. Avanceret stemmetilstand kan lejlighedsvis opfylde nogle kreative spørgsmål med lidt tilskyndelse, men føler ofte, at inkonsekvens hindrer dens anvendelighed.

Hukommelsesevner og kontekstbevidsthed

Et bemærkelsesværdigt træk ved Advanced Voice Mode er dens evne til at genkalde information. Det tillader dog ikke opfølgning af stemmesamtaler i eksisterende chats, der indeholder tekst eller billeder, en væsentlig begrænsning.

Til sammenligning understøtter Gemini Live løbende dialog uanset tidligere chatkontekster, hvilket fremhæver et område, hvor OpenAI muligvis skal forbedres for at konkurrere effektivt.

Hurtige reaktionstider

Mens hurtige svar forbedrer samtalens dynamik, kan de nogle gange forstyrre dialogstrømmen. AI har en tendens til at misfortolke pauser som en invitation til at reagere, hvilket fører til afbrydelser, der kan afspore brugerens tankegang.

En funktion, der tillader brugere at signalere længere pauser, svarende til en “Hold”-knap, ville i høj grad forbedre naturligheden af disse interaktioner.

Lejlighedsvis mindre fejl

De fleste interaktioner med den avancerede stemmetilstand er glatte, men brugere kan lejlighedsvis støde på mindre fejl, såsom korte statiske eller uventede stemmeændringer. Selvom disse problemer generelt er mindre, kan de lejlighedsvis forstyrre brugeroplevelsen.

Overvejelser om omkostninger og tilgængelighed

Avanceret stemmetilstand er tilgængelig på den gratis ChatGPT-plan i cirka 15 minutter om måneden, men fuld adgang kræver et abonnement. Dette står i kontrast til konkurrenter som Copilot og Gemini Live, som tilbyder deres stemmefunktioner uden omkostninger for brugerne.

Abonnementsgebyret, sammen med fraværet af funktioner som internetadgang, der findes i andre modeller, rejser spørgsmål om værdien af tjenesten, især for brugere, der udelukkende er interesseret i talefunktioner.

Slutevaluering

Mens Advanced Voice Mode unægtelig kan prale af imponerende teknologiske fremskridt, lever den i øjeblikket ikke alt, hvad der loves i demoen. Dens praktiske anvendelser er begrænsede, og uden væsentlige forbedringer tjener den mere som en nyhed end et nødvendigt værktøj.

For dem, der allerede abonnerer på ChatGPT for funktioner som Canvas, Søg eller ræsonnementmodellen, kan den avancerede stemmetilstand tjene som en dejlig tilføjelse. Det kan dog ikke retfærdiggøre et abonnement alene.

Kilde og billeder