I maj betog demonstrationen af OpenAI’s Advanced Voice Mode publikum og skabte en bølge af spænding. Den første spænding blev dog hurtigt til skuffelse, da det blev afsløret, at funktionen ikke ville være tilgængelig før senere i år.
Spol frem et par måneder, og OpenAI har udrullet Advanced Voice Mode til alle brugere af ChatGPT, inklusive både gratis og betalte abonnenter. Med den teknologi, der nu er tilgængelig til bredere brug, er det tid til at evaluere dens ydeevne og se, om den lever op til de høje forventninger, som den indledende udstilling har stillet.
Vurdering af muligheder og begrænsninger
En håndgribelig følelse af svigt opstod fra brugere, der forventede, at Advanced Voice Mode ville afspejle de imponerende funktionaliteter, der blev vist i den tidligere demo. Nøglefunktioner såsom multimodalitet, internetforbindelse og filoverførsel er mærkbart fraværende. På trods af udrulningen af ChatGPT Search mangler stemmetilstanden stadig internetadgang og opdateringer i realtid.
Desuden begrænser den manglende evne til at fortsætte stemmesamtaler fra tidligere tekstbaserede interaktioner dets praktiske. Denne mangel står i skarp kontrast til de lovende egenskaber, der blev fremhævet under demoen, hvilket får brugerne til at ønske sig funktioner, der forbliver urealiseret.
Forbedringer i samtaleflow
På trods af sine begrænsninger viser Advanced Voice Mode markante forbedringer i forhold til sin forgænger. Samtaler føles mere organiske, og brugere kan afbryde uden at vente på, at AI’en “tænker”, hvilket skaber en mere engagerende oplevelse.
Mens nogle spekulerer over backend-processerne i den nye stemmetilstand, tyder min erfaring på, at der er minimal forsinkelse mellem at tale og modtage et svar. Denne umiddelbarhed fremmer en følelse af dialog, der ligner menneskelig samtale.
Evnen til at skifte mellem sprog, inklusive hindi, punjabi, engelsk og fransk, er også prisværdig. Det har dog nogle gange svært ved at skelne mellem hindi og punjabi, og stemmetilstanden kunne drage fordel af en live transskriptionsfunktion til sprogindlæring.
Forskellige og engagerende stemmemuligheder
ChatGPTs udvalg af stemmer forbedrer brugeroplevelsen. I øjeblikket tilbyder den følgende stemmer:
- Arbor (M) – Let og alsidig
- Vale (F) – Lyst og nysgerrigt
- Breeze (M) – Animeret og seriøst
- Sol (F) – Erfaren og afslappet
- Maple (F) – munter og ærlig
- Cove (M) – Komponeret og direkte
- Ember (M) – Selvsikker og optimistisk
- Juniper (F) – Åben og optimistisk
- Gran (M) – Rolig og bekræftende
Disse stemmers livlige natur gør interaktioner langt mere behagelige sammenlignet med dem, der tilbydes af konkurrenter som Gemini Live og Copilot, som mangler en lignende konversationsfluiditet.
Udfordringer med restriktioner
Mens stemmetilstanden effektivt kan formidle følelsesmæssige nuancer til historiefortælling, kommer den til kort på grund af alt for strenge begrænsninger. I den tidligere demo oplevede brugerne en bredere række af muligheder, herunder evnen til at synge, som er blevet fjernet for at undgå potentielle krænkelser af ophavsretten.
Desværre forringer disse begrænsninger den samlede oplevelse. Brugere kan støde på afslag på rimelige anmodninger, såsom at generere dialoger for at handle praksis, skabe frustration. Avanceret stemmetilstand kan lejlighedsvis opfylde nogle kreative spørgsmål med lidt tilskyndelse, men føler ofte, at inkonsekvens hindrer dens anvendelighed.
Hukommelsesevner og kontekstbevidsthed
Et bemærkelsesværdigt træk ved Advanced Voice Mode er dens evne til at genkalde information. Det tillader dog ikke opfølgning af stemmesamtaler i eksisterende chats, der indeholder tekst eller billeder, en væsentlig begrænsning.
Til sammenligning understøtter Gemini Live løbende dialog uanset tidligere chatkontekster, hvilket fremhæver et område, hvor OpenAI muligvis skal forbedres for at konkurrere effektivt.
Hurtige reaktionstider
Mens hurtige svar forbedrer samtalens dynamik, kan de nogle gange forstyrre dialogstrømmen. AI har en tendens til at misfortolke pauser som en invitation til at reagere, hvilket fører til afbrydelser, der kan afspore brugerens tankegang.
En funktion, der tillader brugere at signalere længere pauser, svarende til en “Hold”-knap, ville i høj grad forbedre naturligheden af disse interaktioner.
Lejlighedsvis mindre fejl
De fleste interaktioner med den avancerede stemmetilstand er glatte, men brugere kan lejlighedsvis støde på mindre fejl, såsom korte statiske eller uventede stemmeændringer. Selvom disse problemer generelt er mindre, kan de lejlighedsvis forstyrre brugeroplevelsen.
Overvejelser om omkostninger og tilgængelighed
Avanceret stemmetilstand er tilgængelig på den gratis ChatGPT-plan i cirka 15 minutter om måneden, men fuld adgang kræver et abonnement. Dette står i kontrast til konkurrenter som Copilot og Gemini Live, som tilbyder deres stemmefunktioner uden omkostninger for brugerne.
Abonnementsgebyret, sammen med fraværet af funktioner som internetadgang, der findes i andre modeller, rejser spørgsmål om værdien af tjenesten, især for brugere, der udelukkende er interesseret i talefunktioner.
Slutevaluering
Mens Advanced Voice Mode unægtelig kan prale af imponerende teknologiske fremskridt, lever den i øjeblikket ikke alt, hvad der loves i demoen. Dens praktiske anvendelser er begrænsede, og uden væsentlige forbedringer tjener den mere som en nyhed end et nødvendigt værktøj.
For dem, der allerede abonnerer på ChatGPT for funktioner som Canvas, Søg eller ræsonnementmodellen, kan den avancerede stemmetilstand tjene som en dejlig tilføjelse. Det kan dog ikke retfærdiggøre et abonnement alene.
Skriv et svar