Google lancerer Gemini Live, virksomhedens svar på ChatGPTs Advanced Voice Mode

Googles Made by Google-begivenhed er officielt afsluttet, hvor virksomheden lancerede den seneste lineup for deres flagskibs smartphones i Pixel-serien. Rygtebørsen har arbejdet hårdt de seneste par uger om, at en og flere rygter endelig er blevet til virkelighed. Ydermere havde begivenheden, som forventet, også mere end et par få – faktisk ret mange – omtaler af AI.

Blandt andet AI, den ene vigtige meddelelse har været lanceringen af Gemini Live. Google annoncerede Gemini Live på deres I/O-konference tidligere på året. Det ruller endelig til Gemini Advanced-abonnenter på Android på engelsk, med udrulning til flere sprog og iOS (via Google-appen) kommer snart.

Med Gemini Live er Gemini nu i stand til at holde mere naturlige tovejssamtaler. Du kan også afbryde det midt i et svar, ligesom i enhver naturlig samtale. Du kan gå ind i Gemini-appen på Android for at tale med chatbotten.

Dette svarer til den avancerede stemmetilstandsoplevelse i ChatGPT-appen, der nu ruller i en begrænset alfa til ChatGPT Plus-brugere. For en gangs skyld har Google lagt sig foran OpenAI i udgivelsestidslinjen ved at igangsætte en bredere udrulning.

Gemini Live er også tilgængelig håndfrit, så du kan tale med Gemini i baggrunden eller endda når din telefon er låst. Du kan også forlade samtaler i midten og vende tilbage til dem senere.

Google udruller Gemini Live i 10 nye stemmer, så dine samtaler med AI kan føles endnu mere autentiske for dig; du kan vælge den stemme og tone, der giver genlyd hos dig.

Navnlig kan Gemini Live ikke simulere nogen anden stemme end de 10 stemmer, der er tilgængelige i appen, muligvis for at undgå problemer med ophavsret. ChatGPT-4o følger samme politik. Der er et område, hvor Gemini Live ikke er det samme som ChatGPT-4o’s Voice Mode. Førstnævnte kan ikke forstå dine følelser ud fra din tone, noget som OpenAI demonstrerede deres chatbot kunne gøre.

Derudover er der også en funktion i Gemini Live, som Google demonstrerede på I/O-konferencen, som ikke vil være tilgængelig ved lanceringen. Ja, vi taler om multimodale input. Hvis du ikke ved, hvad det var, skal du ikke bekymre dig. Her er en opsummering: Med multimodale input kan Gemini Live tage input fra din telefons kamera (både billeder og videoer) i realtid og besvare eventuelle spørgsmål eller hjælpe dig med at identificere objekter, du peger på. For eksempel kan du pege det mod noget DJ-udstyr og bede det om at identificere navnet på en del, eller du kan pege det på din skærm og spørge, hvad en bestemt del af en kode gør.

Men multimodale kapaciteter er forsinket for nu, og Google har kun sagt, at de vil ankomme senere i år, uden nogen detaljer. Interessant nok skal ChatGPT-4o’s Advanced Voice Mode også have lignende funktioner, men de er heller ikke blevet lanceret med den begrænsede alfa-udrulning.

Især Gemini Live er et skridt på vejen til at Google bringer Project Astra til virkelighed.

At tale med en chatbot er nogle gange mere praktisk end at skrive noget, især når du vil brainstorme noget. Og med Gemini Live kan samtalen være meget mere problemfri. Eller hvis livedemoerne fra Made by Google-begivenheden skal være nogen indikation, problemfri nok. (Chatbotten hallucinerede tilsyneladende under livedemoen, og der er nogen friktion, når man sætter “afbryd Gemini i midten”-funktionen for at teste). Lad os se, hvordan det klarer sig i den virkelige verden, ikke? Gør dig klar til at teste Gemini Live på din Pixel, Samsung eller andre Android-enheder i løbet af de kommende uger, fra i dag.