Da den første AI-genererede video blev udgivet, kunne ingen have gættet, at videogenererende AI-værktøjer ville komme så langt på så kort en periode. Men i dag har vi utallige platforme, der giver brugerne mulighed for at generere højkvalitets, utroligt detaljerede videoer, såsom Synthesia og Luma AI’s Dream Machine. Når det er sagt, er der stadig et par udfordringer, der forhindrer disse værktøjer i at blive mainstream.
Og den største er måske lydgenereringsprocessen. Mens de fleste videogenererende platforme kan producere videoer af god kvalitet, er de for det meste lydløse videoer uden lyd. Selvom der er lyd, tilføjes den normalt separat og lever ikke op til brugernes forventninger.
For eksempel, hvis du besøger Luma AI’s Dream Machine-side, kan du se nogle meget imponerende videoer, men lyden, der ledsager dem, er ret generisk og af lav kvalitet. Men det kan være ved at ændre sig med Googles nye video-to-audio (V2A) teknologi.
Dette lover at bringe lydgenerering af god kvalitet til videoer til masserne, hvilket betyder, at det endelig kan give dig mulighed for at producere AI-genererede film med ordentlige lydspor og lyd, der overgår alle AI-genererede videoer, der i øjeblikket produceres.
https://www.youtube.com/watch?v=VYjZlF6m3nQ
Hvad er Google DeepMinds video-til-lyd-forskning?
Video-to-Audio (V2A)-teknologi udviklet af Googles DeepMind er designet til at skabe lydspor til AI-genererede videoer. Denne teknologi gør det muligt at generere videoer og lyd samtidigt ved at kombinere naturlige sprogprompter med videopixel for at generere lyde for de handlinger, der finder sted i videoen.
Denne teknologi kan parres med AI-modeller, der bruges til at generere videoer, som Veo, og kan hjælpe med at skabe realistiske dialoger og lydeffekter sammen med dramatiske resultater, der matcher videoen. Endnu vigtigere er det, at den nye V2A-teknologi ikke kun er begrænset til videoer genereret ved hjælp af AI, men kan også bruges til at generere lydspor til videoer produceret på traditionel vis. Du kan således bruge den til stumfilm, arkivmateriale og meget mere.
V2A-teknologien giver brugerne mulighed for at generere ubegrænsede lydspor til videoer og endda bruge positive og negative prompter til at guide lydgenereringsprocessen og nemt få de nødvendige lyde. Dette giver også mere fleksibilitet, så du kan eksperimentere med forskellige output og finde, hvad der er bedst til en bestemt video.
https://www.youtube.com/watch?v=9Q0-t8D9XFI
Hvordan fungerer V2A-teknologien?
Ifølge Google eksperimenterede virksomheden med diffusionsbaserede og autoregressive teknikker og fandt førstnævnte mest velegnet til lydproduktion. Det resulterer i meget realistiske lyde og virker ved at kode videoen til et komprimeret format.
Derefter bruges diffusionsmodellen til at adskille tilfældig støj fra videoen ved at stole på naturlige sprogprompter og videoen. Prompterne hjælper med at generere realistisk lyd, der er perfekt synkroniseret med videoen. Dette efterfølges af afkodning af lyden, hvorefter den konverteres til en lydbølgeform og flettes sammen med videoen.
Googles DeepMind leverede mere information til at træne AI’en, på grund af hvilke brugere kan guide lydgenereringsprocessen mod de nødvendige lyde og tillader platformen at producere lyd af højere kvalitet. Sådanne oplysninger omfattede talte dialogudskrifter og detaljerede lydbeskrivelser med AI-genererede annoteringer.
Da V2A-teknologien er trænet i sådanne oplysninger, kan den forbinde forskellige visuelle scener med specifikke lydbegivenheder.
Hvad er der i horisonten?
DeepMinds V2A-teknologi yder meget bedre end andre V2A-løsninger, da den ikke altid kræver en tekstprompt og kan forstå videopixels. Lydudgangen behøver heller ikke at justeres manuelt med videoen. Der er dog stadig visse begrænsninger ved teknologien, som Google sigter mod at overvinde med yderligere forskning.
For eksempel afhænger kvaliteten af den genererede lyd af kvaliteten af den video, der bruges som input. Hvis der er forvrængninger eller artefakter i videoen, forstår AI-modellen ikke dem, da de ikke er inkluderet i dens træning, hvilket i sidste ende resulterer i reduceret lydkvalitet.
For videoer, der har menneskelig tale, arbejder virksomheden desuden på at forbedre læbesynkronisering. V2A-teknologien forsøger at generere tale ved hjælp af input-transskriptionerne og derefter justere den efter læbebevægelserne af karaktererne i videoen. Men hvis videoen ikke er afhængig af transskriptioner, er der et misforhold mellem lyden og læbebevægelserne.
Med bedre lydgenereringsevner vil AI-modeller være i stand til at generere videoer, der ikke kun ser imponerende ud, men også lyder godt. Google integrerer også sin V2A-teknologi med SynthID, som vandmærker alt indhold genereret ved hjælp af AI. Dette kan hjælpe med at forhindre, at det bliver misbrugt, hvilket sikrer fuldstændig sikkerhed.
Derudover siger virksomheden, at den vil teste sin V2A-teknologi grundigt, før den frigives til offentligheden. Indtil videre, fra hvad Google har fremvist og lovet for fremtiden, tegner denne teknologi sig til at være et stort fremskridt inden for lydgenerering til AI-genererede videoer.
Skriv et svar