YouTube introduceert de AI-lipsynchronisatiefunctie om de natuurlijkheid van het automatisch nasynchroniseren van videos

Google heeft tijdens het ‘Made on YouTube’-evenement van deze maand aangekondigd dat de automatische nasynchronisatietechnologie van YouTube een nieuwe upgrade heeft ingeluid: de introductie van AI lip-sync (lip-sync)-functie, die tot doel heeft het al lang bestaande probleem van ‘niet synchroon lopen tussen geluid en beeld’ in machinaal vertaalde video-inhoud op te lossen. De functie wordt eerst uitgerold in 20 talen, waaronder Engels, Duits, Frans en Spaans, en de komende maanden zullen er nog meer talen volgen.

Er wordt gemeld dat de automatische nasynchronisatie en automatische vertaling van YouTube controversieel zijn geweest vanwege het automatisch reproduceren van videotitels en audiotracks. Veel gebruikers hopen op een uniforme optie om dergelijke automatische vertaling en nasynchronisatie uit te schakelen. Meertalige gebruikers en makers van Bilibili hebben gemeld dat de kwaliteit van door AI gegenereerde vertalingen ongelijkmatig is vergeleken met menselijke vertalingen. Momenteel biedt YouTube niet de mogelijkheid om nasynchronisatie wereldwijd uit te schakelen. Gebruikers moeten de audiotrack handmatig video-voor-video aanpassen. Dit heeft sommige ontwikkelaars er ook toe aangezet om browserplug-ins zoals "YouTube Anti-Translate" te lanceren om specifiek automatische vertalings- en nasynchronisatielagen te blokkeren.

De belangrijkste doorbraak van deze update is dat de AI-lipsynchronisatiefunctie gebruik kan maken van kunstmatige intelligentietechnologie om de automatisch gegenereerde audiotrack perfect uit te lijnen met de mondvorm van de personages in de video, waardoor de look en feel aanzienlijk wordt verbeterd en een vloeiendere en natuurlijkere video-ervaring wordt bereikt. Creators kunnen ervoor kiezen de lipsynchronisatiefunctie in te schakelen via YouTube Studio. De eerste pilot staat open voor leden van het YouTube-partnerprogramma en Google zal deze naar verwachting in de toekomst uitbreiden naar alle video's.

Op het gebied van meertalige nasynchronisatie vertrouwt YouTube op zelfontwikkelde AI-modellen (waaronder Gemini en Aloud) om meertalige audiotracks te genereren, die niet alleen de emotie en intonatie van de stem van de oorspronkelijke spreker herstellen, maar ook achtergrondgeluiden en menselijke stemmen scheiden. Volgens Google verdrievoudigde het aantal niet-native kijkers nadat sommige kanalen meertalige nasynchronisatie mogelijk maakten, wat een sterk groeipotentieel aantoont.

Hoewel AI-technologie voor automatische nasynchronisatie en lipsynchronisatie een belangrijke rol speelt bij het vergroten van het publiek en de advertentie-inkomsten van makers, bestaat er nog steeds veel controverse over de vraag of dit de authenticiteit van de originele inhoud en de publiekservaring zal beïnvloeden. Voorstanders zijn van mening dat deze stap het kijken naar het wereldwijde publiek vergemakkelijkt en de invloed van de inhoud vergroot; terwijl critici zich zorgen maken dat automatisering de unieke stijl van het originele werk zal schaden. Of AI-lipsynchronisatie de kloof tussen ideaal en werkelijkheid volledig kan overbruggen, de industrie observeert nog steeds de impact ervan.