Google heeft zojuist Gemini uitgebracht, de krachtigste reeks kunstmatige-intelligentiemodellen tot nu toe, maar het bedrijf wordt ervan beschuldigd te liegen over de prestaties ervan. Een Bloomberg-column beweerde dat Google de prestaties van Gemini in een recente video verkeerd voorstelde. Columnist Parmy Olson zei dat Google eerder deze week een indrukwekkende hands-on video 'What the AIquack' heeft afgespeeld tijdens het lanceringsevenement. In de video zag Gemini er zeer capabel uit, misschien te krachtig.
Deze zes minuten durende video demonstreert de multimodale mogelijkheden van Gemini (bijvoorbeeld gesproken dialoogaanwijzingen gecombineerd met beeldherkenning). Gemini lijkt in staat te zijn snel afbeeldingen te herkennen (zelfs verbonden afbeeldingen), binnen enkele seconden te reageren en papieren ballen in realtime te volgen in een beker- en balspel. Natuurlijk kunnen mensen dit allemaal doen, maar dit is een AI die kan herkennen en voorspellen wat er daarna zal gebeuren.
Klik echter op de videobeschrijving op YouTube en Google heeft een belangrijke disclaimer: "Voor demonstratiedoeleinden is de latentie verminderd en is de uitvoer van Gemini voor de eenvoud ingekort."
Dit is waar Olson ontevreden is. Volgens haar Bloomberg-artikel gaf Google toen hem om commentaar werd gevraagd toe dat de videodemonstratie niet live was met gesproken aanwijzingen, maar in plaats daarvan stilstaande beeldframes uit de originele beelden gebruikte en vervolgens tekstaanwijzingen uitschreef waarop Gemini kon reageren. Olson schreef: "Dit is heel anders dan wat Google lijkt te impliceren: dat je een vlot stemgesprek kunt voeren met Gemini, terwijl Gemini in realtime de wereld om zich heen observeert en erop reageert. Om eerlijk te zijn, bewerkt Google vaak demovideo's, vooral omdat veel bedrijven technische problemen willen vermijden die gepaard gaan met live demonstraties. Een kleine aanpassing is vaak Ja. Maar Google heeft problemen gehad met videodemo's. Mensen waren sceptisch over de Duplex-demo van Google (weet je nog Duplex? Duplex was een AI-stemassistent die kapsalons en restaurants kan bellen om reserveringen te maken). En vooraf opgenomen video's van AI-modellen maken mensen vaak nog sceptischer."
In dit geval is Olson van mening dat Google "pronkt" om mensen te misleiden door niet te weten dat Gemini nog steeds achterloopt op de GPT van OpenAI.
Google is het hier niet mee eens. Toen hem werd gevraagd naar de authenticiteit van de demo, wees Google op een artikel van Oriol Vinyals, vice-president van onderzoek en hoofd van deep learning bij Google DeepMind (die ook mede-leider is van Gemini), waarin werd uitgelegd hoe het team de video heeft gemaakt.
Vinyals zei: "Alle gebruikersprompts en output in de video zijn echt en zijn ingekort voor de beknoptheid. De video toont een multimodale gebruikerservaring gebouwd met Gemini. We hebben hem gemaakt om ontwikkelaars te inspireren."
Hij voegde eraan toe dat het team Gemini foto's en tekst gaf en vroeg om te voorspellen wat er daarna zou gebeuren.
Dat is zeker een manier om met de situatie om te gaan, maar het is misschien niet de juiste manier voor Google – dat, althans in publieke ogen, verrast is door het enorme succes van OpenAI dit jaar. Als Google ontwikkelaars wil stimuleren, kan het dat niet doen via zorgvuldig gemonteerde promotievideo's die de mogelijkheden van AI verkeerd kunnen weergeven. Maar door journalisten en ontwikkelaars het product daadwerkelijk te laten ervaren. Laat mensen domme dingen doen met Gemini in een kleine openbare bèta. Laten we eens kijken hoe krachtig het is.