De tijden zijn veranderd? Het grootste en krachtigste Google-model tot nu toe is er. Op 6 december, lokale tijd, maakte Google-CEO Sundar Pichai officieel bekend dat Gemini versie 1.0 officieel werd gelanceerd.
Het grote Gemini-model dat dit keer is uitgebracht, is een native multimodaal groot model.
Nu is Google's ChatGPT-achtige applicatie Bard geüpgraded naar de GeminiPro-versie, waardoor geavanceerder redeneren, plannen, begrijpen en andere mogelijkheden mogelijk zijn, terwijl ze nog steeds gratis zijn. Google verwacht begin volgend jaar "BardAdvanced" te lanceren, dat gebruik zal maken van GeminiUltra.
Dit is de grootste update sinds Bard uitkwam.
Sinds de release van ChatGPT zijn we erg benieuwd naar de mogelijkheden van het concurrerende Gemini-model dat door Google wordt geclaimd. Dit grote model ging al in maart van dit jaar rond en kreeg op de I/O-conferentie in mei de status 'coming soon'.
Terwijl mensen die bekend zijn met de materie nieuwe informatie blijven onthullen, kunnen we leren: Gemini zou biljoenen parameters hebben, en de rekenkracht die voor training wordt gebruikt is vijf keer zo groot als die van GPT-4. De officiële release van Gemini lijkt echter om verschillende redenen herhaaldelijk te zijn uitgesteld.
Om te kunnen concurreren met OpenAI en Microsoft is Google resoluut overgestapt van PaLM2 naar Gemini, en heeft Google Brain en DeepMind in april van dit jaar zelfs rechtstreeks samengevoegd. Gemini gebruikte het nieuw gevormde Google DeepMind om de sterke punten van de twee laboratoria te combineren om belangrijke problemen aan te pakken.
Dit toont de alles-of-niets-mentaliteit van Google in de grootschalige modelwapenwedloop.
Kan Gemini ons dus echt verrassen? Naast het behalen van de beste resultaten op verschillende benchmarks en zelfs het overtreffen van mensen, wat interessant is, is dat op de persconferentie, wanneer je wordt geconfronteerd met de vraag van een verslaggever over “Welke nieuwe mogelijkheden heeft Gemini vergeleken met eerdere grote modellen?” Eli Collins, vice-president product bij Google DeepMind, antwoordde: “Ik vermoed van wel”, wat aangeeft dat Google nog steeds hard werkt om de volledige mogelijkheden van Gemini Ultra te begrijpen.
Hieronder volgt een verklaring van Google CEO Pichai:
Elke technologische verandering is een kans om wetenschappelijke ontdekkingen te bevorderen, de menselijke vooruitgang te versnellen en levens te verbeteren. Ik geloof dat de AI-verschuiving die we nu zien de meest diepgaande verschuiving in ons leven zal zijn, veel groter dan de eerdere verschuivingen naar mobiel of internet. Kunstmatige intelligentie heeft het potentieel om kansen te creëren voor mensen over de hele wereld, van het alledaagse tot het buitengewone. Het zal een nieuwe golf van innovatie en economische vooruitgang inluiden en kennis, leren, creativiteit en productiviteit op een ongekende schaal stimuleren.
Dit boeit mij: de mogelijkheid om kunstmatige intelligentie voor iedereen, overal, nuttig te maken.
We zijn bijna acht jaar onderweg als AI-first-bedrijf, en het tempo van de vooruitgang neemt alleen maar toe: miljoenen mensen gebruiken nu generatieve AI in onze producten om dingen te doen die ze een jaar geleden niet konden doen, van het vinden van antwoorden op complexere problemen tot het gebruik van nieuwe tools om samen te werken en te creëren. Tegelijkertijd gebruiken ontwikkelaars onze modellen en infrastructuur om nieuwe generatieve AI-applicaties te bouwen, en groeien startups en ondernemingen over de hele wereld met behulp van onze AI-tools.
Dit is een ongelooflijk momentum, maar we zijn nog maar net begonnen met het verkennen van wat mogelijk is.
Wij doen dit werk moedig en verantwoordelijk. Dit betekent dat we ambitieus moeten zijn in ons onderzoek, capaciteiten moeten nastreven die enorme voordelen kunnen opleveren voor mens en samenleving, terwijl we veiligheidsmaatregelen moeten inbouwen en samenwerken met overheden en experts om de risico’s aan te pakken dat AI steeds krachtiger wordt. We zullen blijven investeren in de beste tools, fundamentele modellen en infrastructuur en deze in onze producten en daarbuiten integreren, geleid door onze AI-principes.
Google's grote model Gemini is officieel uitgebracht
Google DeepMind CEO en mede-oprichter Demis Hassabis lanceerde officieel het grote model Gemini namens het Gemini-team.
Hassabis zei dat Google al heel lang een nieuwe generatie grote AI-modellen wil bouwen. Volgens hem is wat AI mensen brengt niet langer alleen maar intelligente software, maar meer bruikbare en intuïtieve deskundige assistenten of assistenten.
Vandaag debuteerde Google’s grote model Gemini eindelijk en werd het het krachtigste en meest veelzijdige model dat het ooit heeft gebouwd. Gemini is het resultaat van grootschalige samenwerking tussen teams van Google, waaronder onderzoekers van Google Research.
Van bijzonder belang is dat Gemini een multimodaal groot model is, wat betekent dat het verschillende soorten informatie, waaronder tekst, code, audio, afbeeldingen en video, kan generaliseren en naadloos kan begrijpen, manipuleren en combineren.
Google zei dat Gemini ook hun meest flexibele model tot nu toe is en efficiënt kan draaien op meerdere soorten platforms, zoals datacenters en mobiele apparaten. De SOTA-mogelijkheden van Gemini zullen de manier waarop ontwikkelaars en zakelijke klanten AI bouwen en schalen aanzienlijk verbeteren.
Momenteel biedt Gemini1.0 drie verschillende grootteversies, als volgt:
GeminiUltra: de grootste en meest capabele, gebruikt om zeer complexe taken uit te voeren;
GeminiPro: het beste model dat geschikt is voor verschillende taken;
GeminiNano: het meest efficiënte model voor taken op het apparaat.
Google test Gemini-modellen uitvoerig en evalueert hun prestaties bij verschillende taken. Van het begrijpen van natuurlijk beeld, audio en video tot wiskundig redeneren en andere taken: GeminiUltra is gebruikt in 32 academische benchmarktestsets die veel worden gebruikt bij de ontwikkeling van grootschalige taalmodellen, en de prestaties van 30 daarvan overtreffen de huidige SOTA-resultaten.
Bovendien scoorde GeminiUltra maar liefst 90,0% in de MMLU (grootschalige multi-task taalbegripdataset), waarmee het voor het eerst menselijke experts overtrof. De MMLU-dataset bevat 57 onderwerpen, waaronder wiskunde, natuurkunde, geschiedenis, rechten, geneeskunde en ethiek, en wordt gebruikt om de kennisreserve en het probleemoplossend vermogen van grote modellen te testen.
Dankzij nieuwe methoden voor de MMLU-testset kan Gemini zijn redeneervermogen gebruiken om zorgvuldiger na te denken voordat hij moeilijke vragen beantwoordt, wat resulteert in aanzienlijke prestatieverbeteringen vergeleken met alleen antwoorden op basis van de eerste indrukken van de vraag.
Gemini presteert beter dan GPT-4 in de meeste benchmarks.
Bekijk voor meer details het gedetailleerde testrapport: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
In de nieuwste versie van de MMMU-testset behaalde GeminiUltra ook het beste resultaat van 59,4%. De verbeterde testset bestaat uit multimodale taken waarvoor deliberatief redeneren vereist is.
In de beeldbenchmarktest hoefde GeminiUltra geen tekst uit de afbeelding te extraheren om OCR-verwerking uit te voeren, wat de ingebouwde krachtige multimodale mogelijkheden van Gemin benadrukte en aanvankelijk ook de voorbode toonde van Gemini's complexere redeneervermogen.
Upgrade van allround mogelijkheden van de volgende generatie
Gemini is ontworpen om multimodaliteit native te ondersteunen, is vanaf het begin vooraf getraind in verschillende modaliteiten en vervolgens verfijnd met aanvullende multimodale gegevens om de effectiviteit te verbeteren. Als gevolg hiervan kan Gemini een verscheidenheid aan inputs naadloos begrijpen en erover redeneren, veel beter dan bestaande multimodale modellen, en behoren de mogelijkheden ervan tot de sterkste in bijna elk domein.
complex redeneervermogen
Gemini1.0 beschikt over complexe multimodale redeneermogelijkheden die kunnen helpen bij het begrijpen van complexe geschreven en visuele informatie. Dit maakt het bijzonder goed in het ontdekken van moeilijk te onderscheiden kennis in enorme hoeveelheden gegevens. Gemini1.0 heeft het buitengewone vermogen om inzichten uit honderdduizenden documenten te halen door informatie te lezen, filteren en begrijpen, wat helpt nieuwe doorbraken te realiseren met ultrasnelle snelheden op veel gebieden, zoals wetenschap en financiën.
Begrijp tegelijkertijd informatie in tekst, afbeeldingen, audio en meer modaliteiten
Na de training kan Gemini1.0 tegelijkertijd tekst, afbeeldingen, audio enz. herkennen en begrijpen, zodat het de details van de informatie in de invoer beter kan begrijpen en ook vragen kan beantwoorden die verband houden met complexe onderwerpen. Als zodanig is het bijzonder goed in het redeneren over problemen in complexe onderwerpen zoals wiskunde en natuurkunde.
Zoals hieronder weergegeven, tekent een leraar een natuurkundig probleem van een skiër die van een helling afkomt, terwijl een leerling een oplossing voorstelt om de snelheid van de skiër onderaan de helling te berekenen. Door gebruik te maken van de multimodale redeneermogelijkheden van Gemini kan het model rommelig handschrift lezen, probleemformuleringen correct begrijpen, zowel problemen als oplossingen omzetten in wiskundige formules, de specifieke redeneerstappen identificeren waarin leerlingen fouten maken bij het oplossen van problemen, en vervolgens de juiste oplossing voor het probleem bieden.
geavanceerde codering
Gemini kan hoogwaardige code in populaire programmeertalen (zoals Python, Java, C++, Go) begrijpen, interpreteren en genereren. Het krachtige vermogen om in verschillende talen te werken en te redeneren over complexe informatie maakt het tot een van 's werelds toonaangevende codeerbasismodellen.
GeminiUltra presteert goed op verschillende codeerbenchmarks, waaronder HumanEval, een belangrijke industriestandaard voor het evalueren van de prestaties bij codeertaken, en Natural2Code, een interne Google-dataset die door de auteur gegenereerde broncode gebruikt in plaats van webgebaseerde informatie.
Gemini kan ook worden gebruikt als motor voor geavanceerdere coderingssystemen. Twee jaar geleden lanceerde Google AlphaCode, het eerste systeem voor het genereren van kunstmatige intelligentiecodes dat competitieve niveaus bereikte in programmeerwedstrijden.
Met behulp van een gespecialiseerde versie van Gemini heeft Google AlphaCode2 gemaakt, een geavanceerder codegeneratiesysteem dat uitblinkt in het oplossen van competitieve programmeerproblemen die verder gaan dan coderen en waarbij complexe wiskunde en theoretische informatica betrokken zijn.
Geëvalueerd op hetzelfde platform als de originele AlphaCode, liet AlphaCode2 een enorme verbetering zien, waarbij bijna tweemaal zoveel problemen werden opgelost.
Speciale TPU-training
Google heeft Gemini 1.0 op schaal getraind op een AI-geoptimaliseerde infrastructuur met behulp van intern ontworpen Tensor Processing Units (TPU) v4 en v5e, ontworpen om het meest betrouwbare, schaalbare trainingsmodel en het meest efficiënte bedieningsmodel te zijn.
Op de TPU werkt Gemini aanzienlijk sneller dan eerdere, kleinere, minder capabele modellen. Deze op maat ontworpen AI-versnellers vormen de kern van de kunstmatige-intelligentieproducten van Google, die miljarden gebruikers ondersteunen in Zoeken, YouTube, Gmail, Google Maps, Google Play en Android. Ze helpen bedrijven over de hele wereld ook om op kosteneffectieve wijze grootschalige AI-modellen te trainen.
Vandaag heeft Google ook het krachtigste, efficiënte en schaalbare TPU-systeem tot nu toe uitgebracht: CloudTPUv5p, dat is ontworpen voor het trainen van geavanceerde kunstmatige-intelligentiemodellen. De nieuwe generatie TPU zal de ontwikkeling van Gemini versnellen, ontwikkelaars en zakelijke klanten helpen grootschalige generatieve AI-modellen sneller te trainen en ervoor zorgen dat nieuwe producten en nieuwe functies klanten sneller kunnen ontmoeten.
Een rij CloudTPUv5pAI-accelerator-supercomputers in de datacenters van Google.
Google-producten zullen over de hele linie worden geüpgraded
Vanaf vandaag voegt Google Gemini toe aan zijn producten. Bard zal bijvoorbeeld een verfijnde versie van GeminiPro gebruiken om geavanceerdere redeneer-, plannings-, begrips- en andere taken uit te voeren. Dit is ook de grootste upgrade van Bard sinds de lancering.
De geüpgradede Bard zal in meer dan 170 landen in het Engels beschikbaar zijn en zal in de nabije toekomst worden uitgebreid naar meer modaliteiten en meer talen ondersteunen.
Google brengt Gemini ook naar Pixel. Pixel 8 Pro wordt de eerste smartphone met Gemini Nano.
De Pixel 8 Pro gebruikt Gemini Nano in de audiorecorder-app om de audio van vergaderingen samen te vatten, zelfs als er geen netwerkverbinding is.
In de komende maanden zal Gemini geleidelijk verschijnen in meer Google-producten en -services, waaronder zoeken, adverteren, Chrome, DuetAI en meer.
Google zei dat het heeft geëxperimenteerd met Gemini in de zoekresultaten, waardoor de zoekgeneratie-ervaring (SGE) voor gebruikers sneller wordt gemaakt, de latentie met 40% wordt verminderd en de kwaliteit wordt verbeterd.
Gebruikershandleiding en toekomstplannen
Tot slot: hoe gebruiken ontwikkelaars Gemini?
Vanaf 13 december hebben ontwikkelaars en zakelijke klanten toegang tot Gemini Pro via de Gemini API in Google AI Studio of Google Cloud Vertex AI.
Vanaf Pixel 8 Pro-apparaten kunnen Android-ontwikkelaars ook bouwen met Gemini Nano via AICore. AndroidAICore is een nieuwe systeemservice in Android 14 die modelbeheer, runtime, beveiligingsfuncties, enz. afhandelt, waardoor het werk van gebruikers om AI in applicaties te integreren wordt vereenvoudigd.
AICore implementeert low-rank adaptatie (LoRA) fine-tuning via GeminiNano. Met dit krachtige concept kunnen applicatieontwikkelaars kleine LoRA-adapters maken op basis van hun eigen trainingsgegevens. De LoRA-adapter wordt geladen door AICore, wat resulteert in een groot taalmodel dat is afgestemd op de eigen gebruiksscenario's van de applicatie.
Bovendien onthulde Google dat GeminiUltra binnenkort zal worden uitgebracht, evenals het volgende upgradeplan van Bard.
Het GeminiUltra-model ondergaat momenteel een fase van vertrouwens- en veiligheidscontrole, inclusief een rood team van vertrouwde externe partijen, en verdere verfijning van het model met behulp van verfijning en versterkend leren met menselijke feedback (RLHF).
In dit proces zal Google Gemini Ultra eerst aan een aantal klanten, ontwikkelaars, partners en beveiligings- en aansprakelijkheidsexperts aanbieden voor vroege experimenten en feedback, en het vervolgens begin volgend jaar lanceren voor ontwikkelaars en zakelijke klanten.
GeminiUltra is het grootste en krachtigste model van Google, ontworpen voor zeer complexe taken. De eerste manier waarop gewone gebruikers GeminiUltra zullen ervaren, zal zijn via BardAdvanced, dat Google begin volgend jaar zal lanceren.
Google zei dat het zal werken aan het uitbreiden van de mogelijkheden van Gemini in de toekomst, inclusief verbeteringen in planning en geheugen, evenals het vergroten van contextuele vensters om meer informatie te verwerken voor betere reacties.
Bloglink: https://blog.google/technology/ai/google-gemini-ai/#scalable-efficient