Op het slagveld van multimodale grote modellen hebben sommige mensen er al lucht van gekregen. Volgens berichten in de buitenlandse media lijkt het nieuwe multimodale model Gobi van OpenAI in voorbereiding te zijn. De confrontatie tussen Google en OpenAI lijkt aanstaande. Nu dit najaar nadert, is ook de multimodale modelstrijd tussen Google en OpenAI in een hevig stadium beland.
Vorige week nog stelde Google de mogelijkheden van zijn multimodale grote model Gemini open voor enkele externe bedrijven.
En OpenAI zal natuurlijk niet stilzitten en wachten op de dood. Ze racen tegen de klok om multimodale functies in GPT-4 te integreren, en streven ernaar een groot multimodaal model te lanceren met functies die vergelijkbaar zijn met Gemini, en Google in één klap te vermoorden.
De legendarische multimodale functie is gedemonstreerd op de GPT-4-conferentie van OpenAI die de wereld in maart van dit jaar schokte——
Teken een schets op papier, maak een foto en stuur deze naar GPT-4, en zeg "Maak een website voor mij met deze lay-out", en hij zal onmiddellijk de webpaginacode schrijven.
Baas Greg Brockman demonstreerde persoonlijk online
Maar toen leek multimodaliteit een flits in de pan, en niemand heeft ooit een geproduceerde fysieke functie gezien.
Dus, komt de multimodale oorlog tussen Google en OpenAI eindelijk op gang?
In de strijd tegen Google haast OpenAI zich om grote multimodale modellen uit te brengen
Geconfronteerd met geruchten dat Google deze eigen grote moordenaar gaat vermoorden, zal OpenAI zeker niet onverschillig blijven.
Volgens buitenlandse media The Information wordt een nieuw multimodaal groot model, Gobi genaamd, al intensief voorbereid.
OpenAI is van plan om multimodale LLM te lanceren vóór de release van Gemini, waarmee Google volledig wordt verslagen.
Greg Brockman van OpenAI versus Demis Hassabis van Google
Na de lancering van een preview van de multimodale GPT-4-functie in maart heeft OpenAI deze functie gelanceerd bij een bedrijf genaamd BeMyEyes, maar niet aan andere bedrijven.
Zoals je aan de naam kunt zien, ontwikkelt dit bedrijf technologie waarmee blinden of slechtzienden duidelijker kunnen zien.
Onlangs is OpenAI van plan een functie genaamd GPT-Vision breder uit te rollen.
Waarom duurde OpenAI zo lang?
De belangrijkste reden is dat ze bang zijn dat de nieuwe visuele functies door criminelen zullen worden gebruikt, zoals het nabootsen van mensen door automatisch verificatiecodes te kraken, of het volgen van mensen via gezichtsherkenning.
OpenAI-ingenieurs lijken deze juridische veiligheidsrisico's echter te hebben opgelost.
Op dezelfde manier zei een Google-woordvoerder ook: Google heeft enkele maatregelen genomen om te voorkomen dat Gemini wordt misbruikt.
In juli beloofde Google in een belofte om verantwoorde kunstmatige intelligentie te ontwikkelen in al zijn producten.
Kan Gobi GPT-5 worden?
Na GPT-Vision zal OpenAI waarschijnlijk een krachtiger multimodaal groot model lanceren, met de codenaam Gobi.
In tegenstelling tot GPT-4 is Gobi vanaf het begin op een multimodaal model gebouwd.
Dus, is Gobi de legendarische GPT-5?
Op dit moment weten we het niet. Er is geen definitieve informatie over hoe ver Gobi heeft bereikt in training.
Begin september bracht Mustafa Suleyman, mede-oprichter van DeepMind en nu CEO van InflectionAI, een bom uit in een interview: hij speculeerde dat OpenAI in het geheim GPT-5 aan het trainen was.
Suleyman is van mening dat Sam Altman misschien niet de waarheid spreekt toen hij onlangs zei dat ze GPT-5 niet trainden. (De oorspronkelijke woorden zijn: Kom op. Ik weet het niet. Ik denk dat het beter is dat we er allemaal eerlijk over zijn.)
Hier zal Gemini, volgens mensen die Gemini hebben geprobeerd, minder hallucinaties veroorzaken dan bestaande modellen. De redenen worden hieronder beschreven.
Kortom, de multimodale modeloorlog tussen Google en OpenAI kan worden beschouwd als de AI-versie van de iPhone- en Android-confrontatie.
De ene is een gigant uit Silicon Valley die het AI-veld al jaren domineert, en de andere is een eersteklas AI-startupbedrijf dat zijn gelijke niet in de schijnwerpers kent. Hoe groot de kloof tussen de twee ook is, iedereen wacht met ingehouden adem.
Google test Gemini in het geheim
Aan de andere kant is Google ook begonnen met het uitnodigen van een aantal externe ontwikkelaars om het testen van het komende multimodale grote model Gemini van de volgende generatie te bespoedigen.
Vorige week meldde The Information exclusief dat Gemini binnenkort mogelijk klaar is voor een testrelease en zal worden geïntegreerd in diensten als Google Cloud Vertex AI.
Op de Google I/O Developer Conference van dit jaar heeft Pichai Gemini publiekelijk geïntroduceerd, een multimodaal model, efficiënte integratietool en API.
Om samen grote dingen te kunnen doen, heeft Google ook Google Brain samengevoegd met DeepMind Labs.
Er wordt gezegd dat minstens twintig leidinggevenden hebben deelgenomen aan het onderzoek en de ontwikkeling van Gemini, onder leiding van Demis Hassabis, de oprichter van DeepMind, en Sergey Brin, de oprichter van Google, aan het onderzoek en de ontwikkeling.
Er zijn ook honderden werknemers bij Google DeepMind, waaronder voormalig Google Brain-directeur Jeff Dean en anderen.
Eén persoon die het heeft getest, zei dat Gemini op minstens één manier een voordeel heeft ten opzichte van GPT-4: naast openbaar beschikbare informatie op internet maakt het model ook gebruik van een grote hoeveelheid bedrijfseigen gegevens uit de consumentenproducten van Google (zoeken, YouTube).
Daarom zou Gemini bijzonder nauwkeurig moeten zijn in het begrijpen van de intentie van een gebruiker voor een specifieke vraag, en het lijkt minder onjuiste antwoorden op te leveren, dat wil zeggen hallucinaties.
Volgens eerdere rapporten van SemiAnalysis-analisten is Google's grote model Gemini van de volgende generatie begonnen met trainen op de nieuwe TPUv5Pod, met een rekenkracht tot ~1e26FLOPS, wat vijf keer groter is dan de rekenkracht van het trainen van GPT-4.
Bovendien bevat de trainingsdatabase van Gemini 93,6 miljard minuten aan video-ondertitels op YouTube, en de totale datasetgrootte is ongeveer tweemaal zo groot als die van GPT-4.
Er wordt gezegd dat het grote model van de volgende generatie van Google ook uit meerdere schalen bestaat en mogelijk gebruik maakt van MoE-architectuur en speculatieve samplingtechnologie.
Het token wordt vooraf gegenereerd door het kleine model en ter evaluatie doorgegeven aan het grote model om de algehele redeneersnelheid van het model te verbeteren.
Hassabis, het hoofd van Google DeepMind, zei in een interview dat Gemini naar verwachting tientallen tot honderden miljoenen dollars gaat kosten, wat gelijk staat aan de kosten voor het ontwikkelen van GPT-4.
Gemini zal de technologie die in AlphaGo wordt gebruikt integreren, waardoor het systeem nieuwe plannings- en probleemoplossende mogelijkheden krijgt.
Er kan worden gezegd dat Gemini enkele voordelen van het AlphaGo-systeem combineert met de verbazingwekkende taalmogelijkheden van grote taalmodellen. En we hebben nog een aantal andere interessante innovaties.
De technologie achter AlphaGo is versterkend leren, een technologie ontwikkeld door DeepMind.
RL-agenten communiceren in de loop van de tijd met de omgeving en leren het beleid met vallen en opstaan, waardoor de cumulatieve beloningen op de lange termijn worden gemaximaliseerd
Door middel van versterkend leren kan AI zijn prestaties met vallen en opstaan aanpassen en feedback ontvangen, waardoor hij leert omgaan met moeilijke problemen, zoals het kiezen van de volgende zet in Go of videogames.
Daarnaast maakt AlphaGo ook gebruik van de Monte Carlo Tree Search (MCTS) methode om alle mogelijke zetten op het bord te verkennen en te onthouden.
Vergeleken met bestaande modellen zal Gemini de codegeneratiemogelijkheden van softwareontwikkelaars aanzienlijk verbeteren, en Google hoopt het te gebruiken om de GitHubCopilot-codeassistent van Microsoft in te halen.
Google heeft ook gesproken over het gebruik van Gemini om functies te implementeren zoals diagramanalyse, zoals het vragen aan het model om de betekenis van voltooide diagrammen te interpreteren, en het gebruik van tekst- of spraakopdrachten om door webbrowsers of andere software te bladeren.
Het Google Cloud-ontwikkelaarsplatform Google Cloud Vertex AI zal ook worden ondersteund door Gemini, waarbij zowel grote als kleine versies beschikbaar zijn, zodat ontwikkelaars kunnen betalen om kleine modellen aan te schaffen die op persoonlijke apparaten kunnen worden uitgevoerd.
Nu bereidt Google zich volledig voor op de oorlog, wachtend tot Gemini zijn tegenaanval begint.
gpt-3.5-turbo-instruct vrijgegeven
In juli maakte OpenAI bekend dat de GPT-4 API volledig beschikbaar is en de komende maanden nieuwe modellen zal lanceren.
Nee, netizens hebben vandaag e-mails ontvangen waarin het nieuwe model gpt-3.5-turbo-instruct wordt vrijgegeven ter vervanging van het oude model tekst-davinci-003.
Volgens rapporten is gpt-3.5-turbo-instruct een model in InstructGPT-stijl en is de trainingsmethode vergelijkbaar met text-davinci-003.
De gebruiksmethode is vergelijkbaar met de vorige Prompt-Completion en wordt voltooid volgens de instructies van het promptwoord.
Qua prijs blijft gpt-3.5-turbo4K consistent.
Sommige internetgebruikers zijn al begonnen met het gebruik van het nieuwste model om te schaken met Elo rond 1800.
Hij ontdekte eerder dat GPT dit helemaal niet kon, maar nu lijkt het erop dat dit alleen een probleem is met het RLHF-chatmodel en dat het pure Completion-model succesvol is.
In het spel versloeg gpt-3.5-turbo-instruct gemakkelijk Stockfish level 4 (1700 punten) en raakte nog steeds niet achterop in level 5 (2000 punten).
Het maakt nooit een illegale zet, maakt gebruik van slimme openingsoffers en ongelooflijke pion- en koningschaakmatten, waardoor zijn tegenstanders zonder enige echte betekenis verder kunnen gaan.
Netizens gebruiken de volgende aanwijzingen in PGN-stijl om het masterspel te simuleren. De accentuering is een beetje verkeerd. GPT maakt zijn eigen zetten, en hij voert handmatig de zetten van Stockfish in.
Trouwens, de registratie is begonnen voor de eerste ontwikkelaarsconferentie van OpenAI die in november wordt gehouden, dus schiet op en solliciteer.