Google brengt Gemini 3.1 Flash-Lite uit, gericht op "snelle en economische" prestaties, en verplettert 2.5 Flash

Google heeft vandaag Gemini 3.1 Flash-Lite officieel gelanceerd en beweert dat dit het snelste en meest kosteneffectieve model in de Gemini 3-serie is. Er werd ook gezegd dat 3.1 Flash-Lite is ontworpen voor de grootschalige werklasten met hoge doorvoer van ontwikkelaars en een extreem hoge kwaliteit vertoont in zijn prijsklasse en modelniveau.

Vanaf vandaag zal 3.1 Flash-Lite beschikbaar zijn als preview voor ontwikkelaars via de Gemini-interface in Google AI Studio, en voor zakelijke gebruikers via Vertex AI.

3.1 Flash-Lite kost US$0,25 per miljoen inputtokens (Inputtokens) en US$1,50 per miljoen outputtokens (Outputtokens). Volgens de benchmarktest van Artificial Analysis presteert 3.1 Flash-Lite beter dan 2.5 Flash met behoud van dezelfde of hogere kwaliteit. De reactiesnelheid op het eerste woord (Time to First Answer Token) is 2,5 keer toegenomen en de uitvoersnelheid is ook met 45% toegenomen. Google zegt dat deze functie met lage latentie een must-have is voor hoogfrequente workflows, waardoor het een ideaal model is voor ontwikkelaars om responsieve, realtime ervaringen te bouwen.

3.1 Flash-Lite scoorde 1432 punten op het Arena.ai-klassement. In verschillende benchmarktests van redeneren en multimodaal begrip overtreffen de prestaties andere modellen van hetzelfde niveau. Het behaalde bijvoorbeeld een score van 86,9% op de GPQA Diamond-test en 76,8% op de MMMU Pro-test. Deze prestaties overtreffen zelfs eerdere generaties grotere modellen, zoals de 2.5 Flash.

Naast native prestaties wordt Gemini 3.1 Flash-Lite ook standaard geleverd met "Thinking Level"-functionaliteit in AI Studio en Vertex AI. Dit geeft ontwikkelaars de flexibiliteit om te bepalen hoe diep hun modellen ‘denken’ voor specifieke taken, wat van cruciaal belang is voor het beheren van hoogfrequente werklasten. 3.1 Flash-Lite is in staat grootschalige taken uit te voeren, zoals kostengevoelige vertalingen van grote volumes en moderatie van inhoud. Tegelijkertijd is het ook in staat complexe taken uit te voeren waarvoor diepgaande redenering vereist is, zoals het genereren van gebruikersinterfaces en dashboards, het creëren van simulatieomgevingen en het volgen van complexe instructies.

Google zei dat early access-ontwikkelaars van AI Studio en Vertex AI, evenals bedrijven als Latitude, Cartwheel en Whering, 3.1 Flash-Lite al gebruiken om complexe problemen op schaal op te lossen. Vroege testers benadrukten de efficiëntie en gevolgtrekkingsmogelijkheden van 3.1 Flash-Lite. Ze zeiden dat het model complexe invoer kan verwerken met de nauwkeurigheid van grootschalige modellen, instructies strikt kan volgen en een hoge mate van consistentie kan behouden.