Google brengt een open source Gemma 4 versie 12B multimodaal model uit dat kan draaien op 16 GB geheugen/video memory

Google heeft onlangs het multimodale model Gemma 4 12B-versie uitgebracht en open source beschikbaar gesteld. Het ontwikkelingsdoel van dit model is om apparaten van consumentenkwaliteit in staat te stellen AI-modellen lokaal te laten draaien. Volgens de tests van Google kan het model draaien op laptops en desktops met 16 GB geheugen/videogeheugen, dankzij de kleinschalige parameters van 12B, maar het model is net zo intelligent als het Gemma 26B-versiemodel.

Modelvoordelen zijn onder meer:

Nieuwe uniforme architectuur: geen behoefte aan multimodale encoders, directe ondersteuning voor tekst-, beeld-, video- en audio-invoer.
Geavanceerde inferentiemogelijkheden: Benchmarkprestaties liggen dicht bij het hybride expertarchitectuurmodel van Gemma versie 26B, dat lokaal inferentie in meerdere stappen kan bieden.
Lage geheugenvereisten: er is slechts 16 GB geheugen of videogeheugen vereist om lokaal te werken, hoewel meer geheugen voor betere prestaties zorgt.
Model open source-release: het model wordt uitgebracht onder de Apache 2.0-licentie en Google en de community bieden ook volledige ondersteuning voor het ecosysteem van ontwikkelaars.
Voorspellende selector: de Gemma 4 12B-versie is uitgerust met een verscheidenheid aan voorspellende Token-selectors, die vertragingen effectief kunnen verminderen.

Meer over het model:

De intelligentie van Gemma 4 12B in de annotatiebenchmarktest ligt dicht bij het 26B MoE hybride architectuurmodel dat eerder door Google als open source werd uitgebracht. De 12B-versie heeft echter zeer lage geheugenvereisten en kan rechtstreeks worden uitgevoerd op laptops en desktops van consumentenkwaliteit die zijn uitgerust met 16 GB geheugen of videogeheugen, waardoor gebruikers lokaal krachtige multimodale en intelligente interactie-ervaringen kunnen ervaren.

Tot de opvallende voordelen van dit model behoort ook de vereenvoudiging van de verwerking van beeld-, video- en audio-invoer. Traditionele multimodale modellen vertrouwen meestal op onafhankelijke encoders om afbeeldingen en audio te converteren, en vervolgens de geconverteerde representatie door te geven aan het taalmodel. Omdat deze afzonderlijke encoders de latentie en het geheugengebruik zullen vergroten, gebruikt Google een architectuur zonder encoder om het Gemma 4 12B-model te trainen, zodat het model audio- en visuele invoer rechtstreeks kan integreren.

Visie: Gebruik een lichtgewicht inbeddingsmodule om de Gemma 4 visuele encoder te vervangen. Deze module bevat slechts 1 matrixvermenigvuldiging, positie-inbedding en normalisatiebewerkingen, waardoor het model-backbone-netwerk de visuele verwerking direct kan overnemen.

Audio: Google heeft de audio-encoder volledig verwijderd en het onbewerkte audiosignaal in dezelfde dimensionale ruimte geprojecteerd als de tekstopmaak.

Probeer het model te downloaden:

Momenteel is de Gemma 4 12B-versie op meerdere platforms beschikbaar. Geïnteresseerde ontwikkelaars kunnen het rechtstreeks in Ollama enz. ervaren, of naar HuggingFace of Kaggle gaan om het modelgewichtbestand te downloaden. Ontwikkelaars kunnen Unsloth ook gebruiken voor efficiënte afstemming om de versie die ze nodig hebben aan te passen.

Ollama: https://ollama.com/library/gemma4

HuggingFace: https://huggingface.co/collections/google/gemma-4

Unsloth: https://unsloth.ai/docs/models/gemma-4