Microsoft brengt Phi-4 multimodale en Phi-4 mini-taal models

In december 2024 lanceerde Microsoft Phi-4, een klein taalmodel (SLM) met de meest geavanceerde prestaties in zijn klasse. Vandaag breidt Microsoft de Phi-4-serie uit met twee nieuwe modellen: Phi-4-multimodal en Phi-4-mini. Het nieuwe Phi-4 multimodale model ondersteunt spraak, zicht en tekst tegelijkertijd, terwijl Phi-4-mini zich richt op op tekst gebaseerde taken.

Phi-4-multimodal is een 5,6B-parametermodel en het eerste multimodale taalmodel van Microsoft dat spraak-, visie- en tekstverwerking integreert in een uniforme architectuur. Zoals blijkt uit de onderstaande tabel, behaalt Phi-4-multimodal betere prestaties in meerdere benchmarks vergeleken met andere bestaande, ultramoderne omnidirectionele modellen zoals Google's Gemini2.0Flash en Gemini2.0FlashLite.

Bij spraakgerelateerde taken presteert Phi-4-multimodal beter dan professionele spraakmodellen zoals WhisperV3 en SeamlessM4T-v2-Large in zowel automatische spraakherkenning (ASR) als spraakvertaling (ST). Het model stond bovenaan de HuggingFaceOpenASR-ranglijst met een verbazingwekkend woordfoutenpercentage van 6,14%.

Bij visiegerelateerde taken presteerde Phi-4-multimodal goed in wiskundig en wetenschappelijk redeneren. Dit nieuwe model is vergelijkbaar met of overtreft zelfs populaire modellen zoals Gemini-2-Flash-lite-preview en Claude-3.5-Sonnet in termen van algemene multimodale mogelijkheden zoals document- en diagrambegrip, OCR en visueel wetenschappelijk redeneren.

Phi-4-mini is een parametermodel van 3,8 miljard dat beter presteert dan verschillende populaire grootschalige LLM's op het gebied van op tekst gebaseerde taken, waaronder redeneren, wiskunde, coderen, het volgen van instructies en het aanroepen van functies.

Om de veiligheid van deze nieuwe modellen te garanderen, heeft Microsoft samengewerkt met interne en externe beveiligingsexperts om tests uit te voeren en strategieën toe te passen die zijn ontwikkeld door het Microsoft AI Red Team (AIRT). Zowel Phi-4-mini als Phi-4-multimodale modellen kunnen op het apparaat worden geïmplementeerd nadat ze verder zijn geoptimaliseerd met behulp van ONNX Runtime voor platformonafhankelijke bruikbaarheid, waardoor ze geschikt zijn voor goedkope toepassingsscenario's met lage latentie.

Zowel Phi-4-multimodale als Phi-4-mini-modellen zijn nu beschikbaar voor ontwikkelaars in AzureAIFoundry, HuggingFace en NVIDIAAPICatalog. Ontwikkelaars kunnen de technische documentatie raadplegen om het doel van het aanbevolen model en de beperkingen ervan te begrijpen.

Deze nieuwe Phi-4-modellen vertegenwoordigen een grote vooruitgang op het gebied van efficiënte kunstmatige intelligentie en bieden krachtige multimodale en op tekst gebaseerde mogelijkheden voor een verscheidenheid aan kunstmatige intelligentie-toepassingen.