Als het gaat om grote taalmodellen (LLM's), is schaal zeker van belang, omdat deze van invloed is op de plaats waar het model wordt uitgevoerd. StabilityAI, een fabrikant die bekend staat om zijn kunstmatige intelligentie-technologie voor het genereren van tekst-naar-beeld-generatie, heeft vandaag een van zijn kleinste modellen tot nu toe uitgebracht: StableLM21.6B.
StableLM is een LLM voor het genereren van tekstinhoud die Stable AI voor het eerst lanceerde in april 2023 met 3 miljard en 7 miljard parametermodellen. Het nieuwe StableLM-model is feitelijk het tweede model dat StabilityAI in 2024 uitbrengt, nadat het bedrijf eerder deze week StableCode3B uitbracht.
Het nieuwe StableLM-model is compact en krachtig, ontworpen om de toetredingsdrempel voor meer ontwikkelaars te verlagen om deel te nemen aan het generatieve AI-ecosysteem en om meertalige gegevens in zeven talen te integreren: Engels, Spaans, Duits, Italiaans, Frans, Portugees en Nederlands. Het model maakt gebruik van de nieuwste algoritmische ontwikkelingen op het gebied van taalmodellering om de beste balans tussen snelheid en prestaties te bereiken die StabilityAI wenst.
Carlos Riquelme, hoofd van het taalteam bij StabilityAI, vertelde VentureBeat: "Over het algemeen presteren grotere modellen die zijn getraind met vergelijkbare trainingsrecepten op vergelijkbare gegevens doorgaans beter dan kleinere modellen. Naarmate nieuwe modellen echter in staat zijn om betere algoritmen te implementeren en te trainen op meer gegevens van hogere kwaliteit, zien we soms dat recente kleinere modellen beter presteren dan oudere, grotere modellen."
Volgens StabilityAI presteert het model beter dan andere kleine taalmodellen met parameters onder de 2 miljard op de meeste benchmarks, waaronder Microsoft's Phi-2 (2,7 miljard), TinyLlama1.1B en Falcon1B. De nieuwe, kleinere StableLM kan zelfs beter presteren dan sommige van de grotere modellen, waaronder het eerdere StableLM3B-model van StabilityAI.
Riquelme zei: "StableLM21.6B. Presteert beter dan sommige van de grotere modellen die een paar maanden geleden zijn getraind. Denk aan vergelijkbare trends in computers, televisies of microchips, waar ze in de loop van de tijd kleiner, dunner en beter worden."
Voor alle duidelijkheid: de kleinere StableLM21.6B heeft vanwege zijn kleine formaat enkele nadelen. Vanwege de aard van kleine taalmodellen met een lage capaciteit kan StableLM21.6B ook enkele veelvoorkomende problemen vertonen, zoals hoge hallucinaties of mogelijk giftig taalgebruik.
De afgelopen maanden heeft StabilityAI gewerkt aan kleinere en krachtigere LLM-opties. In december 2023 werd het StableLMZephyr3B-model uitgebracht, dat kleiner van formaat maar krachtiger is dan het oorspronkelijke model dat in april werd uitgebracht.
Het nieuwe StableLM2-model is getraind op meer gegevens, waaronder meertalige documenten in 6 talen (Spaans, Duits, Italiaans, Frans, Portugees en Nederlands) naast Engels. Een ander interessant aspect dat door Riquelme wordt benadrukt, is de volgorde waarin gegevens tijdens de training aan het model worden gepresenteerd. Hij wijst erop dat het lonend kan zijn om je te concentreren op verschillende soorten gegevens in verschillende trainingsfasen.
Om nog een stap verder te gaan, biedt StabilityAI nieuwe modellen met pretraining- en fine-tuningopties, evenals een format dat de onderzoekers '...laatste modelcontrolepunt vóór pretraining-cooldown' noemen.
"Ons doel is om individuele ontwikkelaars te voorzien van meer tools en artefacten om te innoveren, aan te passen en voort te bouwen op bestaande modellen. Hier bieden we een concreet, halfafgewerkt model dat mensen kunnen gebruiken", aldus Riquelme.
Tijdens het trainingsproces wordt het model sequentieel bijgewerkt en verbeteren de prestaties ervan. In dit geval weet het eerste model niets, terwijl het laatste model de meeste gegevens heeft verbruikt en naar verwachting deze zal leren. Tegelijkertijd kunnen modellen tegen het einde van de training minder flexibel worden, omdat ze gedwongen worden het leren te beëindigen.
"We hebben besloten om het model in zijn huidige vorm beschikbaar te stellen voordat we aan de laatste fase van de training beginnen, zodat het - hopelijk - gemakkelijker zou zijn om het te specialiseren voor andere taken of datasets die mensen misschien willen gebruiken", zei hij. "We weten niet zeker of dit goed zal werken, maar we geloven echt in het vermogen van mensen om nieuwe tools en modellen op verbazingwekkende manieren te benutten."