OpenAI brengt een nieuw open gewichtsmodel uit om AI security

OpenAI heeft vandaag de lancering aangekondigd van twee nieuwe open gewichtsmodellen voor het AI-beveiligingsveld: gpt-oss-safeguard-120b en gpt-oss-safeguard-20b. Deze beveiligingsclassificatiemodellen zijn geoptimaliseerd op basis van de eerder uitgebrachte gpt-oss-serie open modellen en zijn ook open onder de Apache 2.0-licentie, waardoor iedereen ze vrijelijk kan gebruiken, wijzigen en inzetten.

Het grootste kenmerk van het nieuwe model is dat het ontwikkelaars de mogelijkheid biedt om rechtstreeks gevolgtrekkingen en classificaties uit te voeren op basis van aangepast beveiligingsbeleid, waarbij het 'one-size-fits-all' beveiligingssysteem wordt verlaten. Ontwikkelaars kunnen hun eigen beveiligingsbeleid en inhoud invoeren die tijdens de gevolgtrekking moet worden gedetecteerd, en het model zal classificeren op basis van het beleid en redeneringen geven. Beleid kan worden gewijzigd naarmate het wordt gebruikt en kan flexibel worden aangepast om de prestaties te verbeteren. gpt-oss-safeguard kan gebruikersberichten, chatantwoorden en zelfs volledige gesprekken classificeren.

OpenAI wijst erop dat dit nieuwe type model met name geschikt is voor de volgende situaties:

Potentiële gevaren ontstaan of evolueren, en het beleid moet zich snel aanpassen;
Sommige gebieden zijn zeer gedetailleerd en moeilijk te hanteren voor traditionele kleine classificatoren;
Ontwikkelaars beschikken niet over een groot aantal monsters van hoge kwaliteit en hebben moeite met het trainen van classificaties op hoog niveau voor verschillende risico's op het platform;
De kwaliteit en interpreteerbaarheid van classificatieresultaten krijgen prioriteit boven vertraagde prestaties.

Opgemerkt moet worden dat gpt-oss-safeguard ook bepaalde beperkingen heeft. OpenAI stelde dat als het platform een groot aantal gelabelde samples heeft en traditionele classifiers kan trainen, deze laatste nog steeds beter kunnen zijn dan gpt-oss-safeguard in complexe of risicovolle scenario's, en dat het aangepaste model nauwkeuriger zal zijn. Bovendien heeft dit nieuwe model een lage verwerkingssnelheid en een groot verbruik van hulpbronnen, waardoor het ongeschikt is voor grootschalige real-time screening van inhoud.

Momenteel zijn gpt-oss-safeguard-120b en gpt-oss-safeguard-20b beschikbaar als gratis download:

https://huggingface.co/collections/openai/gpt-oss-safeguard