Microsoft brengt Fara-7B uit, die rechtstreeks op pc kan worden uitgevoerd en prestaties levert die vergelijkbaar zijn met GPT-4o

Op 24 november kondigde Microsoft de lancering aan van het 7B-parameter AI-model Fara-7B, gepositioneerd als een "Computer Use Agent (CUA)" die complexe taken rechtstreeks op het lokale apparaat van de gebruiker kan uitvoeren. Fara-7B behaalt niet alleen de beste prestaties op dezelfde schaal, maar zorgt er ook voor dat AI-agenten niet meer hoeven te vertrouwen op enorme cloudmodellen, waardoor lage latentie en sterkere garanties voor gegevensprivacy worden bereikt op systemen met beperkte middelen.

Volgens rapporten komt de architectuur van Fara-7B direct tegemoet aan de gegevensbeveiligingsbehoeften waar zakelijke gebruikers zich het meest zorgen over maken. Omdat het model voldoende gestroomlijnd is om lokaal te draaien, kunnen gebruikers gevoelige workflows (zoals intern accountbeheer of verwerking van vertrouwelijke gegevens) automatiseren zonder dat de relevante informatie ooit het lokale apparaat verlaat, waardoor de privacy en compliance aanzienlijk worden verbeterd.

Fara-7B communiceert met webpagina's via "schermweergavebewerkingen". Het maakt gebruik van schermafbeeldingen om de pagina-indeling "visueel waar te nemen", zoals mensen dat doen, en voorspelt de coördinaten voor het voltooien van klikken, invoer, scrollen en andere acties, en is niet afhankelijk van de onderliggende toegankelijkheidsboomstructuur van de browser. Deze methode waarbij uitsluitend gebruik wordt gemaakt van visuele informatie op pixelniveau zorgt ervoor dat deze correct werkt op websites met verwarrende codestructuren en pagina's die moeilijk te ontleden zijn.

Yash Lara, senior productmanager bij Microsoft Research, zei dat het volledig lokaal verwerken van visuele input echte ‘pixelsoevereiniteit’ bereikt, waardoor automatiserings- en dataredeneringsprocessen lokaal kunnen blijven en zo wordt voldaan aan de nalevingsbehoeften van sterk gereguleerde industrieën zoals de medische en financiële sector.

In standaardtests zoals WebVoyager bedraagt het succespercentage van Fara-7B 73,5%, wat beter is dan modellen zoals GPT-4o (65,1%) en UI-TARS-1.5-7B (66,4%), die meer bronnen verbruiken. Tegelijkertijd heeft Fara-7B gemiddeld slechts 16 stappen nodig om de taak te voltooien, terwijl UI-TARS-1.5-7B 41 stappen neemt, wat de efficiëntie aanzienlijk verbetert. Bovendien toont Fara-7B de beste prijs-prestatieverhouding tussen nauwkeurigheid en kosten.

Microsoft benadrukte echter ook dat dit model nog steeds problemen kent met algemene AI-systemen, zoals hallucinaties en fouten bij het verwerken van complexe instructies. Om de risico's te verminderen introduceert Fara-7B een 'belangrijk punt'-mechanisme: voordat persoonlijke gegevens van gebruikers of onomkeerbare acties (zoals het verzenden van e-mails of financiële transacties) worden betrokken, zal het model actief pauzeren en om bevestiging van de gebruiker vragen. Microsoft heeft een ondersteunende gebruikersinterface voor mens-computerinteractie (Magenic-UI) ontworpen, zodat gebruikers op tijd kunnen ingrijpen en overmatige onderbrekingen kunnen voorkomen.

Fara-7B is ontwikkeld met behulp van een ‘kennisdestillatie’-aanpak om een groot aantal succesvolle gevallen van multi-agentsystemen (145.000 autonome navigatietrajecten gegenereerd door Magentic-One) te comprimeren en te transformeren in één enkel model. Het basismodel is Qwen2.5-VL-7B, dat een contextvenster van maximaal 128.000 woorden en krachtige mogelijkheden voor het uitlijnen van tekst en visuele elementen heeft. Het hele proces is gericht op verfijnde afstemming onder toezicht, waardoor het model de demonstraties van menselijke experts kan 'imiteren'.

Voor de toekomst benadrukt Microsoft dat het de omvang van het model niet blindelings zal vergroten, maar zich zal richten op het 'slimmer en veiliger maken van kleine modellen'. Het vervolgplan is om het versterkende leermechanisme (RL) in de synthetische omgeving in de training te introduceren, waardoor Fara-7B autonoom kan leren in de sandbox-omgeving.

Momenteel is Fara-7B uitgebracht op Hugging Face- en Microsoft Foundry-platforms via het MIT-protocol, waardoor commercieel gebruik mogelijk is. Microsoft herinnert er echter aan dat het model nog niet het productieniveau heeft bereikt en vooral geschikt is voor het ontwikkelen en testen van prototypes.