Huazhong University of Science and Technology heeft officieel een verklaring afgegeven waarin staat dat een team van de Software School van de school het multimodale grote model “Monkey” heeft uitgebracht.Dit model is goed in beeldbeschrijving en visuele vraag en antwoord, en kan "observatie" van de wereld realiseren, diepgaande vraag- en antwoordcommunicatie voeren en afbeeldingen nauwkeurig beschrijven.
Volgens de officiële introductie presteerde vooral het Huake University Monkey-model bij experimenten met 18 datasets goedIn termen van beeldbeschrijving en visuele vraag- en antwoordtaken heeft het veel bestaande bekende modellen overtroffen, zoals Microsoft's LLAVA, Google's PALM-E, Alibaba's Mplug-owl, enz.
Ook,Monkey vertoont aanzienlijke voordelen bij tekstintensieve vraag- en antwoordtaken en overtreft op sommige voorbeelden zelfs de in de branche erkende leider GPT-4V.
Een onderscheidend kenmerk van Monkey is het uitstekende vermogen om "te praten door naar afbeeldingen te kijken". In de gedetailleerde beschrijvingstaak demonstreerde Monkey zijn vermogen om beelddetails waar te nemen en kon hij inhoud detecteren die andere grote multimodale modellen negeerden.
Een ander hoogtepunt is de mogelijkheid om afbeeldingen te verwerken met resoluties tot 1344x896 pixels, wat zes keer de maximale grootte is die andere multimodale grote modellen momenteel aankunnen.
Naar verluidt is de maximale resolutie van afbeeldingen die momenteel door de industrie worden verwerkt 448×448 pixels.
Vermeldenswaard is dat het team de Monkey-code open source heeft gemaakt op GitHub, 's werelds grootste codehostingserviceplatform.