Xiaomi lanceert drie zelf ontwikkelde grote modellen. Lei Jun zei dat het dit jaar meer dan 16 miljard zal investeren in het AI-veld

Op 19 maart kondigde Xiaomi de lancering aan van drie zelf ontwikkelde grote modellen, Xiaomi MiMo-V2-Pro, Xiaomi MiMo-V2-Omni en Xiaomi MiMo-V2-TTS. Er wordt gemeld dat MiMo-V2-Pro en MiMo-V2-Omni officieel API-services hebben geopend.

Volgens de officiële introductie van Xiaomi is MiMo-V2-Pro van de drie modellen de vlaggenschiptekstbasis, die is ontworpen voor agentwerkscenario's met hoge intensiteit en zich richt op redeneren, plannen en het aanroepen van tools. MiMo-V2-Omni is een volledig modale Agent-basis die op natuurlijke wijze tekst-, visuele en audioperceptie integreert om een volledige link te openen, van begrip tot uitvoering. MiMo-V2-TTS is een groot spraaksynthesemodel. Het doel is om agenten de mogelijkheid te geven warme en emotionele stemmen te uiten en zo de laatste schakel van de hele stapel te vormen.

Als vlaggenschipbasismodel is MiMo-V2-Pro speciaal geoptimaliseerd voor agentscenario's. Het voert begeleide verfijning en versterkend leren uit voor complexe en diverse agent-architecturen, beschikt over sterkere mogelijkheden voor het aanroepen van tools en meerstaps redeneren, en levert uiteindelijk resultaten op. Vanuit architectonisch oogpunt is de totale parametergrootte van het model groter dan 1 biljoen (1T), waarvan de activeringsparameters 42B zijn. Het maakt gebruik van een verbeterd hybride aandachtsmechanisme (Hybrid Attention), dat de modelcapaciteit aanzienlijk verbetert en tegelijkertijd de redeneerefficiëntie garandeert. Het contextvenster is verder uitgebreid tot 1 miljoen tokens, die ultralange taakketens en complexe workflows kunnen ondersteunen.

MiMo-V2-Omni en MiMo-V2-TTS, die gelijktijdig werden onthuld, voltooien de twee stukjes van de puzzel van perceptie en expressie. De kernwaarde van eerstgenoemde ligt in de afstemming van audio, afbeeldingen en video's. Deze laatste ondersteunt een motor voor emotionele expressie met fijnmazige controle, waardoor de expressiemogelijkheden van agenten dichter bij de mens staan.

Qua prijs is de API-prijs van MiMo-V2-Pro lager dan die van concurrerende producten van hetzelfde niveau. Binnen de context van 256K is de inputprijs per miljoen tokens US$1, en de output US$3; binnen het contextbereik van 1 miljoen is de input 2 dollar en de output 6 dollar. Momenteel heeft MiMo-V2-Pro officieel API-services geopend. MiMo-V2-Omni heeft ook zijn API geopend en ondersteunt een contextlengte van 256K. De inputprijs bedraagt 0,4 dollar per miljoen tokens en de outputprijs bedraagt 2 dollar.

API-servicelaadstandaarden voor MiMo-V2-Pro en Claude

Daarnaast heeft Xiaomi ook de krachten gebundeld met de vijf Agent-frameworkteams van OpenClaw, OpenCode, KiloCode, Blackbox en Cline om gedurende een week een beperkte tijd gratis interface-ondersteuning te bieden om de penetratie ervan in de ontwikkelaarsgemeenschap verder te bevorderen.

Dit wordt ook gezien als een belangrijk signaal dat Xiaomi volop inzet op het agententijdperk. Die ochtend vroeg Xiaomi-oprichter Lei Jun op sociale platforms: "Op het gebied van AI zullen onze R&D- en kapitaalinvesteringen dit jaar de 16 miljard yuan overschrijden."

Volgens Lei Jun staat MiMo-V2-Pro, een groot model met biljoenen parameters, op de achtste plaats in de wereld op de ranglijst van kunstmatige analyse van de mondiale uitgebreide intelligentie van grote modellen. Gerangschikt per groot modelmerk, staat het op de vijfde plaats in de wereld. “Ons model is zojuist voltooid en zal de komende tijd snel worden herhaald en verbeterd.”

Vermeldenswaard is dat Xiaomi's MiMo-grootmodelmanager Luo Fuli ook publiekelijk op sociale platforms heeft verklaard dat de eerder gelanceerde "Hunter Alpha" de interne testversie is van het vlaggenschipmodel MiMo-V2-Pro. Luo Fuli, geboren in 1995, wordt door de industrie een ‘AI-getalenteerde vrouw’ genoemd.

Op 11 maart werd het mysterieuze model met de codenaam ‘Hunter Alpha’ gelanceerd op OpenRouter, ‘s werelds grootste API-aggregatieplatform. Er wordt gemeld dat het cumulatieve aantal oproepen naar dit model in slechts zeven dagen meer dan 1 biljoen tokens bedroeg, en dat het vele dagen achtereen bovenaan de lijst stond, wat verhitte discussies veroorzaakte en ooit werd aangezien voor een vroege versie van "DeepSeek V4". .

Toevallig werkte Luo Fuli ooit bij DeepSeek. Ze begon haar carrière bij de Alibaba Damo Academy, waar ze leiding gaf aan de ontwikkeling van het meertalige pre-trainingsmodel VECO en het open source werk van AliceMind promootte. In 2022 trad Luo Fuli toe tot DeepSeek's moederbedrijf Huanquan Quantitative om zich bezig te houden met diepgaand leergerelateerd werk. Later diende ze als deep learning-onderzoeker bij DeepSeek en nam ze deel aan de ontwikkeling van DeepSeek-V2 en andere modellen.

In december vorig jaar maakte Luo Fuli haar eerste publieke optreden op Xiaomi's partnerconferentie "People, Cars, and Homes Ecosystem".

Op 17 december kondigde Xiaomi Group-partner en groepsvoorzitter Lu Weibing aan dat Xiaomi's zelfontwikkelde grote AI-model Xiaomi MiMo-V2-Flash officieel open source was en gelanceerd. Lu Weibing onthulde destijds dat Xiaomi "drukinvesteringen" had gelanceerd op het gebied van AI, en dat de vooruitgang van grote modellen en toepassingen "de verwachtingen ver overtrof". In de toekomst zal het zich concentreren op de kernrichting van ‘de diepe integratie van AI en de fysieke wereld’.