Nadat Tesla-CEO Elon Musk publiekelijk de nieuwste onderzoeksresultaten van het Chinese AI-bedrijf Kimi had geprezen, reageerde Kimi's officiële account vandaag op humoristische toon: "Je raket is ook niet slecht!"Onlangs heeft het Kimi-team een ​​technisch rapport uitgebracht, waarin een nieuw Attention Residuals-mechanisme wordt voorgesteld om een ​​ontwrichtende reconstructie te bewerkstelligen van de traditionele residuele verbinding die al bijna tien jaar op het gebied van deep learning wordt gebruikt en snel wereldwijde aandacht kreeg.

Traditionele restverbindingen gebruiken "vaste gelijke gewichtsaccumulatie" om informatie te verzenden. Het vergroten van het aantal lagen kan gemakkelijk leiden tot verwatering van oppervlakkige informatie, lage trainingsefficiëntie en slechte stabiliteit.

De innovatie van Kimi staat gelijk aan het installeren van een ‘intelligent filter’ op AI, waarbij het Transformer-aandachtsmechanisme wordt gemigreerd naar de dieptedimensie van het model, waardoor elke laag eerder nuttige informatie dynamisch kan screenen, redundantie kan verminderen en de transmissie-efficiëntie kan verbeteren.

Om geheugenoverbelasting te voorkomen, ontwierp het team de strategie 'aandachtsresidu blokkeren'. Nadat het model in blokken is verdeeld, blijft de traditionele accumulatie in de blokken behouden om stabiliteit te garanderen.Tussen blokken wordt dynamische weging gebruikt en de inferentievertraging neemt slechts met minder dan 2% toe, waardoor een evenwicht tussen prestaties en efficiëntie wordt bereikt.

Uit werkelijke metingen blijkt dat de trainingsefficiëntie van het 48B-parametermodel met 1,25 keer is toegenomen, en dat de scores voor wetenschappelijk redeneren en het beantwoorden van wiskundige vragen met respectievelijk 7,5% en 3,6% zijn verhoogd, waardoor het onevenwichtsprobleem van traditionele modeltraining effectief wordt opgelost.

Musk, die bekend staat als kieskeurig, stuurde het onderzoek door en merkte op dat "Kimi's werk indrukwekkend is." Zijn xAI bevindt zich in het proces van herstructurering, en deze erkenning toont het technische gewicht ervan.

Daarnaast schreef Jerry Tworek, voormalig vice-president onderzoek bij OpenAI, bekend als de ‘Vader van Inference Models’: ‘Deep Learning 2.0 komt eraan.’