Na slechts één jaar in de industrie loste een 17-jarige middelbare scholier in Shenzhen het onderliggende probleem van AI op en werd geprezen door Musk

Op de avond van 16 maart sprak Tesla-CEO Musk zich publiekelijk uit op sociale platforms, prees de nieuwste technologische prestaties van het team van het Chinese kunstmatige intelligentiebedrijf Kimi, zei dat het werk “indrukwekkend” was en bracht het baanbrekende onderzoek naar dit in eigen land geproduceerde grote model onder de publieke aandacht.

Toen de technische artikelen tegelijkertijd werden vrijgegeven, trok Guangyu Chen, die op de eerste plaats stond in de auteurslijst, de aandacht van het hele internet - de kernauteur was eigenlijk een 17-jarige middelbare scholier uit Shenzhen, Guangdong.

Volgens de informatie in de bijlage van het artikel zijn Chen Guangyu, Zhang Yu en Su Jianlin allemaal co-eerste auteurs met gelijke bijdragen, en de overige 34 deelnemende auteurs hebben deze kwalificatie niet gemarkeerd.

Onder hen is Zhang Yu de belangrijkste ontwikkelaar van Kimi's efficiënte modelarchitectuur, en Su Jianlin is de initiatiefnemer van rotatiepositiecodering (RoPE).

Het is vermeldenswaard dat Chen Guangyu nog maar een jaar intensief betrokken is op het gebied van AI. In de beginfase verwierf hij snel de basiskennis en praktische vaardigheden van AI door zelfstandig de allernieuwste artikelen te bestuderen en open source-projecten van GitHub te volgen.

Afgelopen zomer ging hij naar San Francisco om een stage van zeven weken af te ronden. Na zijn terugkeer naar China sloot hij zich in november vorig jaar aan bij het Kimi-team om deel te nemen aan de stage.

Nadat het artikel was gepubliceerd, plaatste Chen Guangyu een recensie van de resultaten in zijn vriendenkring, waarbij hij specifiek de drie auteurs vermeldde die een gelijke bijdrage leverden, evenals de teamcollega's die verantwoordelijk waren voor modeluitbreiding en infrastructuurconstructie. Hij antwoordde op een rustige manier: 'Het is een teamprestatie, geen god.'

Volgens rapporten stelt dit technische rapport, uitgegeven door het Kimi-team, een nieuw Attention Residuals-mechanisme voor om een ontwrichtende reconstructie te bereiken van de traditionele residuele verbinding die al bijna tien jaar op het gebied van deep learning wordt gebruikt.

Kimi's innovatie komt overeen met het installeren van een 'intelligent filter' op AI, waarbij het Transformer-aandachtsmechanisme wordt gemigreerd naar de dieptedimensie van het model, waardoor elke laag eerder nuttige informatie dynamisch kan filteren, redundantie kan verminderen en de transmissie-efficiëntie kan verbeteren.