De eerste open source-release van DeepSeek: Collection meer dan 5.000 keer binnen 6 uur, goed voor binnenlandse GPU's?

Op 24 februari vorige week kondigde DeepSeek aan dat deze week de Open Source Week zou zijn en dat het vijf softwarebibliotheken op rij zou openen. Omstreeks 09.30 uur vandaag maakte DeepSeek bekend dat het de eerste codebibliotheek van deze open source-week open source heeft gemaakt: FlashMLA, een efficiënte MLA-decoderingskern die is geoptimaliseerd voor Hopper GPU.

Op GitHub heeft het project meer dan 5.000 Star-collecties en 188 Forks (kopieën gemaakt) ontvangen, 6 uur nadat het open source was geworden. Na gehoord te hebben over de open source FlashMLA van DeepSeek en de snelle groei van Star Collection- en Fork-gegevens, zei de CTO van een in Hong Kong genoteerd bedrijf in communicatie met Sina Technology: "Het is te krachtig."

Een andere investeerder die zich richt op AI-hardwareonderzoek en -investeringen vertelde Sina Technology na het bekijken van FlashMLA dat deze open source een groot voordeel is voor binnenlandse GPU's. "De vorige binnenlandse GPU-kaarten waren erg zwak. Nu kunnen we de optimalisatie-ideeën en -methodologieën van FlashMLA gebruiken om te proberen de prestaties van binnenlandse kaarten aanzienlijk te verbeteren. Zelfs als de architectuur anders is, zal het vanzelfsprekend zijn dat de gevolgtrekkingsprestaties van binnenlandse kaarten later worden verbeterd."

Volgens de officiële introductie van DeepSeek is FlashMLA gebaseerd op de effectieve MLA-decoderingskernel van HopperGPU's en kan worden geoptimaliseerd voor sequenties van variabele lengte.

In het hele technische traject van DeepSeek is MLA (Multiple Latent Attention Mechanism) een van de meest kerntechnologieën in de V2- en V3-modellen die het bedrijf heeft uitgebracht. Het wordt gebruikt om prestatieknelpunten op het gebied van computerefficiëntie en geheugengebruik op te lossen, wat de modeltraining en de inferentie-efficiëntie aanzienlijk kan verbeteren, terwijl de modelprestaties behouden of zelfs verbeterd worden.

Eerder zei Zheng Weimin, academicus van de Chinese Academy of Engineering en professor aan de afdeling Computerwetenschappen aan de Tsinghua Universiteit, in een communicatie met Sina Technology: "De zelfontwikkelde MLA-architectuur van DeepSeek heeft een sleutelrol gespeeld bij het verlagen van de eigen modeltrainingskosten." Hij legde uit: "MLA comprimeert KV door de aandachtsoperator te transformeren. Cachegrootte maakt het mogelijk meer KVCache op te slaan met dezelfde capaciteit. Deze architectuur, gecombineerd met de transformatie van de FFN-laag in het DeepSeek-V3-model, zorgt voor een zeer grote schaarse MoE-laag, wat de meest kritische reden wordt voor de lage trainingskosten van DeepSeek."

Deze keer opent DeepSeek direct de MLA-decoderingskern - FlashMLA, wat betekent dat DeepSeek de onderliggende MLA-kerncode direct gratis opent. Hierdoor kan het merendeel van de ontwikkelingsgroepen de FlashMLA-codebasis direct hergebruiken om dezelfde taak uit te voeren met minder GPU-servers, waardoor de kosten van gevolgtrekking direct worden verlaagd. Dit is ongetwijfeld een groot voordeel voor meer groepen die onderliggende optimalisatie en AI-applicatie-ontwikkeling willen uitvoeren op basis van de open source-mogelijkheden van DeepSeek.

Interessant is dat de MLA-decoderingskern die DeepSeek deze keer opent voornamelijk is geoptimaliseerd voor Hopper GPU. Over het algemeen verwijst Hopper GPU naar de GPU-producten uit de H-serie die zijn ontwikkeld op basis van NVIDIA's Hopper-architectuur. Momenteel heeft NVIDIA een aantal chips in deze serie chips uitgebracht, zoals H100, H800 en H20.

Volgens DeepSeek kan FlashMLA, in termen van benchmarkprestaties, een geheugensnelheid van 3000 GB/s en een rekenbovengrens van 580 TFLOPS bereiken op de NVIDIA H800SXM5 GPU.

Uit openbare informatie blijkt dat volgens de Amerikaanse exportcontroleregels de bandbreedtelimiet van de H800 is ingesteld op 600 GB/s, wat lager is dan die van sommige vlaggenschipproducten. Dit betekent dat na optimalisatie met FlashMLA het gebruik van de geheugenbandbreedte van de H800 naar verwachting verder zal worden verbeterd of zelfs de theoretische bovengrens van de H800 GPU zal overschrijden, waardoor de ultieme geheugentoegang wordt bereikt, waardoor de ontwikkelingsgemeenschap de mogelijkheden van NVIDIA H-serie chips volledig kan "knijpen", sterkere modelprestaties kan bereiken met minder chips en de waarde van de GPU kan maximaliseren.

Een investeerder die zich richt op AI-hardwareonderzoek en -investeringen zei na het bekijken van FlashMLA: "FlashMLA is een optimalisatieoplossing die LLM sneller en efficiënter kan laten werken op de H800. Het is vooral geschikt voor AI-taken met hoge prestaties. De kern is het versnellen van het decoderingsproces van grote taalmodellen en het verbeteren van de reactiesnelheid en doorvoer van het model. Dit is erg belangrijk voor real-time generatietaken (zoals chatbots, enz.). Het zal de mogelijkheden en gebruikerservaring van grote modellen aanzienlijk bevorderen, en de snelheid zal aanzienlijk verbeterd."

Hoewel FlashMLA een geoptimaliseerde codebibliotheek is voor HopperGPU, is deze open source ook nuttig voor binnenlandse GPU's. Na FlashMLA te hebben bekeken, zeiden de bovengenoemde investeerders dat deze open source voor binnenlandse GPU's een groot voordeel is. "De vorige binnenlandse GPU-kaarten waren erg zwak. Nu kunnen we de optimalisatie-ideeën en -methodologieën van FlashMLA gebruiken om te proberen de prestaties van binnenlandse kaarten aanzienlijk te verbeteren. Zelfs als de architectuur anders is, zal het vanzelfsprekend zijn dat de gevolgtrekkingsprestaties van binnenlandse kaarten later worden verbeterd."