Er zijn nog maar een paar dagen tot eind april en de release van het grote DeepSeek V4-model heeft de harten van mensen geraakt. Gisteren hebben de onderzoekers van het bedrijf plotseling de DeepGEMM-operatorbibliotheek bijgewerkt, die wordt beschouwd als een voorloper van de release van V4. Ze anticipeerden echter duidelijk op de reactie van de buitenwereld en voegden na de update een aanvullende uitleg toe:Er wordt benadrukt dat deze update alleen betrekking heeft op de ontwikkeling van DeepGEMM en niets te maken heeft met de interne modelrelease.Dat wil zeggen: denk er niet te veel over na, dit betekent niet dat V4 uitkomt.

Hoe vaker deze verklaring wordt afgelegd, hoe meer mensen geïnteresseerd zijn in DeepSeek V4, omdat er veel hoogtepunten zijn in deze golf van DeepGEMM-updates, en deze kan niet gerelateerd zijn aan het grote V4-model.

Naast de ondersteuning van de hybride FP8_FP4-operator en het optimaliseren van de ondersteuning voor NVIDIA Blackwell, omvat deze update voornamelijk Mega MoE en HyperConnection. Mega MoE kan een belangrijke upgrade betekenen voor de MoE-architectuur.

Mega MoE heeft veel voordelen en er zijn veel verklaringen op internet te vinden.De analyse van Gemini suggereert dat het aantal geactiveerde experts in V4 aanzienlijk hoger zal zijn dan de 256 in V3, en mogelijk zelfs duizenden.Dit zal uiteraard de prestaties van V4 aanzienlijk verbeteren, terwijl de flexibiliteit behouden blijft en er geen overdreven eisen worden gesteld aan de rekenkracht en het videogeheugen.

Belangrijker nog is dat deze update van DeepGEMM ook verwijst naar de parameterwaarde van het grote V4-model. Netizens zeiden dat de enkellaagse MoE ongeveer 25,37 miljard bedraagt.Als het nog steeds 60 lagen zijn, dan zal V4 hoogstwaarschijnlijk een 1,6T groot model zijn, of in het slechtste geval een 48-laags 1,25T groot model.

Vergeleken met eerdere geruchten dat V4 1T biljoen parameters heeft, betekent 1,6T parameters dat deze 60% hoger is dan eerdere verwachtingen, dus de prestaties zijn zeer de moeite waard om naar uit te kijken.

Als 1,6T niet wordt gerealiseerd, wordt het parametervolume van 1,25T verdubbeld ten opzichte van de 670 miljard parameters van de huidige V3. Wij kunnen nog steeds uitkijken naar het optreden. Als Mega MoE-technologie duizenden experts opnieuw kan activeren, zal het immers zeker een transformatie en een mijlpaal zijn in de ontwikkeling van grote modellen van MoE-architectuur.