Het SuperCLUE-team heeft de evaluatieresultaten vrijgegeven van het Chinese grote model uit de DeepSeek V4-serie. DeepSeek-V4-Pro staat op de eerste plaats in het land vanwege zijn uitgebreide prestaties., de Flash-versie volgde op de voet op de tweede plaats, en het binnenlandse open source-model beleeft opnieuw een doorbraak. Deze evaluatie omvat zes dimensies: wiskundig redeneren, wetenschappelijk redeneren, codegeneratie, taakplanning van agenten, het volgen van instructies en illusiecontrole. De Pro-versie scoorde 70,98 punten en de Flash-versie scoorde 68,82 punten. Beide scores lagen aanzienlijk hoger dan andere binnenlandse modellen.

De DeepSeek V4-serie maakt gebruik van een nieuw aandachtsmechanisme. Alle versies ondersteunen miljoenen lange contexten, terwijl de rekenkracht en het geheugengebruik worden verminderd. Bij gebruik met binnenlandse chips is de algehele efficiëntie hoger.
Vergeleken met de vorige generatie V3.2 hebben beide versies uitgebreide verbeteringen bereikt. De agentenvaardigheid van de Pro-versie is met meer dan 20 punten verbeterd, wiskundig redeneren is met bijna 10 punten verbeterd, het volgen van opdrachten is met bijna 12 punten verbeterd en de illusiecontrole is ook aanzienlijk geoptimaliseerd.

Terwijl de efficiënte redenering behouden blijft, verbetert de Flash-versie ook aanzienlijk de agent- en wiskundige redenering, met uitstekende kostenprestaties.

De Pro-versie (15 yuan/miljoen tokens) richt zich op hoge prestaties, stabielere illusiecontrole en is geschikt voor complexe taken en professionele scènes. De Flash-versie is sneller en goedkoper. De API-prijs bedraagt slechts 1,25 yuan per miljoen tokens, waardoor deze kosteneffectiever is voor dagelijks gebruik.
De evaluatie wees er ook op dat er nog steeds een kloof bestaat tussen het model en de topmodellen in het buitenland op het gebied van codegeneratie en complexe instructie-uitvoering. Over het geheel genomen heeft DeepSeek V4 zichzelf gevestigd als het eerste echelon in China met zijn evenwichtige mogelijkheden en betaalbare kosten, en is het een hoogwaardige keuze geworden voor dagelijks kantoorwerk, ontwikkeling en creatie, en lange tekstverwerking.