Quick Technology meldde op 3 mei dat de DeepSeek V4-serie met grote modellen officieel werd uitgebracht op 24 april. Het is 15 maanden geleden sinds de DeepSeek R1-update van vorig jaar. De prestaties van V4 hebben ook aanleiding gegeven tot discussies in binnen- en buitenland, en ook Amerikanen maken zich grote zorgen.

Er zijn veel tests geweest om de mogelijkheden van DeepSeek V4 te evalueren. Uit een eerder onderzoeksrapport, georganiseerd door drie senior onderzoekers van de Council on Foreign Relations, bleek dat het ongeveer zeven maanden achterloopt op de Amerikaanse grote modellen.

Nu is ook het Center for Artificial Intelligence Standards and Innovation (CAISI), een dochteronderneming van het National Institute of Standards and Technology (NIST), DeepSeek V4 komen evalueren. Hun conclusie is dat DeepSeek V4 ongeveer acht maanden achterloopt op de Verenigde Staten, wat vergelijkbaar is met de vorige kloof.

In de evaluatieresultaten van hun AI-mogelijkheden scoorde DeepSeek V4 800 punten, en de huidige sterkste is GPT-5.5, met een score van meer dan 1200 punten, GPT-5.4 en Opus 4.6 zijn ook boven de 1000 punten.

De algehele prestaties van DeepSeek V4 zijn vergelijkbaar met die van GPT-5 8 maanden geleden, maar DeepSeek-functionarissen waren in een releaserapport eerder van mening dat het vergelijkbaar was met GPT-5.4.

CAISI gaf echter ook toe dat DeepSeek V4 het krachtigste grote AI-model in China is dat ze hebben geëvalueerd, en zeer sterk is in negen tests op de vijf gebieden van netwerk, software-engineering, natuurwetenschappen, abstract redeneren en wiskunde.

Wat nog belangrijker is, is dat DeepSeek V4 kosteneffectiever is. Zelfs vergeleken met het meest kosteneffectieve GPT-5.4 mini-grote model in de Verenigde Staten heeft DeepSeek V4 betere testkosten in 4 van de 7 benchmarks, variërend van 41% tot 53% hoger.