DeepSeek heeft officieel aangekondigd dat het een nieuw groot model test, mogelijk V4 Lite

Er heeft de afgelopen dagen een explosie van binnenlandse AI plaatsgevonden. GLM-5, Minimax 2.5 en DeepSeek brachten allemaal op dezelfde dag op de 11e nieuwe grote modellen uit, waarvan die van DeepSeek uiteraard de meeste aandacht trokken. We hebben eerder gemeld dat deze update vooral de contextmogelijkheden verbetert en 1 miljoen bereikt, terwijl de vorige DeepSee V3-serie 128K was, wat 7 keer hoger is dan het vorige grote model uit de V3-serie.

DeepSeek heeft dit vanavond ook officieel bevestigd in de officiële groep,Geeft aan dat de webpagina en de APP-versie een nieuwe lange-tekstmodelstructuur testen en 1M-context ondersteunen.

Tegelijkertijd benadrukte DeepSeek ook dat de API-service niet is veranderd. Het is nog steeds een groot model uit de V3.2-serie en ondersteunt alleen 128K-context.

Afgaande op de introductie van DeepSeek is dit nieuwe model nog steeds een tekstmodel. De belangrijkste verbetering is de contextuele capaciteit, die ook op veel gebieden erg belangrijk is. Tijdens lange gesprekken is het gemakkelijk voor grote modellen om eerdere inhoud niet te onthouden vanwege onvoldoende context.

Hoewel er veel daadwerkelijke tests op internet zijn geweest die aantonen dat dit grote DeepSeek-model aanzienlijk is verbeterd op het gebied van programmeren, uitvoersnelheid, enz., maar vergeleken met eerdere verwachtingen valt deze update onvermijdelijk een beetje tegen.

Het grote model is deze keer duidelijk niet V4, maar waarschijnlijker V4 Lite, omdat het aantal parameters naar verluidt slechts 200 miljard bedraagt, wat veel minder is dan de 670 miljard van de V3-serie, dus het is normaal dat sommige mogelijkheden slechter zijn dan V3.

Er wordt gespeculeerd dat dit model V4 Lite is. Het is onwaarschijnlijk dat DeepSeek in de toekomst slechts één groot V4-model zal uitbrengen. In plaats daarvan zullen er verschillende versies zijn. Elke serie heeft verschillende richtingen en ontwerpen. De huidige V4 Lite is slechts een pionier, dus veel verbetering is er niet. Bovendien hebben DeepSeek-functionarissen de technische architectuur ervan niet gedetailleerd en moet er nog meer informatie worden vrijgegeven.

De geruchten dat de DeepSeek V4 volbloedversie 1,5 biljoen parameters heeft, meer dan het dubbele van de V3-serie.Nieuwe technologieën zoals Engram en mHC die eerder door DeepSeek zijn bestudeerd, zullen ook worden gebruikt.De prestaties zijn aanzienlijk verbeterd terwijl de kosten nog steeds laag zijn. Deze verwachting is nog steeds erg hoog.