Als je het huidige tempo van de grote AI-modelcirkel in één woord zou kunnen samenvatten, zou 'DeepSeek-snelheid' niet toepasselijker kunnen zijn. Minder dan vijf dagen na de release van de tekstversie van V4 organiseerde de functionaris een prijsblitz van "drie rondes van opeenvolgende prijsdalingen". Voordat de industrie zich kon herstellen, was de volgende troef al opgedoken: de "complete" V4 met multimodale mogelijkheden, die officieel het aftellen naar de release inging.

Kernonderzoeker onthult persoonlijk: native visuele vaardigheden komen eraan
Chen Xiaokang, een kernlid van het multimodale team van DeepSeek, publiceerde onlangs een artikel op het X-platform, waarin hij duidelijk aankondigde dat de "nieuwe versie van DeepSeek V4" eraan komt. Gecombineerd met de huidige context is deze ‘nieuwe versie’ vrijwel zeker de langverwachte multimodale versie.

Sinds de lancering van V4 wijzen de grootste verhitte discussies en een spoor van spijt in de branche allemaal op hetzelfde: tijdens de eerste golf werden slechts twee modellen met alleen tekst gelanceerd, Flash (snel) en Pro (expert). Pure tekstmogelijkheden vormen zeker de basis, maar in de huidige grote modellenarena is ‘native multimodaliteit’ lange tijd het ticket naar de top geweest. Zonder visueel begrip van afbeeldingen en video's zal de bovengrens van het model in echt complexe scènes stevig op slot zitten. De lancering van de multimodale versie is deze keer een belangrijke stap voor DeepSeek om de laatste tekortkoming goed te maken.

De APP heeft al een hint gehad: het gaat niet om het runnen van punten, het gaat om “betaalbaarheid”


Voorzichtige gebruikers hebben ontdekt dat de modelselectiebalk na de recente DeepSeek-clientupdate stilletjes drie onafhankelijke opties heeft toegevoegd: "Snel", "Expert" en "Visueel". De eerste twee komen overeen met V4's Flash en Pro, en de optie "Visueel", die zich in de status "te activeren" bevond, is duidelijk een interface gereserveerd voor de komende nieuwe versie van multimodale V4.

Wat voor rang kan deze volbloed multimodale V4 bereiken in termen van harde kracht? Er zijn nog geen specifieke gegevens beschikbaar. Echter, verwijzend naar de dominante prestaties van V4 Pro op het gebied van platte tekst, voorspelt de industrie over het algemeen dat de visuele mogelijkheden op zijn minst stevig in het eerste echelon zullen zitten - maar dit is nooit hetgene geweest waar DeepSeek het meest om geeft.

De echte troefkaart: “verlaag” de prijs van multimodaliteit
Voor DeepSeek, dat altijd een onconventioneel pad heeft bewandeld, is het blindelings naar de ranglijst snellen niet het primaire doel. “De prijs van grote multimodale modellen terugbrengen tot de koolprijzen, zodat ontwikkelaars en gewone gebruikers ze echt kunnen betalen” is de echte troef. Bedenk dat V4 slechts vijf dagen na de release "drie rondes van prijsverlagingen" organiseerde. Als de kosten van daaropvolgende multimodale API-aanroepen ook tot de minimumprijs worden teruggebracht, zal de herschikking van de sector veel intenser zijn dan de prijzenoorlog in het gewone tekstveld.

Samenvatting in één zin: De komst van de V4 multimodale versie is niet alleen een aanvullende mogelijkheid, maar ook het startpunt voor DeepSeek om de multimodale spoorprijstabel omver te werpen.