Volgens mensen die bekend zijn met de zaak, is het Chinese kunstmatige-intelligentiebedrijf DeepSeek van plan volgende week de nieuwste generatie van het grote taalmodel V4 uit te brengen. Dit is de eerste grote update van het bedrijf sinds de lancering van zijn laatste blockbuster-product ruim een ​​jaar geleden. Het wordt gezien als een belangrijke stap voor China om de Amerikaanse concurrenten op het gebied van kunstmatige intelligentie te blijven uitdagen.

Volgens twee mensen die bekend zijn met de situatie, heeft DeepSeek zijn hoofdkantoor in Hangzhou, en zal de V4 die deze keer wordt gelanceerd een multimodaal model zijn met mogelijkheden voor het genereren van afbeeldingen, video en tekst. Meerdere mensen die bekend zijn met de zaak zeiden dat DeepSeek heeft samengewerkt met de lokale AI-chipfabrikanten Huawei en Cambrian in China om V4 aan te passen en te optimaliseren om zich aan te passen aan de nieuwste generatie chipproducten van beide partijen, waardoor een nauwere samenwerking ontstaat op het gebied van rekenkracht. Deze stap wordt gezien als een nieuw teken dat Chinese technologiebedrijven zich steeds sneller losmaken van de afhankelijkheid van de hoogwaardige AI-chips van Nvidia, die momenteel onderworpen zijn aan Amerikaanse exportcontroles en aanverwante maatregelen gericht op het beteugelen van de technologische opkomst van China.

De timing van deze release is ook behoorlijk symbolisch. DeepSeek is van plan V4 te lanceren aan de vooravond van China’s jaarlijkse nationale ‘Two Sessions’, die dit jaar op 4 maart van start gaat. Deze spraakmakende politieke bijeenkomst biedt het bedrijf een belangrijke kans om onder de aandacht te komen en kan zijn imago als ‘nationale AI-kampioen’ verder versterken.

Dit is de eerste grote versie-iteratie van DeepSeek sinds de release van het R1-inferentiemodel in januari 2025. Destijds beweerde het bedrijf dat het een systeem had getraind dat qua mogelijkheden vergelijkbaar was met toonaangevende modellen met een rekenkrachtschaal die veel lager was dan die gebruikt door toonaangevende bedrijven in Silicon Valley. Dit nieuws veroorzaakte ooit een schok op de Amerikaanse technologieaandelenmarkt. Sommige analisten beschreven het als een ‘Sputnik-moment’ dat de snelle inhaalslag en zelfs herschrijving van het landschap op het gebied van kunstmatige intelligentie door China markeerde. Sindsdien heeft DeepSeek meer incrementele updates gelanceerd dan een compleet nieuwe architectuur, wat ook binnenlandse concurrenten, waaronder Alibaba en Moonshot, extra ruimte heeft gegeven voor groei op de goedkope, open-source Chinese modelmarkt.

Meerdere mensen die bekend zijn met de zaak voorspellen dat DeepSeek's optimalisatie van V4 specifiek voor binnenlandse AI-chips de marktvraag naar lokale chips zal helpen stimuleren en de overdracht naar Chinese fabrikanten zoals Huawei en Cambrian zal versnellen in de modelinferentiefase (dat wil zeggen, het proces waarbij getrainde modellen worden gebruikt om antwoorden te genereren), waardoor de afhankelijkheid van Nvidia- en AMD-chips wordt verminderd. Reuters had eerder melding gemaakt van de voortgang van de samenwerking van DeepSeek met Huawei en Cambrian. Een andere persoon die bekend was met de situatie zei dat DeepSeek niet met Nvidia werkt aan V4-optimalisatie.

Op het gebied van modeltraining domineert NVIDIA echter nog steeds, vooral in de pre-trainingsfase die enorme hoeveelheden rekenkracht vereist, en de GPU is nog steeds de industriestandaard. De Financial Times meldde eerder dat DeepSeek probeerde deze initiële training op Huawei-hardware te voltooien, maar daarbij technische problemen ondervond. Toen het bedrijf vorig jaar het R1-model uitbracht, publiceerde het ook een gedetailleerd technisch rapport waarin werd uitgelegd hoe het model efficiënter kon worden getraind en uitgevoerd op NVIDIA-chips. De relevante technische methoden hebben brede aandacht en lof gekregen. Sommige insiders zijn van mening dat het delen door DeepSeek van zijn trainingsmethoden voor het bouwen van 'inferentiemodellen' andere laboratoria feitelijk een herbruikbaar engineeringtraject biedt, waardoor laatstgenoemden de capaciteiten voor modelinferentie kunnen verbeteren met beperkte rekenkracht.

Het zogenaamde "inferentiemodel" verwijst naar een modelparadigma dat specifiek is geoptimaliseerd voor het oplossen van complexe problemen. Het kernidee is om het probleem op te splitsen in meerdere subproblemen die stap voor stap kunnen worden opgelost, en vervolgens de eindconclusie te trekken door middel van redeneren in meerdere stappen. Mensen die dicht bij het DeepSeek-plan stonden, onthulden dat het bedrijf naar verwachting volgende week V4 zal uitbrengen met een korter technisch beschrijvingsdocument dat zich richt op de belangrijkste verbeterpunten, en ongeveer een maand later een gedetailleerder technisch rapport zal lanceren om de modelarchitectuur en trainingsmethoden systematisch te onthullen.

Tegelijkertijd neemt ook de controverse rond intellectueel eigendom en modellenen toe. Eerder deze week beschuldigde het Amerikaanse AI-bedrijf Anthropic DeepSeek en twee andere Chinese AI-laboratoria ervan zogenaamde ‘distillatie-aanvallen’ uit te voeren op zijn modellen, dat wil zeggen het gebruik van de output van krachtigere modellen om kleine modellen te trainen, zodat de laatste de prestaties van de eerstgenoemde kunnen benaderen zonder direct hetzelfde niveau aan computerbronnen te gebruiken. Huawei, DeepSeek en Cambrian reageerden niet op verzoeken om commentaar.