Op 18 juni, wanneer u de DeepSeek-webpagina en APP opent, zullen bijna alle gebruikers merken dat er rechts van de vorige snelle modus en expertmodus een beeldherkenningsmodus is. Dit betekent dat veel gebruikers die niet zijn getest op grijstinten eindelijk DeepSeek kunnen gebruiken om afbeeldingen te verwerken.


Op dit moment heeft DeepSeek nog geen officiële publieke introductie uitgebracht, en de modelinterface toont nog steeds de "functie voor het begrijpen van afbeeldingen onder interne tests". Er wordt gespeculeerd dat het deze keer een volledige testpush is. Chen Xiaokang, hoofd van het multimodale team van DeepSeek, zei vandaag echter op sociale media dat de visuele modus officieel is gelanceerd op webpagina's en applicaties: "probeer deze nieuwe ogen."


Het is de moeite waard te vermelden dat Chen Xiaokang nog maar vijf dagen geleden de hotspot volgde en de "groene eendenpoot" van tante Ganzenpoot naar DeepSeek stuurde voor identificatie. Afgaande op het antwoord kon DeepSeek vaststellen dat het geen ganzenpoot was, en suggereerde ook dat de groene kleur een gevaar voor de voedselveiligheid zou kunnen vormen. “Als er destijds DeepSeek was geweest, zou er dit jaar geen ‘Duck War’ zijn geweest.” Hij grapte.


In dit commentaarveld vroegen sommige gebruikers waarom de visuele functie nog niet beschikbaar was. Chen Xiaokang antwoordde destijds: "Slechts een klein aantal gebruikers kan grijstinten gebruiken (test)." Eind april van dit jaar lanceerde de DeepSeek-beeldherkenningsmodus een grijswaardentest en in mei werd deze voor een breed scala aan gebruikers opengesteld. Veel gebruikers gebruikten het echter nog steeds niet totdat het erop leek dat alle gebruikers het konden testen.

Hoe effectief is DeepSeek bij beeldherkenning? Een verslaggever van China Business News ging aan de slag en ervoer het, en de effecten waren in verschillende situaties verschillend.

Ik stuurde DeepSeek een bouwkundige tekening van de Bund in Shanghai en vroeg waar deze was. DeepSeek gaf binnen 16 seconden een normaal antwoord. Het analyseerde de vier hoofdgebouwen en antwoordde ook dat de witte boogbrug "hoogstwaarschijnlijk de Zhapu Road Bridge" is, wat een klassieke fotografiehoek is.


Het kan zijn dat DeepSeek de populaire Kaapverdische doelman Vozinha tegenwoordig niet meer herkent. DeepSeek heeft meer dan een minuut diep nagedacht. Tijdens het denkproces werd Kaapverdië meerdere malen genoemd, maar dit kon niet overeenkomen met de specifieke speler. Uiteindelijk gaf het een volkomen verkeerd antwoord.


Dit kan zijn omdat Woznia voorheen niet zo bekend was en niet was opgenomen in de grote modeltrainingsgegevens. Tegelijkertijd beschikt de beeldherkenningsmodus van DeepSeek niet over een online zoekfunctie, waardoor deze de huidige populaire figuren niet kan identificeren.

De verslaggever merkte op dat er op sociale platforms feedback was van gebruikers die al lang onder grijswaardentests vielen. Het beeldherkenningsvermogen van DeepSeek overtrof het gemiddelde niveau van binnenlandse modellen, maar vergeleken met de beste buitenlandse modellen was er nog steeds een leemte in het begrijpen van complexe beelden en gedetailleerd redeneren.

Met name in scenario's zoals dagelijkse schermafbeeldingen, foutmeldingen, tabellen, papieren en webpagina-inhoud is de beeldherkenning van DeepSeek in principe voldoende en zeer snel. Maar als het om een ​​complexer beeld gaat, zoals een logisch stroomdiagram met meerdere lagen of een complex gegevensdiagram, zal de nauwkeurigheid beginnen af ​​te nemen. De bovengenoemde gebruikers zijn echter van mening dat DeepSeek, gezien de prijs en openheid, nog steeds de moeite waard is om te gebruiken.

Op 30 april bracht DeepSeek een rapport uit over multimodale technologie, "Thinking with Visaul Primitives", waarin de details achter multimodale technologie werden uitgelegd. Maar al snel ontdekte iedereen dat de ambtenaar het multimodale magazijn en de originele tekst van de krant van de ene op de andere dag had verwijderd, en dat de Github-interface al een "404" -status had.

In die tijd waren er veel speculaties uit de buitenwereld. Sommigen waren van mening dat DeepSeek nog niet klaar was, terwijl anderen vonden dat de krant te veel informatie onthulde. In het artikel gelooft DeepSeek dat het huidige multimodale model bij complexe taken instort, niet vanwege de onzichtbaarheid (perceptiekloof), maar vanwege "onnauwkeurige verwijzingen" (citatiekloof). De toekomst van multimodale intelligentie gaat niet alleen over ‘meer pixels zien’, maar over het bouwen van een precieze en ondubbelzinnige referentiebrug tussen taal en visie.

Momenteel heeft DeepSeek de lancering van de beeldherkenningsmodus niet publiekelijk aangekondigd. De technische details van deze modus en meer nieuws moeten nog wachten op de officiële introductie.