Onlangs deelde de UP-presentator van Bilibili "hoewel maar Zhang Heihei" een video,Het toont de testresultaten van de volbloedversie van Apple M3Ultra met het DeepSeekR1-model met 671 miljard parameters. De snelheid is zelfs hoger dan die van acht A100 grafische kaarten, maar de kosten zijn veel lager.

Voor het uitvoeren van het DeepSeekR1-model met 671 miljard parameters is doorgaans een professionele server nodig die is uitgerust met 6-8 A100's. De totale prijs overschrijdt gemakkelijk een miljoen yuan, wat voor gewone gebruikers bijna onmogelijk is om te betalen.

De volbloedversie van M3Ultra vereist echter alleen MacStudio om vergelijkbare prestaties te bereiken, en is uiterst kosteneffectief.

Uit de testresultaten blijkt dat bij gebruik van het DeepSeekR1-model de prestaties van acht A100 grafische kaarten 16,41 tokens/s bedragen, terwijl de volbloedversie van M3Ultra 15,78 tokens/s in GGUF-formaat haalt.

Na de overstap naar het MLX-formaat dat kan profiteren van uniform geheugen, nam de snelheid toe tot 19,17 tokens/s, waarmee 8 A100 grafische kaarten werden overtroffen. Toen M3Ultra bovendien het DeepSeekV3671 miljardparametermodel draaide, bereikte de snelheid ook 19,66 tokens/s.

Dit betekent echter niet dat M3Ultra A100 in alle scenario's kan overtreffen. Wanneer een enkele gebruiker een enkel model-inferentie uitvoert, is deze voornamelijk afhankelijk van de geheugenbandbreedte en -capaciteit, en kan hij het potentieel van A100 niet volledig benutten. In scenario's voor inferentie voor meerdere gebruikers en trainingsscenario's met grote modellen kan M3Ultra absoluut niet worden vergeleken met A100.

Bovendien presteerde M3Ultra goed in de inferentiesnelheidstest met grote taalmodellen,Of het nu het Llama3.170B-, Gemma227B- of Qwen2.514B-model is, de snelheid is aanzienlijk beter dan bij andere chips uit de M-serie. Vergeleken met M2Ultra is de snelheid respectievelijk met 13%, 34% en 18% verhoogd.

De volbloedversie van M3Ultra die dit keer is getest, is uitgerust met 512 GB verenigd geheugen en de totale prijs is 74.249 yuan. Voor de meeste gebruikers kan, als ze niet zo'n grootschalig model hoeven te gebruiken, de uniforme geheugencapaciteit op passende wijze worden verminderd om kosten te besparen.