MLCommons heeft officieel de prestatiebenchmarktestresultaten aangekondigd van MLPerf-inferentie v3.1 voor het grote taalmodel met 6 miljard parameters en het computervisie- en natuurlijke taalverwerkingsmodel GPT-J. De Intel CPU-processor en AI-versneller presteerden goed en zijn behoorlijk competitief op het gebied van AI-gevolgtrekking.
Uit de eerder bekendgemaakte MLCommonsAI-trainingsresultaten en HuggingFace-prestatiebenchmarktestresultaten in juni bleek dat de Intel Gaudi2AI-accelerator de prestaties van de NVIDIA H100-accelerator in geavanceerde visuele taalmodellen volledig kan overtreffen.Het kan het enige haalbare alternatief voor NVIDIAH100/A100 worden genoemd, de laatste resultaten bevestigen dit opnieuw.
Op het GPT-J-model zijn de prestaties van de GPT-J-99, GPT-J-99.9 serverquery en offline voorbeeldinferentie van de Intel Gaudi2-accelerator respectievelijk 78,58 keer/seconde en 84,08 keer/seconde.
Vergeleken met concurrerende producten heeft H100 slechts 1,09 keer (server) en 1,28 keer (offline) prestatievoordelen ten opzichte van Gaudi2. Gaudi2 heeft 2,4 keer (server) en 2 keer (offline) prestatievoordelen ten opzichte van A100.
Het is de moeite waard om dat te vermeldenDe door Gaudi2 ingediende resultaten gebruiken het FP8-gegevenstype met een nauwkeurigheid van 99,9%.
Gaudi2-software wordt elke 6-8 weken bijgewerkt en zal de MLPerf-benchmarkprestaties blijven verbeteren en de modeldekking uitbreiden.
Tegelijkertijd heeft Intel zeven inferentiebenchmarktests ingediend, gebaseerd op de schaalbare Xeon-processors van de vierde generatie van SapphireRapids, inclusief het GPT-J-model.
De resultaten laten zien dat de vierde generatie Xeon zeer goed presteert bij het verwerken van algemene AI-werklasten, waaronder modellen voor visie, taalverwerking, spraak- en audiovertaling, evenals het grotere DLRMv2 deep learning-aanbevelingsmodel en het ChatGPT-J-model.
Vanaf nu,Intel blijft de enige leverancier die openbare CPU-resultaten indient met behulp van industriestandaard deep learning-ecosysteemsoftware.
Volgens de laatste resultaten isDoor GPT-J te gebruiken om een persbericht van 1000 woorden van ongeveer 1.000-1.500 woorden samen te vatten, kan de Xeon van de vierde generatie twee alinea's per seconde voltooien in de offlinemodus, en één alinea per seconde in de realtime servermodus.
Ook,Intel dient voor het eerst MLPerf-testresultaten in voor Xeon CPUMax-processors, dat tot 64 GB HBM3-geheugen met hoge bandbreedte integreert, is de enige CPU die een nauwkeurigheid van 99,9% kan bereiken voor GPT-J, wat zeer geschikt is voor toepassingen met extreem hoge nauwkeurigheidseisen.
Bezoek de aankooppagina:
Intel Flagship Store