NVIDIA creëert nieuwe Groq 3 LPU: 500 MB SRAM-cache, 7 maal bandbreedte verpletterende HBM4

CPU, GPU, NPU, VPU, DPU, TPU, PPU, IPU... Daarna heeft de XPU-familie nieuwe leden toegevoegd!NVIDIA heeft een nieuwe "LPU" gemaakt, wat "Language Processing Unit" betekent, de taalverwerkingseenheid.

het is eenSpeciale AI-inferentieversnellingschip, gebaseerd op Groq dat vorig jaar door NVIDIA werd overgenomen, is gespecialiseerd in decodering met lage latentie en interactief redeneren, vormt een aanvulling op GPU's die zich richten op training en algemeen computergebruik, en ondersteunt gezamenlijk het hele proces van AI, van training tot implementatie.

Het NVIDIA Rubin Vera-platform bevatte voorheen zes verschillende chips:Rubin GPU-accelerator, Vera CPU-processor, Bluefield 4 DPU-gegevensverwerkingseenheid, ConnectX 9 slimme netwerkkaart, NVLink 6 scale-up switch, Spectrum-X scale-out switch.

Nu heeft Groq 3 LPU zich bij deze familie aangesloten.

Groq 3 LPU integreert 98 miljard transistors en heeft een eenvoudige structuur van maximaal 500 MB SRAM (statisch willekeurig toegankelijk geheugen), dat wil zeggen de cache-eenheid die wordt gebruikt op CPU en GPU.

Hoewel de capaciteit veel minder is dan die van 288 GB HBM4, kan hij een verbazingwekkende bandbreedte van 150 TB/s bieden, wat veel meer is dan zeven keer die van HBM4 22 TB/s.

Weet je, AI-decoderingsoperaties vragen extreem veel bandbreedte, en Groq 3 kan daar perfect aan voldoen, en de latentie is veel lager.

Tegelijkertijd bereikt de FP8-precisierekenkracht van Groq 3 LPU 1,2PFlops (1.200 biljoen bewerkingen per seconde).

Op basis hiervan,NVIDIA heeft een Groq 3 LPX-rack gebouwd, inclusief 256 Groq 3 LPU's, een totale cachecapaciteit van 128 GB SRAM en een angstaanjagende bandbreedte van 40 PB/s.

De racks zijn verbonden via een speciale verticale uitbreidingsinterface met een bandbreedte van 640 TB/s, en de totale rekenkracht van AI-inferentie bereikt315PFlops (3,15 miljard keer per seconde).

Groq LPX is gepositioneerd als co-processor van het Rubin Vera-platform, dat de verwerking van elk token op elke laag van het AI-model kan versnellen en de decoderingsprestaties kan verbeteren.

Het is ook klaar voor multi-agentsystemen, die worden gezien als de volgende grens van AI en die gevolgtrekking vereisen op biljoenen parametermodellen en verwerking van miljoenen token-contextvensters, terwijl de interactieve prestaties behouden blijven.

Rubin GPU gecombineerd met Groq LPU zal de huidige doorvoer van 100 tokens per seconde bereiken.Push naar 1500 tokens per seconde of meer, waardoor interactiescenario's voor AI-agenten perfect worden ondersteund.