De achtste generatie TPU van Google splitst voor het eerst de dual-cores 'training' en 'inferentie'

Volgens nieuws van 23 april heeft Google woensdag, Amerikaanse tijd, officieel aangekondigd dat zijn tensor processing unit (TPU) van de achtste generatie een grote strategische aanpassing heeft ingeluid: voor het eerst zal het de ‘trainings’- en ‘inferentie’-taken van het AI-model scheiden en overdragen aan twee onafhankelijke, eigen chips. Deze twee processors van de volgende generatie zullen naar verwachting later dit jaar op de markt komen.

De stap markeert een nieuwe ronde van concurrentie tussen Google en Nvidia op het gebied van AI-hardware.

"Waarom overstappen op specialisatie van rekenkracht?" Amin Vahdat, Google's senior vice-president en chief technology officer van AI en infrastructuur, zei in een officiële blogpost. "Met de opkomst van AI-agenten zijn wij van mening dat het leveren van speciaal geoptimaliseerde chips voor trainings- en redeneringsbehoeften het hele technologie-ecosysteem ten goede zal komen."

Momenteel wordt de inferentiesnelheid van AI het belangrijkste slagveld voor grote fabrikanten. In maart maakte Nvidia reclame voor een aanstaande nieuwe chip waarmee modellen snel kunnen reageren op vragen van gebruikers, grotendeels dankzij de technologie die is verworven bij de overname van chipstartup Groq ter waarde van 20 miljard dollar. Hoewel Google nog steeds de belangrijkste klant van NVIDIA is, bouwt het in deze context alternatieve rekenkrachtoplossingen door TPU's te leveren aan cloudservicebedrijven.

In feite is het voor technologiegiganten een consensus binnen de industrie geworden om persoonlijk kernen te bouwen en onafhankelijke rekenkracht te zoeken. Door een diepgaande aanpassing van de onderliggende architectuur kunnen ondernemingen de operationele efficiëntie van specifieke toepassingsscenario's maximaliseren. Van de Neural Engine die Apple door de jaren heen in iPhones heeft geïntegreerd, tot de tweede generatie AI-chip van Microsoft die in januari van dit jaar werd geïntroduceerd, tot de recente onthulling van Meta dat het samenwerkt met Broadcom om een verscheidenheid aan AI-processors te ontwikkelen, het bevestigt allemaal deze trend.

In deze 'core-making'-beweging kan Google een pionier worden genoemd. Het bedrijf begon in 2015 met de implementatie van zelfontwikkelde AI-processors en levert sinds 2018 rekenkrachtdiensten aan externe klanten via een cloudplatform. Ter vergelijking: Amazon AWS lanceerde in respectievelijk 2018 en 2020 Inferentia-chips voor inferentie en Trainium-processors voor training.

Analisten bij de zakenbank D.A. Davidson schatte in een rapport van afgelopen september dat de gecombineerde waardering van de TPU-activiteiten van Google en de DeepMind AI-divisie ongeveer 900 miljard dollar bedroeg.

Momenteel bezet Nvidia nog steeds de absolute dominantie op de markt voor AI-computerkracht. Google heeft in deze release niet rechtstreeks vergelijkbare producten van Nvidia vergeleken, maar heeft zijn eigen prestatie-iteratiegegevens vrijgegeven: tegen dezelfde kosten zijn de prestaties van de nieuwe trainingschip 2,8 keer zo hoog als die van de zevende generatie TPU (codenaam Ironwood) die in november vorig jaar werd uitgebracht, en de prestaties van de nieuwe inferentiechip zijn met 80% toegenomen.

Het is vermeldenswaard dat de industrie op de technische routekaart unaniem inzet op statisch willekeurig toegankelijk geheugen (SRAM). Of het nu Nvidia's aankomende Groq 3 LPU is of de AI-chip-eenhoorn Cerebras, die deze maand net zijn IPO-aanvraag heeft ingediend, ze zijn allemaal sterk afhankelijk van deze technologie. De nieuwe inferentiechip TPU 8i die Google dit keer heeft gelanceerd, volgt ook deze trend. De SRAM-capaciteit van een enkele chip is maar liefst 384 MB, wat drie keer zoveel is als die van de vorige generatie Ironwood.

Alphabet-CEO Sundar Pichai wees er in een blogpost op dat het ontwerpdoel van de nieuwe architectuur is om “een enorme doorvoer (Throughput) en lage latentie (Latency) te bieden, waardoor miljoenen AI-agenten gelijktijdig kunnen werken met extreem hoge kosteneffectiviteit.”

Wat terminaltoepassingen betreft, onthulde Google dat de commercialisering van zijn AI-chips zich uitbreidt. Onder hen heeft marktmaker Citadel Securities kwantitatieve onderzoekssoftware ontwikkeld op basis van TPU; 17 nationale laboratoria onder het Amerikaanse ministerie van Energie zetten op deze chip gebaseerde ‘AI Co-scientist’-systemen volledig in. Bovendien heeft AI-startup Anthropic zich ertoe verbonden de TPU-rekenkrachtbronnen van Google van verschillende gigawatts te gebruiken.