In een recente aflevering van de Joe Rogan Podcast herinnerde NVIDIA CEO Jensen Huang zich het belangrijkste keerpunt met betrekking tot de oorsprong van deep learning en het lot van het bedrijf:De doorbraak van deep learning begon in 2012 en was gebaseerd op de SLI-interconnectieconfiguratie met twee kaarten van twee GTX 580 grafische kaarten die niet waren ontworpen voor AI.
Huang Renxun onthulde dat de kern van diepgaand leren van de huidige AI en de hardware die wordt gebruikt voor de eerste werking van het basisnetwerk de high-end gaming grafische kaart GTX 580 is, gebaseerd op de Fermi-architectuur en met 512 CUDA-kernen.
Hoewel deze grafische kaart oorspronkelijk is ontworpen voor games op het hoogste niveau, zijn de krachtige parallelle computermogelijkheden onbedoeld de hoeksteen geworden van snelle deep learning-training.
In 2012 gebruikten onderzoekers Alex Krizhevsky, Ilya Sutskever en Geoffrey Hinton van de Universiteit van Toronto een paar 3GB GTX 580 grafische kaarten om het beroemde AlexNet-model te trainen.
Dit deep learning-netwerk met ongeveer 60 miljoen parameters viel dat jaar op in de ImageNet-beeldherkenningswedstrijd met een verbazingwekkende voorsprong van 70% ten opzichte van het destijds handmatig ontworpen algoritme.
Huang Renxun wees erop dat de ontwikkelaars van AlexNet het algoritme hadden geoptimaliseerd om parallel op twee GTX 580's te draaien, waarbij ze alleen gegevens uitwisselden als dat nodig was, wat de trainingstijd aanzienlijk verkortte. Dit maakte de GTX 580 ook 's werelds eerste grafische kaart die AI-netwerken voor deep learning/machine learning draaide.
Interessant genoeg waren de investeringen van NVIDIA op het gebied van AI minimaal toen deze mijlpaal werd bereikt, en was het grootste deel van het onderzoek en de ontwikkeling nog steeds gericht op 3D-graphics en games.
Het was de succesvolle toepassing van AlexNet op GTX 580 die ervoor zorgde dat NVIDIA het enorme potentieel van deep learning besefte. Huang Renxun zei dat het bedrijf in 2012 de financiering, ontwikkeling en onderzoeksinspanningen onmiddellijk verlegde naar deep learning-technologie.
Deze transformatie leidde uiteindelijk in 2016 tot de originele NVIDIA DGX-supercomputer, de Volta-architectuur met de Tensor-kern van de eerste generatie en de daaropvolgende DLSS-technologie.
