Onderzoekers van MIT en het MIT-IBM Watson Artificial Intelligence Laboratory hebben EfficientViT onthuld, een computervisiemodel dat de real-time semantische segmentatie van afbeeldingen met hoge resolutie versnelt en is geoptimaliseerd voor apparaten met beperkte hardware, zoals zelfrijdende auto's.
Zelfrijdende auto's moeten snel en nauwkeurig objecten identificeren die ze tegenkomen, van een stilstaande bestelwagen die op een straathoek geparkeerd staat tot een fietser die naar een kruispunt snelt.
Machine learning-modellen voor computervisie met hoge resolutie kunnen rekenintensieve zichttoepassingen mogelijk maken, zoals autonoom rijden of medische beeldsegmentatie op edge-apparaten. De foto toont de interpretatie van een kunstenaar van autonome rijtechnologie. Bron afbeelding: MIT News
Om dit te doen, kunnen zelfrijdende auto's krachtige computer vision-modellen gebruiken om elke pixel in een hoge resolutie afbeelding van een scène te classificeren, zodat objecten die mogelijk worden ingesloten in afbeeldingen van lagere kwaliteit niet worden genegeerd. Deze taak, bekend als semantische segmentatie, is echter complex en vereist veel berekeningen bij hoge beeldresoluties.
Onderzoekers van MIT, het MIT-IBM Watson Artificial Intelligence Laboratory en andere instellingen hebben een efficiënter computer vision-model ontwikkeld dat de computationele complexiteit van deze taak aanzienlijk vermindert. Hun model kan semantische segmentatie in realtime nauwkeurig uitvoeren op apparaten met beperkte hardwarebronnen, zoals boordcomputers waarmee zelfrijdende auto's in een fractie van een seconde beslissingen kunnen nemen.
Optimaliseer realtime verwerking
Recente state-of-the-art semantische segmentatiemodellen leren rechtstreeks de interacties tussen elk paar pixels in een afbeelding, zodat hun rekeninspanning verviervoudigt met de beeldresolutie. Hierdoor zijn deze modellen, hoewel nauwkeurig, te traag om beelden met een hoge resolutie in realtime te verwerken op sensoren of edge-apparaten zoals mobiele telefoons.
MIT-onderzoekers hebben een nieuwe bouwsteen voor semantische segmentatiemodellen ontworpen die dezelfde mogelijkheden biedt als deze ultramoderne modellen, maar met alleen lineaire rekencomplexiteit en werkt met hardware-efficiëntie.
Het resultaat is een nieuwe familie modellen voor computervisie met hoge resolutie die, wanneer ze op mobiele apparaten worden ingezet, tot negen keer sneller presteren dan eerdere modellen. Belangrijk is dat deze nieuwe modellenfamilie een gelijke of grotere nauwkeurigheid vertoont dan deze alternatieve modellen.
EfficientViT stelt zelfrijdende auto's in staat om semantische segmentatie efficiënt uit te voeren, een computervisietaak met hoge resolutie waarbij elke pixel in een scène wordt geclassificeerd, zodat de auto objecten nauwkeurig kan identificeren. Afgebeeld is een foto uit de demovideo die de verschillende kleuren laat zien die worden gebruikt voor objectclassificatie. Afbeelding verstrekt door onderzoekers
Een nadere blik op oplossingen
Deze technologie zal niet alleen zelfrijdende auto's helpen realtime beslissingen te nemen, maar ook de efficiëntie van andere computervisietaken met hoge resolutie verbeteren, zoals segmentatie van medische beelden.
"Hoewel onderzoekers al heel lang traditionele vision-transformatoren gebruiken en indrukwekkende resultaten hebben bereikt, hopen we dat mensen zich ook zullen concentreren op de efficiëntieaspecten van deze modellen. Ons werk laat zien dat het mogelijk is om de rekenlast aanzienlijk te verminderen, zodat realtime beeldsegmentatie lokaal op het apparaat kan worden uitgevoerd." zei Han Song, universitair hoofddocent bij de afdeling Elektrotechniek en Computerwetenschappen (EECS), lid van het MIT-IBM Watson AI Lab, en senior auteur van het artikel waarin het nieuwe model wordt beschreven.
De paper wordt ook samen met hem geschreven door Cai Han, een afgestudeerde student aan de afdeling Elektrotechniek en Computerwetenschappen, de eerste auteur van de paper, Li Junyan, een student aan de Zhejiang Universiteit, Hu Muyan, een student aan de Tsinghua Universiteit, en Gan Chuang, een hoofdonderzoeker aan het MIT-IBM Watson Artificial Intelligence Laboratory. Het onderzoek zal worden gepresenteerd op de International Conference on Computer Vision.
Vereenvoudigde oplossing
Het classificeren van elke pixel in een afbeelding met een hoge resolutie die miljoenen pixels kan bevatten, is een moeilijke taak voor machine learning-modellen. Onlangs is een krachtig nieuw model genaamd visuele converter effectief toegepast.
Transformers zijn oorspronkelijk ontwikkeld voor natuurlijke taalverwerking. In dit geval coderen ze elk woord in de zin als een token en genereren vervolgens een aandachtskaart die de relatie tussen elk token en alle andere tokens vastlegt. Deze aandachtskaart helpt de context te begrijpen wanneer het model voorspellingen doet.
Met hetzelfde concept splitst de visuele transformator het beeld in pixelpatches en codeert elke patch in een label, en genereert vervolgens een aandachtskaart. Bij het genereren van deze aandachtskaart leert het model direct de interacties tussen elk paar pixels met behulp van een gelijkenisfunctie. Op deze manier vormt het model een zogenaamd mondiaal receptief veld, wat betekent dat het toegang heeft tot alle relevante delen van het beeld.
Omdat afbeeldingen met een hoge resolutie miljoenen pixels kunnen bevatten en in duizenden segmenten kunnen worden verdeeld, kunnen aandachtsgrafieken snel erg groot worden. Naarmate de beeldresolutie toeneemt, wordt de hoeveelheid berekeningen daarom verviervoudigd.
In een nieuwe familie van modellen genaamd EfficientViT hebben MIT-onderzoekers een eenvoudiger mechanisme aangenomen voor het bouwen van aandachtskaarten, waarbij niet-lineaire gelijkenisfuncties worden vervangen door lineaire gelijkenisfuncties. Daarom kunnen ze de volgorde van de bewerkingen herschikken en de totale rekeninspanning verminderen zonder de functionaliteit te veranderen en het globale receptieve veld te verliezen. In hun model groeit de rekeninspanning die nodig is voor voorspellingen lineair met de beeldresolutie.
"Maar er is geen gratis lunch. Lineaire aandacht kan alleen de mondiale achtergrond van het beeld vastleggen en zal lokale informatie verliezen, waardoor de nauwkeurigheid slechter wordt", zei Han. Om het verlies aan nauwkeurigheid te compenseren, voegden de onderzoekers twee extra elementen aan het model toe, die elk slechts een kleine hoeveelheid berekeningen toevoegden.
Eén van de componenten kan het model helpen de interactie van lokale kenmerken vast te leggen en de zwakte van lineaire functies bij lokale informatie-extractie te verlichten. Het tweede element is een module die leren op meerdere schalen implementeert, waardoor het model grote en kleine objecten kan herkennen.
Cai Han zei: "Het meest cruciale onderdeel hier is dat we prestaties en efficiëntie zorgvuldig in evenwicht moeten brengen." Ze ontwierpen EfficientViT met een hardwarevriendelijke architectuur, waardoor het gemakkelijker wordt om op verschillende soorten apparaten te draaien, zoals VR-headsets of edge-computers voor zelfrijdende auto's. Hun model kan ook worden toegepast op andere computervisietaken, zoals beeldclassificatie.
Vereenvoudig semantische segmentatie
Toen ze hun model testten op een dataset die werd gebruikt voor semantische segmentatie, ontdekten ze dat het model negen keer sneller werkte op NVIDIA grafische verwerkingseenheden (GPU's) dan andere populaire visuele transformatormodellen, met dezelfde of betere nauwkeurigheid.
"Nu kunnen we het beste van twee werelden krijgen, waardoor de berekeningen voldoende worden vertraagd om op mobiele apparaten en in de cloud te kunnen worden uitgevoerd", aldus Han Song. Voortbouwend op deze resultaten hopen de onderzoekers de techniek toe te passen om generatieve machine learning-modellen te versnellen, zoals die worden gebruikt om nieuwe beelden te genereren. Ook hopen ze de toepassing van EfficientViT verder uit te breiden naar andere zichttaken.
LuTian, Senior Director of Artificial Intelligence Algorithms bij AMD, zei: "Het efficiënte transformatormodel, ontwikkeld door het team van professor Han Song, is nu de ruggengraat geworden van de allernieuwste technologie in verschillende computer vision-taken zoals detectie en segmentatie. Hun onderzoek toont niet alleen de efficiëntie en mogelijkheden van de transformator aan, maar onthult ook het enorme potentieel ervan in toepassingen in de echte wereld, zoals het verbeteren van de beeldkwaliteit in videogames."
"Modelcompressie en lichtgewicht modelontwerp zijn belangrijke onderzoeksthema's om efficiënte kunstmatige intelligentie te bereiken, vooral in grootschalige basismodellen. De onderzoeksgroep van professor Han Song heeft aanzienlijke vooruitgang geboekt bij het comprimeren en versnellen van moderne deep learning-modellen, vooral visuele transformatoren." Jay Jackson, Global Vice President of Artificial Intelligence and Machine Learning bij Oracle, die niet betrokken was bij het onderzoek, voegde hieraan toe. "Oracle Cloud Infrastructure heeft zijn team ondersteund bij het bevorderen van dit impactvolle onderzoek om efficiënte, groene kunstmatige intelligentie mogelijk te maken."