MIT's nieuwe generatieve AI presteert beter dan het diffusiemodel in imagegeneration

MIT's CSAIL introduceert PFGM++, een model voor kunstmatige intelligentie dat diffusie en Poisson-processen combineert. Het genereert opmerkelijke beelden door het gedrag van elektrische velden te repliceren en vertegenwoordigt een sprong voorwaarts in generatieve kunstmatige intelligentie. Geïnspireerd door de natuurkunde presteert het nieuwe generatieve model PFGM++ beter dan diffusiemodellen bij het genereren van afbeeldingen. Generatieve kunstmatige intelligentie staat momenteel aan de vooravond van een actueel onderwerp en belooft een wereld te creëren waarin eenvoudige distributies evolueren naar complexe patronen van beelden, geluiden of tekst, waardoor kunstmatige intelligentie verrassend reëel wordt.

Terwijl onderzoekers van het Computer Science and Artificial Intelligence Laboratory (CSAIL) van MIT innovatieve kunstmatige-intelligentiemodellen tot leven brengen, is het rijk van de verbeelding niet langer slechts een abstract concept. Hun nieuwe techniek integreert twee ogenschijnlijk niet-gerelateerde fysische wetten die ten grondslag liggen aan de best presterende generatieve modellen tot nu toe: diffusie (die doorgaans rekening houdt met de willekeurige beweging van elementen, zoals warmte die een kamer binnendringt of een gas dat zich in de ruimte uitbreidt) en Poisson-processen (gebaseerd op principes die de activiteit van elektrische ladingen bepalen).

Dankzij deze harmonieuze mix kan Ezoic uitblinken in het genereren van nieuwe beelden, waarmee bestaande state-of-the-art modellen worden overtroffen. Sinds de oprichting heeft Poisson Flow Generative Model++ (PFGM++) potentiële toepassingen gevonden op gebieden variërend van het genereren van antilichamen en RNA-sequenties tot audioproductie en het genereren van grafische afbeeldingen.

Het model kan complexe patronen genereren, zoals het creëren van realistische afbeeldingen of het imiteren van processen uit de echte wereld. PFGM++ bouwt voort op de PFGM van het team, die het resultaat was van het onderzoek van vorig jaar. PFGM haalt inspiratie uit een wiskundige vergelijking die bekend staat als de "Poisson"-vergelijking en past deze vervolgens toe op de gegevens die het model probeert te leren. Om dit te doen gebruikte het team een slimme truc: ze voegden een extra dimensie toe aan de 'ruimte' van het model, een beetje zoals je van een tweedimensionale schets naar een driedimensionaal model gaat. Deze extra dimensie biedt meer speelruimte, plaatst de gegevens in een grotere context en helpt je de gegevens van alle kanten te benaderen bij het genereren van nieuwe monsters.

Jesse Thaler, een theoretisch deeltjesfysicus bij het Center for Theoretical Physics van het Nuclear Science Laboratory van MIT en directeur van het Institute for Artificial Intelligence and Fundamental Interactions (NSFAIIAIFI) van de National Science Foundation, zei: "PFGM++ is een voorbeeld van interdisciplinaire samenwerking tussen natuurkundigen en computerwetenschappers om de vooruitgang van kunstmatige intelligentie te bevorderen. De afgelopen jaren hebben generatieve modellen op basis van kunstmatige intelligentie eindeloze resultaten opgeleverd, van fotorealistische beelden tot heldere tekststromen. De resultaten zijn oogverblindend. Enkele van de krachtigste generatieve modellen zijn gebaseerd op beproefde concepten in de natuurkunde, zoals symmetrie en thermodynamica. PFGM++ neemt een eeuwenoud concept uit de fundamentele natuurkunde - dat er mogelijk extra dimensies in ruimte en tijd zijn - en transformeert het in een krachtig en robuust hulpmiddel voor het genereren van synthetische maar toch echte datasets.

Het basismechanisme van PFGM is niet zo ingewikkeld als het klinkt. De onderzoekers vergelijken de datapunten met kleine ladingen in een vliegtuig in een dimensionaal uitgebreide wereld. Deze ladingen creëren een ‘elektrisch veld’ dat langs de veldlijnen naar een extra dimensie beweegt, waardoor een uniforme verdeling over een gigantische denkbeeldige halve bol ontstaat. Het generatieproces lijkt op terugspoelen: beginnend met een reeks ladingen die gelijkmatig over een halfrond zijn verdeeld en hun voortgang terug te volgen naar het vlak langs de elektrische veldlijnen, worden ze uitgelijnd zodat ze overeenkomen met de verdeling van de oorspronkelijke gegevens. Door dit interessante proces kunnen neurale modellen elektrische velden leren en nieuwe gegevens genereren die consistent zijn met de oorspronkelijke gegevens.

Het PFGM++-model breidt het elektrische veld in PFGM uit naar een complex hoogdimensionaal raamwerk. Terwijl je deze dimensies blijft uitbreiden, gebeurt er iets onverwachts: het model begint op een andere belangrijke klasse modellen te lijken, namelijk diffusiemodellen. Het werk draait om het vinden van de juiste balans. PFGM-modellen en diffusiemodellen bevinden zich aan de tegenovergestelde uiteinden van het spectrum: de ene is krachtig maar complex in de omgang, de andere is eenvoudig maar minder robuust. Het PFGM++ model vindt de juiste balans tussen robuustheid en gebruiksgemak. Deze innovatie maakt de weg vrij voor het efficiënter genereren van afbeeldingen en patronen, wat een belangrijke stap voorwaarts betekent voor de technologie. Naast dat ze qua grootte instelbaar zijn, stelden de onderzoekers ook een nieuwe trainingsmethode voor die elektrische velden efficiënter kan leren.

Om deze theorie in de praktijk te brengen, heeft het team een paar differentiaalvergelijkingen opgelost die de beweging van deze ladingen in een elektrisch veld gedetailleerd beschrijven. Ze evalueerden de prestaties met behulp van de Frechette Inception Distance (FID)-score, een algemeen aanvaarde maatstaf voor het beoordelen van de kwaliteit van door een model gegenereerde afbeeldingen in vergelijking met echte afbeeldingen. PFGM++ demonstreert verder een hogere fouttolerantie en robuustheid voor stapgroottes in differentiaalvergelijkingen.

In de toekomst willen ze bepaalde aspecten van het model verfijnen, met name door het schattingsfoutgedrag van neurale netwerken te analyseren om systematisch ‘sweet spot’-waarden van D te identificeren die zijn afgestemd op specifieke gegevens, architecturen en taken. Ze zijn ook van plan om PFGM++ toe te passen op moderne grootschalige tekst-naar-afbeelding/tekst-naar-video-generatie.

"Diffusiemodellen zijn een belangrijke drijvende kracht geworden achter de generatieve AI-revolutie", zegt Yang Song, onderzoekswetenschapper bij OpenAI. "PFGM++ biedt een krachtige generalisatie van diffusiemodellen, waardoor gebruikers beelden van hogere kwaliteit kunnen genereren door de robuustheid van de beeldgeneratie tegen verstoringen en leerfouten te verbeteren. Bovendien ontdekte PFGM++ verrassende verbanden tussen elektrostatica en diffusiemodellen, wat nieuwe theoretische inzichten opleverde in onderzoek naar diffusiemodellen."

Karsten Kreis, senior onderzoekswetenschapper bij NVIDIA, zei: "Poissonflow-generatieve modellen vertrouwen niet alleen op elegante fysieke heuristische formuleringen op basis van elektrostatica, maar bieden in de praktijk ook de modernste generatieve modelprestaties. Ze presteren zelfs beter dan de populaire diffusiemodellen die momenteel de literatuur domineren. "