Zal er plotseling superintelligentie op het gebied van kunstmatige intelligentie (AI) ontstaan, of zullen wetenschappers de opkomst ervan voorspellen en de kans krijgen om de wereld te waarschuwen? Dit probleem heeft de laatste tijd veel aandacht gekregen met de opkomst van grote taalmodellen (zoals ChatGPT). Deze kunstmatige intelligenties hebben aanzienlijke nieuwe mogelijkheden gekregen naarmate ze groter worden.Iemand wees op het fenomeen ‘emergence’, een fenomeen waarbij zogenaamde kunstmatige-intelligentiemodellen op ongelooflijke manieren snel intelligentie verwerven. Maar een recente studie noemt deze situaties ‘fantoom’ – artefacten die ontstaan ​​tijdens het testen van systemen – en suggereert dat het opbouwen van innovatiecapaciteiten eigenlijk een geleidelijk proces is.

"Ik denk dat ze er goed aan hebben gedaan te zeggen: 'Er is niets magisch gebeurd'", zegt Deborah Raji, een computationeel wetenschapper bij de Mozilla Foundation die auditing van kunstmatige intelligentie bestudeert. "Dat is een goede, solide, op metingen gebaseerde kritiek."

Dit werk werd afgelopen december gepresenteerd op de NeurIPS machine learning-conferentie in New Orleans.

Groter is beter

Grote taalmodellen worden over het algemeen getraind met enorme hoeveelheden tekst of andere informatie om realistische antwoorden te genereren door te voorspellen wat er daarna zal gebeuren. Zelfs zonder specifieke training kunnen ze talen vertalen, wiskundige problemen oplossen, poëzie schrijven of codes berekenen. Hoe groter het model (sommige hebben meer dan honderd miljard afstembare parameters), hoe beter het presteert. Sommige onderzoekers vermoeden dat deze hulpmiddelen uiteindelijk kunnen leiden tot kunstmatige algemene intelligentie (AGI) die de menselijke prestaties bij de meeste taken kan evenaren of zelfs overtreffen.

De nieuwe studie test de opkomstclaim op een aantal manieren. Ten eerste vergeleken wetenschappers de mogelijkheden van OpenAIGPT-3-modellen op vier schaal in optelling van vier cijfers. In termen van absolute nauwkeurigheid varieert het prestatieverschil tussen de derde en vierde grootste modellen van bijna 0% tot bijna 100%. Maar als we kijken naar het aantal correct voorspelde antwoorden, is het verschil in prestatieniveau minder extreem. De onderzoekers ontdekten ook dat het geven van veel testvragen aan het model ook de curve afvlakte – in welk geval het kleinere model soms correct antwoordde.

De onderzoekers onderzochten vervolgens de prestaties van Google's LaMDA-taalmodel op een aantal taken. Het toonde een sterke toename van de intelligentie als het ging om het detecteren van ironie of het vertalen van spreekwoorden, vaak meerkeuzevragen met discrete goede of foute antwoorden. Maar toen de onderzoekers de waarschijnlijkheid (een continue metriek) onderzochten die het model aan elk antwoord toekende, verdwenen de tekenen van opkomst.

Ten slotte onderzochten de onderzoekers computervisie, een vakgebied waar weinig sprake is van opkomst. Ze trainden het model om de afbeeldingen te comprimeren en vervolgens te reconstrueren. Maar zolang er strikte drempels voor correctheid worden gesteld, kunnen ze tot een significante opkomst leiden. "De manier waarop ze het onderzoek hebben ontworpen was erg creatief", zegt Yejin Choi, een computerwetenschapper aan de Universiteit van Washington die kunstmatige intelligentie en gezond verstand bestudeert.

Nog niet uitgesloten

Co-auteur van het onderzoek Sanmi Koyejo, een computerwetenschapper aan de Stanford University, zei dat het niet absurd is dat mensen aan opkomst denken omdat sommige systemen onverwachte 'faseveranderingen' vertonen. Hij merkte ook op dat deze studie de mogelijkheid dat dit gebeurt met grote taalmodellen (laat staan ​​toekomstige systemen) niet volledig kan uitsluiten, maar voegde eraan toe dat "wetenschappelijk onderzoek tot nu toe sterk suggereert dat de meeste aspecten van taalmodellen inderdaad voorspelbaar zijn."

Raji is blij dat de academische wereld zich meer gaat richten op benchmarking in plaats van op het ontwikkelen van neurale netwerkarchitecturen. Ze wil dat onderzoekers nog een stap verder gaan en zich afvragen hoe deze taken zich verhouden tot toepassingen in de echte wereld. Betekent een goede prestatie op de LSAT (Law School Admission Test) zoals GPT-4 bijvoorbeeld dat het model ook juridisch werk kan doen?

Dit werk heeft ook implicaties voor de veiligheid en het beleid van AI. “De AGI-menigte heeft het verhaal van de opkomstcapaciteit aangeprezen,” zei Raji. Ongegronde angsten kunnen leiden tot verstikkende regelgeving of de aandacht afleiden van urgentere risico’s. "Modellen worden steeds beter en ze zijn nuttig", zei ze. "Maar ze zijn nog lang niet bewust geworden."