Volgens een rapport van Scientific American van 24 april gebruikte Liam Price, een 23-jarige amateurwiskundeliefhebber, het nieuwste grote taalmodel dat beschikbaar is in ChatGPT Pro om onverwachts een Erdesh-probleem op te lossen dat de wiskundegemeenschap al zo'n 60 jaar bezighoudt zonder geavanceerde wiskundige systeemtraining te hebben gevolgd. Deze vooruitgang heeft grote aandacht getrokken van veel bekende wiskundigen. 

Volgens rapporten is deze prestatie niet alleen van bijzonder belang omdat de daarmee samenhangende problemen lange tijd aan veel topwiskundigen zijn ontgaan, maar ook omdat het bewijsidee van AI niet een simpele herformulering van bestaande routines is, maar een methode introduceert waarvan niemand eerder had gedacht dat deze voor dergelijke problemen zou kunnen worden gebruikt.

Het probleem dat deze keer wordt opgelost, bespreekt een speciale set gehele getallen die "primitieve sets" worden genoemd. De zogenaamde primitieve verzameling betekent dat in dezelfde verzameling geen enkel getal deelbaar is door een ander getal; in deze zin breidt het de eigenschap van "priemgetallen kunnen niet worden onderverdeeld" uit van een enkel getal naar de hele reeks getallen. Daarom is het nauw verwant aan priemgetallen, en elke reeks priemgetallen behoort uiteraard tot de oorspronkelijke reeks.

De legendarische Hongaarse wiskundige Paul Erdos definieerde ooit een "Erdös-som" voor dit type primitieve verzameling, die kan worden opgevat als een indicator om een ​​bepaald "gewicht" of "score" van de verzameling te meten. Hij heeft eerder bewezen dat de maximale waarde van deze som ongeveer 1,6 bedraagt, en vermoedde dat de oneindige verzameling van alle priemgetallen ook deze bovengrens bereikt; Wiskundige Jared Lichtman van Stanford University heeft dit vermoeden bewezen in zijn proefschrift uit 2022. Maar een moeilijker gerelateerd vermoeden is: wanneer de getallen in een originele set erg groot worden, zal de 'score' ervan blijven afnemen, en de theoretische minimumlimiet zou precies 1 moeten zijn. Met andere woorden, wat deze vraag wil bewijzen is dat naarmate de set-elementen naar oneindig neigen, deze score de 1 zal benaderen, en 1 de ondergrens is die niet lager kan zijn.

Het rapport wees erop dat Lichtman zelf ook probeerde dit vermoeden te bewijzen, maar daar net als andere eerdere onderzoekers niet in slaagde. Price zei dat hij aanvankelijk de ins en outs van deze vraag niet begreep. Op een gewone maandagmiddag voerde hij, zoals gewoonlijk, terloops de vraag van Erdesh in ChatGPT in om te zien of het model ideeën kon aandragen. Als gevolg hiervan retourneerde de AI een antwoord dat "het juiste antwoord leek te zijn".

Price stuurde de resultaten vervolgens naar zijn partner, Kevin Barreto, een tweedejaars wiskundestudent aan de Universiteit van Cambridge. De twee hadden al de aandacht getrokken omdat ze willekeurig openbare Erdesh-puzzels naar ChatGPT voerden, en een AI-onderzoeker gaf hen later zelfs een ChatGPT Pro-abonnement ter ondersteuning van hun experimentele poging tot 'atmosferische wiskunde'. Na het bekijken van de resultaten realiseerde Barreto zich dat er iets ongebruikelijks was en bracht hij vervolgens de relevante experts op de hoogte, die snel reageerden.

Terence Tao, een wiskundige aan de Universiteit van Californië, Los Angeles, zei dat mensen die dit probleem in het verleden bestudeerden bijna altijd een relatief standaard startpad volgden om de afleiding uit te voeren, maar deze keer nam het grote taalmodel een heel andere route. Volgens het rapport gebruikte de AI een formule die al lang bekend was in aanverwante takken van de wiskunde, maar niemand had er ooit aan gedacht deze op dit soort problemen toe te passen. Tao Zhexuan gelooft dat dit aantoont dat menselijke onderzoekers collectief een soort 'denkvooroordeel' kunnen hebben bij hun aanvankelijke richtingskeuze, waardoor ze een feitelijk directer doorbraakpad missen.

Deskundigen benadrukten echter ook dat de proeftekst die aanvankelijk door ChatGPT zelf werd geproduceerd, nog niet volwassen was. Lichtman zei dat de kwaliteit van de originele output eigenlijk "behoorlijk slecht" is en moet worden uitgezocht, gescreend en herschreven door professionele wiskundigen om de kernlogica die het wil uitdrukken echt te begrijpen. Momenteel hebben hij en Terence Tao dit bewijs gecomprimeerd en gecompileerd tot een duidelijkere versie om de belangrijkste inzichten in de AI-oplossing nauwkeuriger te extraheren.

In plaats van dat ‘dit probleem zelf is opgelost’, hecht de wiskundige gemeenschap er meer waarde aan dat AI deze keer een nieuw denkkanaal lijkt te hebben geopend. Tao Zhexuan zei dat dit werk zou kunnen betekenen dat onderzoekers een nieuwe manier hebben ontdekt om "grote getallen en hun interne structuren" te begrijpen, en dat dit verband in de toekomst kan worden overgedragen op een breder scala aan problemen; de betekenis van deze doorbraak op de lange termijn moet echter nog worden getest. Lichtman gelooft dat dit resultaat zijn intuïtie bevestigt sinds zijn graduate schooltijd - er kan een gemeenschappelijke structuur bestaan ​​tussen veel gerelateerde problemen, en de nieuwe methode die deze keer door ChatGPT wordt voorgesteld, levert nieuw bewijs voor deze eenheid.