De prestaties van GPT-4 bij het beantwoorden van nieuwe vragen zijn te slecht. Als je de standaard wilt behouden, kun je alleen nieuwe modellen

Gisteren werd in een artikel systematisch onderzocht waarom GPT-4 ‘intelligentie kan verminderen’, wat aanleiding gaf tot uitgebreide discussies in de AI-kring. Omdat iedereen GPT-4 steeds vaker gebruikt, zullen gebruikers af en toe heftig reageren en lijkt GPT-4 weer dom te zijn geworden.

De recente situatie is dat als de gebruiker GPT-4 per ongeluk vertelt dat het december is, de uitvoerinhoud van GPT-4 aanzienlijk zal worden verminderd.

Een gebruiker voerde speciaal een test uit en vertelde GPT-4 dat het mei en december was. Vervolgens vergeleek hij de outputresultaten en ontdekte dat de resultaten in december veel slechter waren dan die in mei.

Iedereen in de discussie denkt dat GPT-4 zichzelf een wintervakantie gunt en pas in december wil werken.

Maar als we er in dit artikel naar kijken, gelooft de auteur dat de belangrijkste reden is dat het grote model een fout vertoont die nu bijna onoplosbaar lijkt: het gebrek aan mogelijkheden voor continu leren en evolutie.

Papieren adres: https://arxiv.org/abs/2312.16337

We ontdekten dat LLM aanzienlijk beter presteerde op datasets die zijn vrijgegeven vóór de aanmaakdatum van de trainingsgegevens dan op datasets die na de trainingsdatum zijn vrijgegeven.

LLM zal deze situatie presenteren, ongeacht of het om nulmonsters of om meerdere monsters gaat.

Het artikel wijst er ook op dat LLM goed presteert bij taken die ze al eerder hebben ‘gezien’, maar slecht presteert bij nieuwe taken. De fundamentele reden is dat ze zich alleen de antwoorden herinneren en niet effectief nieuwe kennis en inzichten kunnen verwerven.

De reden waarom dit prestatieverschil zo groot is, ligt in ‘taakvervuiling’.

In de bovenstaande tabel ontdekte de auteur dat taakvoorbeelden kunnen worden geëxtraheerd uit het GPT-3-model, en in elke nieuwe versie van Davinci naar GPT-3.5-turbo neemt het aantal geëxtraheerde trainingsvoorbeelden toe, wat nauw verwant is aan de zero-shot prestatieverbetering van de modellen uit de GPT-3-serie op deze taken.

Om het bot te zeggen: de reden waarom het model goed presteert op de datasettest vóór de deadline is omdat de trainingsgegevens de problemen in de dataset al bevatten.

Dit toont volledig aan dat de prestatieverbetering van verschillende versies van de GPT-3-serie op deze taken wordt veroorzaakt door taakvervuiling.

Voor die classificatietaken waarbij er geen bewijs is van taakbesmetting, presteren grote taalmodellen zelden significant beter dan de basislijnen van de eenvoudige meerderheid in zero-shot- en weinig-shot-instellingen.

In de tabel hierboven vermelden de onderzoekers ook dat voor 51 model/dataset-combinaties met gegevensverzameling na de training en zonder voorbeelden van extractietaken, slechts één combinatie van modellen aanzienlijk beter kan presteren dan de meeste benchmarks in instellingen met nul of weinig steekproeven.

Dit toont aan dat als er eenmaal geen mogelijkheid meer is tot taakbesmetting, de prestaties van LLM met nul-steekproeven en weinig-steekproeven feitelijk niet uitmuntend zijn.

Na dit te hebben gelezen, zeiden internetgebruikers pessimistisch: het is momenteel moeilijk om een machinaal leermodel te bouwen dat zich voortdurend kan aanpassen zonder catastrofale interferentie te veroorzaken met gecodeerde kennis uit het verleden en nieuwe kennis.

ChatGPT is een momentopname van het internet uit het verleden - naarmate het internet verandert, raakt ChatGPT verouderd in zowel kennis als uitvoering van nuttige taken.

Zowel OpenAI als de grote modelbedrijven worden geconfronteerd met het feit dat ze voortdurend nieuwe modellen moeten bijscholen.

Misschien is dit tot op zekere hoogte de reden waarom mensen zullen merken dat ChatGPT na een tijdje weer dom wordt. Misschien komt het gewoon omdat je het blijft testen met nieuwe vragen, en de ware kwaliteit ervan langzaam aan het licht komt.

testmodel

De onderzoekers testten 12 modellen:

5 GPT-modellen uitgebracht door OpenAI en 7 open source LLM's.

Voor deze modellen selecteerden ze twee sets datasets vlak voor en na de modeltrainingstijd voor testen.

Testmethode

Timinganalyse

De onderzoekers testten vervolgens de prestaties van verschillende modellen op dezelfde twee sets datasets. Uit de resultaten blijkt duidelijk dat voor datasets die zijn vrijgegeven na de deadline voor modeldatatraining, de prestaties bij nulmonsters en meerdere monsters aanzienlijk slechter zijn.

Voor 12 modellen en 16 datasets voerden de onderzoekers 192 model/dataset-combinaties uit.

Van deze combinaties zijn 136 datasets gepubliceerd vóór de dataverzamelingsdatum van de LLM-training (pre-verzameling) en 56 datasets daarna (post-verzameling). Voor beide sets berekenen we het percentage model/dataset-combinaties waarin het model de meerderheid van de basislijnen verslaat (zero-shot en weinig-shot).

De resultaten worden weergegeven in figuur 1 hieronder. We constateren dat voor datasets die zijn gepubliceerd voordat LLM werd gecreëerd, het waarschijnlijker is dat LLM de meerderheidsbasislijnen overtreft op nul- en minderheidssteekproefinstellingen.

Voor een enkele LLM vonden we verder:

Test elke LLM afzonderlijk. De resultaten worden weergegeven in Figuur 2 hierboven. Dergelijke trends blijven bestaan in modellen met het volledige datumbereik, wat verder suggereert dat de absolute datum van de dataset niet de primaire factor is, maar eerder dat de variatie in de datumdataset ten opzichte van de datum van verzameling van LLM-trainingsgegevens de belangrijkste factor is.

Analyse van taakmonsterextractie

Als de LLM voorbeelden kan genereren die exact overeenkomen met die in de testgegevens, bewijst dit dat de LLM tijdens de training de testset voor de taak heeft gezien.

De onderzoekers gebruikten een vergelijkbare aanpak om taakbesmetting te testen. Ze proberen niet testgegevens te genereren, maar vragen het model in plaats daarvan trainingsvoorbeelden te genereren, aangezien het model bij nul of minder evaluaties niet op taakvoorbeelden mag worden getraind.

Als de LLM trainingsvoorbeelden kan genereren op basis van hints, is dit een bewijs van taakbesmetting.

Tabel 4 hieronder toont de extractieresultaten van taakvoorbeelden voor alle taken in alle modellen.

Verdere onderzoekers ontdekten ook dat voor taken waarvan niet is aangetoond dat ze de mogelijkheid van taakbesmetting met zich meebrengen, LLM zelden statistisch significante verbeteringen vertoont ten opzichte van de meeste basislijnen.

In Tabel 4 hierboven vertoonde voor de 51 model/dataset-combinaties na verzameling en zonder extractie van taakvoorbeelden slechts 1 van de 51 model/dataset-combinaties (d.w.z. 2%) een statistisch significante verbetering ten opzichte van de meeste basislijnen in de nul- of weinig-shot-setting.

Analyse van de redenering van leden

Om de impact van besmetting van trainingsgegevens verder te onderzoeken, pasten de onderzoekers een lidmaatschapsinferentieaanval toe om te controleren of de door het model gegenereerde inhoud exact overeenkwam met de voorbeelden in de dataset.

Figuren 5a en 5b hierboven laten zien hoeveel voorbeelden die zijn gegenereerd door de bemonsterde trainingsset en de volledige ontwikkelingsset van versies uit de GPT-3-serie en de nieuwste open source LLM exact hetzelfde zijn.

Omdat de databaseschema's (atabase-schema's) niet in de zero-shot-hint voorkomen, moet er sprake zijn van besmetting als het model exact dezelfde tabel- of veldnamen kan genereren als in de trainings- of ontwikkelingsgegevens.

Zoals weergegeven in Figuur 5 neemt het aantal voorbeelden dat wordt gegenereerd door exacte matching in de loop van de tijd toe, wat aangeeft dat het niveau van taakvervuiling op Spider toeneemt.

Ze berekenden ook de nauwkeurigheid van de uitvoering na het toevoegen van patronen aan de aanwijzingen en zetten deze uit tegen het aantal exacte overeenkomsten (Afbeelding 6). We vinden een sterke positieve correlatie tussen het aantal volledig op elkaar afgestemde gegenereerde voorbeelden en de nauwkeurigheid van de uitvoering (? = 0,88), wat er sterk op wijst dat verhoogde vervuiling gepaard gaat met verbeterde prestaties.

Referenties:

https://arxiv.org/abs/2312.16337