Het AI Studio-platform van Google test een naamloos AI-model en heeft belangrijke vooruitgang geboekt bij het ontcijferen van onleesbare historische manuscripten. Het foutenpercentage van het model bij de kernkarakterherkenning bedraagt slechts 0,56%, en de nauwkeurigheid ligt dicht bij het niveau van professionele onderzoekers op dit gebied.
Historicus Mark Humphries voerde een systematische evaluatie van het model uit met behulp van een speciaal gebouwde benchmarkdataset. In de vijf moeilijke manuscripten uit de 18e tot de 19e eeuw die in de test werden behandeld, bedroeg het algemene karakterfoutpercentage van het model ongeveer 1,7%. De meeste fouten deden zich voor bij niet-kernkwesties zoals specificaties voor interpunctie en hoofdlettergebruik, en hadden geen invloed op de correcte herkenning van de woorden zelf.
Als deze niet-kritieke fouten worden uitgesloten, kan het karakterfoutenpercentage van het model verder worden teruggebracht tot 0,56%, wat overeenkomt met slechts één inhoudelijke fout per 200 getranscribeerde karakters. De prestaties zijn al vergelijkbaar met die van professionele medewerkers die zich richten op documenttransliteratie.
De testmanuscripten bestrijken een breed scala aan schrijfstijlen, waaronder complexe situaties zoals onleesbaar handschrift, niet-standaard spelling en inconsistente grammatica, waardoor de sterke aanpasbaarheid van het model volledig wordt geverifieerd.Wat nog opmerkelijker is, is dat dit model niet alleen de teksttranscriptie kan voltooien, maar ook bepaalde contextuele redeneermogelijkheden kan demonstreren.
Bij het verwerken van een 18e-eeuws koopmansdagboek stuitte het model bijvoorbeeld op een suikeraankooprecord van "145" zonder etikettering van de eenheden. Door het rekeningtotaal achteraf te controleren en het te combineren met de Britse valuta- en gewichtseenheidsystemen van die tijd, kon het met succes concluderen dat het cijfer "14 pond 5 ounces" vertegenwoordigde.
Humphries wees er ook op dat de huidige beoordeling nog steeds bepaalde beperkingen kent. Omdat dit model slechts sporadisch in de vorm van A/B-testen voorkomt, is het lastig om grootschalige systematische verificatie uit te voeren. Momenteel is slechts ongeveer 10% van de monsters in de benchmarkdataset geëvalueerd.
