Uit het laatste onderzoek van de BBC blijkt dat kunstmatige intelligentie-chatbots nog steeds aanzienlijke tekortkomingen vertonen in de nauwkeurigheid van de nieuwsverslaggeving, waarbij bijna de helft van de gegenereerde inhoud fouten bevat. Volgens een analyserapport dat gezamenlijk is uitgebracht door de BBC en 22 andere Europese publieke mediaorganisaties, in 18 landen en 14 taalomgevingen, bevatten AI-chatbots, wanneer ze toegang kregen tot de inhoud van nieuwsorganisaties en gerelateerde vragen beantwoordden, ongeveer 45% van hun antwoorden fouten.
Deze fouten omvatten niet alleen onnauwkeurige zinnen en verkeerde citaten, maar ook problemen zoals verouderde informatie, verkeerde citaten en niet-overeenkomende bronnen. Het rapport merkt op dat chatbots vaak links aanbieden die niet overeenkomen met de daadwerkelijk geciteerde bronnen, en zelfs als ze materiaal nauwkeurig citeren, er niet in slagen feiten van meningen, satire van legitiem nieuws te onderscheiden.
Grote technologiebedrijven, waaronder OpenAI, Google, Microsoft, enz., promoten actief generatieve AI-chatbots en integreren deze diepgaand in internetplatforms om gebruikers te helpen bij het automatisch verkrijgen en analyseren van informatie. Hoewel ontwikkelaars veel middelen blijven investeren om het fenomeen ‘hallucinatie’ (dat wil zeggen het fabriceren van AI-inhoud) terug te dringen, blijkt uit rapporten dat dit probleem op korte termijn nog steeds moeilijk volledig op te lossen is.
In daadwerkelijke tests vertoonden veel reguliere AI-tools zoals ChatGPT, Copilot en Gemini allemaal aanzienlijke fouten. Ze stellen bijvoorbeeld ten onrechte dat paus Franciscus nog steeds in functie is, terwijl hij in feite is opgevolgd door Leo XIV. Sommige AI rapporteerden zelfs correct de overlijdensdatum van Franciscus, maar beschreven hem nog steeds als de huidige paus. Daarnaast is er verouderde en onjuiste informatie over relevante leiderschapsposities.

Uit het rapport blijkt ook dat deze problemen niet beperkt zijn tot één regio of taal, maar wijdverspreid zijn over de hele wereld. Daarvan is Google's Gemini het minst nauwkeurig: maar liefst 72% van de antwoorden bevatten aanzienlijke bronfouten. OpenAI heeft dergelijke fouten eerder toegeschreven aan het feit dat de vroege versie slechts tot september 2021 was getraind en er niet in slaagde realtime internetinformatie te verkrijgen. Het is echter niet langer van toepassing. Daarom komt het probleem hoogstwaarschijnlijk voort uit het algoritme zelf en is het moeilijk op te lossen door middel van gegevensupdates.
Hoewel het aandeel ernstige fouten is gedaald van 51% naar 37% vergeleken met de afzonderlijke test van de BBC in februari dit jaar, blijft Gemini nog steeds achter op andere producten. Ondanks de slechte resultaten ontdekten de onderzoekers dat het Britse publiek een hoge mate van vertrouwen toonde in de samenvatting van AI-nieuws: meer dan een derde van de Britse volwassenen en bijna de helft van de mensen onder de 35 jaar geloofde dat AI de nieuwsinhoud nauwkeurig kon samenvatten. 42% van het publiek zegt dat wanneer AI de oorspronkelijke nieuwsinhoud verkeerd voorstelt, zij ook de betrouwbaarheid van de nieuwsorganisatie zelf in twijfel zal trekken of het vertrouwen daarin zal verminderen. Deskundigen waarschuwen dat de groeiende populariteit van generatieve AI-tools de reputatie en geloofwaardigheid van reguliere nieuwsorganisaties ernstig zou kunnen schaden als dergelijke problemen aanhouden.
