Google gebruikt oud nieuws en grote modellen om nieuwe methoden voor het voorspellen van flash floods

Plotselinge overstromingen zijn een van de dodelijkste meteorologische rampen ter wereld, waarbij jaarlijks meer dan 5.000 mensen om het leven komen. Ze zijn echter lange tijd moeilijk nauwkeurig te voorspellen vanwege hun snelle aanvang, kleine omvang en korte duur. Geconfronteerd met dit probleem is het nieuwe antwoord van Google: “AI nieuwsberichten laten lezen.”

Traditionele meteorologische monitoring heeft een grote hoeveelheid gegevens verzameld, zoals temperatuur, regenval en rivierstroming. Voor plotselinge en extreem sterke plotselinge overstromingen beschikt de mens echter niet over zo volledige en continue observatiegegevens als andere meteorologische elementen. Dit heeft ertoe geleid dat, hoewel deep learning steeds krachtiger wordt op het gebied van weersvoorspellingen, het niet in staat is om op hetzelfde niveau te presteren bij het voorspellen van plotselinge overstromingen, omdat er een gebrek is aan voldoende ‘echte waarde’-gegevens om het model te trainen.

Om deze leemte in de gegevens op te vullen, gebruikte het Google-onderzoeksteam het grote taalmodel Gemini om ongeveer 5 miljoen nieuwsberichten van over de hele wereld te screenen, automatisch ongeveer 2,6 miljoen verschillende overstromingsgebeurtenissen te identificeren en te extraheren, en deze tekstrapporten vervolgens om te zetten in een reeks gegevensset "Groundsource" met tijd- en geografische tags. Gila Loike, onderzoeksproductmanager van Google, zei dat dit de eerste keer is dat het bedrijf een groot taalmodel heeft gebruikt om dit soort kwantitatieve gegevensconstructiewerkzaamheden te voltooien. De relevante onderzoeksresultaten en datasets zijn donderdagochtend vroeg publiekelijk vrijgegeven.

Na het verkrijgen van deze ‘real-world basislijn’ trainden de onderzoekers een nieuw voorspellingsmodel voor plotselinge overstromingen, gebaseerd op een neuraal netwerk op lange korte termijn (LSTM), waardoor het mondiale weersvoorspellingsgegevens kon invoeren en de waarschijnlijkheid van plotselinge overstromingen in een specifiek gebied kon weergeven. Momenteel biedt het Google-voorspellingsmodel voor plotselinge overstromingen risicotips voor stedelijke gebieden in 150 landen op het Flood Hub-platform, en zijn gegevens toegankelijk voor veel instanties voor noodbeheer over de hele wereld. António José Beleza, een noodhulpfunctionaris bij de Southern African Development Community (SADC), zei in een proef met Google dat het model zijn team hielp sneller op overstromingen te reageren.

Dit systeem heeft echter nog steeds duidelijke beperkingen. Aan de ene kant is de ruimtelijke resolutie relatief laag en kan deze momenteel alleen risicobeoordelingen opleveren op een schaal van ongeveer 20 vierkante kilometer; aan de andere kant is de nauwkeurigheid ervan niet zo nauwkeurig als het bestaande waarschuwingssysteem voor overstromingen van de National Weather Service in de Verenigde Staten, omdat het geen realtime monitoringgegevens voor neerslag bevat, zoals lokale radar.

Google benadrukte dat een van de oorspronkelijke bedoelingen van dit project was om een rol te spelen in de ontwikkeling van gebieden die geen dure weerobservatie-infrastructuur hebben en geen lange termijn weerrecords hebben. Door miljoenen nieuwsberichten van over de hele wereld samen te voegen, brengt de Groundsource-dataset de kaart opnieuw in evenwicht in een mate die modellen in staat stelt voorspellingen te extrapoleren naar gebieden waar gegevens anders schaars zijn. Juliet Rothenberg, programmamanager van het veerkrachtteam van Google, zei dat deze aanpak het team in staat stelde gebieden te bestrijken waar voorheen een ernstig gebrek aan informatie bestond.

Rothenberg zei ook dat het idee om grote taalmodellen te gebruiken om tekstverhalen om te zetten in gestructureerde kwantitatieve gegevens niet beperkt is tot plotselinge overstromingen. Er wordt verwacht dat in de toekomst vergelijkbare technologieën zullen worden gebruikt om datasets op te bouwen over even kortstondige maar uiterst belangrijke natuurverschijnselen zoals hittegolven en modderstromen, die een basis zullen vormen voor de voorspelling van extremere weersomstandigheden en geologische rampen.

Volgens insiders uit de branche is de poging van Google een belangrijke stap in het bevorderen van de ontwikkeling van diepgaande weersvoorspellingen door middel van creatieve gegevensverzameling. Marshall Moutenot, CEO van Upstream Tech, een bedrijf dat ook deep learning gebruikt om rivierstromingen te voorspellen voor klanten zoals waterkrachtbedrijven, wees erop dat het huidige veld van de aardwetenschappen wordt geconfronteerd met het aanhoudende probleem van ‘dataschaarste’: aan de ene kant zijn aardobservatiegegevens uiterst complex, en aan de andere kant zijn er zeer beperkte ‘waarheidswaarden’ van hoge kwaliteit die kunnen worden gebruikt om modellen te kalibreren en te valideren. Moutenot is ook mede-oprichter van dynamical.org, een organisatie die zich toelegt op het organiseren van weergegevens voor onderzoekers en startups die direct kunnen worden gebruikt bij machinaal leren. Hij is van mening dat het werk van Google een typisch voorbeeld is van het verkrijgen van waardevolle gegevens via ‘zeer creatieve methoden’.