De betrouwbaarheid van de cloudservice luidt opnieuw alarm: Cloudflare onthult details van een vijf uur durende storing incident

De betrouwbaarheid van clouddiensten heeft opnieuw alarm geslagen. Op 18 november, lokale tijd, ondervond de internetinfrastructuurgigant Cloudflare een serviceonderbreking, resulterend in de ontoegankelijkheid van veel grote websites over de hele wereld. Volgens Downdetector (de website zelf was ooit ontoegankelijk voor sommige gebruikers), werden Anthropic's Claude-chatbot, Trump's Truth Social en Musk's sociale mediaplatform X allemaal getroffen, en raakten sommige digitale diensten van het New Jersey Transit System in de Verenigde Staten ook lam als gevolg van onderbrekingen.

Ondertussen liet de statuspagina van OpenAI later op de dag ook zien dat ChatGPT en zijn korte video-applicatie Sora volledig waren hersteld na een storing vanwege een probleem met een "externe serviceprovider".

Cloudflare werd in 2009 opgericht aan de Harvard University en lanceerde officieel de eerste bètaversie in 2010. Het werd in 2019 genoteerd aan de New York Stock Exchange en bedient momenteel 30% van de Fortune 1000-bedrijven. De kerndiensten omvatten DDoS (Defense Distributed Denial of Service), een aanval die een doelwebsite overspoelt met een groot aantal valse verzoeken en deze lamlegt. Volgens berichten in de buitenlandse media dekken de verkeersbeheer- en beveiligingsdiensten van het bedrijf ongeveer 20% van het internetverkeer.

Getroffen door het incident daalde de aandelenkoers van Cloudflare met 2,83% vanaf de sluiting van de Amerikaanse aandelenmarkt op de 18e.

Mede-oprichter en CEO van Cloudflare, Matthew Prince, zei dat dit de ernstigste storing van Cloudflare is sinds 2019. "De storing van vandaag is onaanvaardbaar... Namens het hele Cloudflare-team wil ik mijn excuses aanbieden voor de problemen die op het internet zijn veroorzaakt."

Foutmeldingen op getroffen websites

Cloudflare CTO Dane Knecht postte ook op sociale platforms, verontschuldigde zich diep voor de mislukking en zei dat het incident werd veroorzaakt door de steun van het bedrijf voor het ontdekken van een potentiële fout in een dienst met een bot-mitigatiefunctie, die begon te crashen na het maken van routinematige configuratiewijzigingen, waardoor een wijdverbreide degradatie van het netwerk en andere diensten werd veroorzaakt, in plaats van te worden veroorzaakt door een aanval.

Knecht zei dat de storing, de impact ervan en de hersteltijd onaanvaardbaar waren. "We werken eraan om ervoor te zorgen dat dit nooit meer gebeurt, maar weten dat er echte impact is. Het vertrouwen dat onze klanten ons hebben gegeven is ons meest waardevolle bezit en we zullen er alles aan doen om het terug te verdienen."

Screenshot van de tweet van Cloudflare CTO Dane Knecht

Op de ochtend van 19 november, lokale tijd, bracht Cloudflare een compleet rapport uit, waarin het incident dat bijna 5 uur duurde in detail werd beschreven: De impact begon om 11:28 uur op de 18e, lokale tijd, en er werden voor het eerst fouten waargenomen in het HTTP-verkeer van klanten; om 14.30 uur was de belangrijkste impact opgelost, stroomafwaarts getroffen services begonnen een vermindering van het aantal fouten waar te nemen en de meeste services begonnen correct te werken; om 17:06 uur werden alle downstream-diensten opnieuw opgestart, werden alle activiteiten volledig hersteld en eindigde de impact.

Cloudflare zei dat het bedrijf op het moment van de storing "aanvankelijk ten onrechte vermoedde dat de waargenomen symptomen werden veroorzaakt door een zeer grootschalige DDoS-aanval", en later het kernprobleem correct identificeerde: het onderliggende ClickHouse-querygedrag dat dit bestand genereerde, was veranderd. Het bestand bevatte een groot aantal herhaalde 'handtekening'-regels, waardoor de Bot Management-module een fout activeerde, waardoor het kernproxysysteem een HTTP 5xx-foutcode retourneerde voor al het verkeer dat afhankelijk was van deze module. Tegelijkertijd, toen een foutbestand met een overschrijdende limiet van het aantal functies naar de server werd doorgegeven, werd de systeempaniek van Cloudflare geactiveerd. Daarnaast heeft dit ook gevolgen voor de Workers KV- en Access-diensten waarvan de klanten van het bedrijf afhankelijk zijn van de kernagenten.

Cloudflare loste het probleem vervolgens op door het genereren en verspreiden van bestanden met slechte handtekeningen te stoppen en handmatig een bestand met een bekende goede handtekening in de wachtrij voor de distributie van handtekeningen in te voegen, waarna een herstart van de kernagent werd geforceerd, en het aantal 5xx-foutcodes werd weer normaal.

Tijdlijn voor uitval van Cloudflare

Cloudflare zei: "Gezien het belang van Cloudflare in het internet-ecosysteem is elke verstoring van een van onze systemen onaanvaardbaar", en verontschuldigde zich voor de impact op klanten en het internet als geheel.

Cloudflare zei dat het bedrijf is begonnen te bestuderen hoe het systeem kan worden versterkt om soortgelijke fouten in de toekomst te voorkomen, inclusief het versterken van de opnameverwerking van door Cloudflare gegenereerde configuratiebestanden op dezelfde manier als door gebruikers gegenereerde invoer; het mogelijk maken van meer mondiale noodstopschakelaars voor functies; het elimineren van de mogelijkheid dat kerndumps of andere foutrapporten de systeembronnen uitputten; het beoordelen van foutmodi op foutcondities in alle kernagentmodules.

Volgens berichten in de buitenlandse media had Amazon Cloud Service minder dan een maand voor het ongeval net een daglange storing gehad die meerdere netwerkdiensten lamlegde. Vervolgens ondervonden ook Microsoft Azure Cloud Service en 365 Office Suite wereldwijde storingen.

Al in juli 2024 veroorzaakte het cybersecuritybedrijf CrowdStrike een grootschalige systeemstoring als gevolg van een defecte software-update, waardoor kettingreacties ontstonden zoals het aan de grond houden van vluchten, het blokkeren van financiële diensten en het uitstellen van operaties in ziekenhuizen.