vx-underground, een onderzoeksteam dat beweert over de grootste verzameling malwarebroncodes ter wereld te beschikken, heeft onlangs op het sociale platform X gepost dat de totale hoeveelheid malwaregegevens die het momenteel opslaat ongeveer 30 TB (terabytes) bedraagt. Kort daarna zei Bernardo Quintero, oprichter van de online multi-engine virusscanservice VirusTotal, in een antwoord dat het totale aantal malwaremonsters dat door gebruikers door de jaren heen bij VirusTotal is ingediend, ongeveer 31 petabytes (petabytes) heeft bereikt. Volgens veelgebruikte conversies is één petabyte ongeveer gelijk aan duizend terabytes, wat betekent dat de dataschaal van beide de intuïtieve verbeeldingskracht van gewone gebruikers ver te boven gaat.

Cybersecuritybedrijven, onderzoekers op het gebied van kunstmatige intelligentie en inlichtingendiensten op het gebied van bedreigingen beschouwen dit type malware-voorbeeldbibliotheek over het algemeen als belangrijke basisgegevens voor het trainen van detectiemodellen, het bestuderen van het evolutiepad van aanvalstechnieken en het analyseren van nieuwe bedreigingen. Wanneer deze gegevens, vaak gemeten in terabytes en petabytes, echter worden samengevat in cijfers, is het vaak moeilijk om in de fysieke wereld een referentie te vinden voor hoe ‘groot’ ze zijn. Daarom stelde iemand een nogal expliciete vraag: als al deze gegevens op een traditionele harde schijf worden opgeslagen en één voor één worden gestapeld, hoe hoog kunnen deze 'malwarebanken' dan worden opgestapeld? Hoe verhoudt het zich tot historische gebouwen in de echte wereld?
Een TechCrunch-verslaggever probeerde deze vraag te stellen aan een AI-chatbot in de redactiekamer, maar het antwoord dat hij kreeg was “zo schandalig dat het zo ongelooflijk was” dat hij het moest opgeven. Dus schakelde de redactie over op de meest directe methode: pen en papier pakken en een paar "ruwe berekeningen op de achterkant van een servet" maken, gebaseerd op gezond verstand. Gezien het feit dat zowel vx-underground als VirusTotal hun datavolume beschrijven in termen van "ongeveer TB/PB", volgde de verslaggever ook deze "bij benadering" benadering.
Om de lezers in staat te stellen een intuïtief concept te vormen, gaat de verslaggever ervan uit dat er een standaard mechanische harde schijf van 1 TB van 3,5 inch wordt gebruikt. Dit type harde schijf heeft in principe dezelfde fysieke afmetingen om in een algemeen chassis te passen, met een hoogte van ongeveer 1 inch (ongeveer 2,54 cm). Onder dit uitgangspunt hoeft u alleen maar aandacht te besteden aan de dimensie "hoogte" om het effect te simuleren van "het één voor één omhoog brengen van de harde schijf". Het artikel negeert ook het verschil tussen de nominale capaciteit en de beschikbare capaciteit van de harde schijf bij daadwerkelijk gebruik, en berekent dit direct op basis van de nominale 1 TB om de aftrek te vereenvoudigen.
Volgens de resultaten van een online conversietool voor opslageenheden claimt vx-underground ongeveer 30 TB aan malwaregegevens, wat ongeveer gelijk is aan de capaciteit van 30 harde schijven van 1 TB. Als deze 30 harde schijven van onder naar boven zouden worden gestapeld, zouden ze ongeveer 30 inch hoog zijn, oftewel ongeveer 2,5 voet (minder dan 1 meter). De auteur van het artikel gebruikte zijn eigen lengte als vergelijking. Vergeleken met zijn lengte van 1,83 meter lijkt zo'n stapel harde schijven meer op een klein doosje dat aan zijn voeten is opgestapeld.
Wanneer het perspectief zich op VirusTotal richt, vindt er bij deze vergelijking onmiddellijk een 'omvangssprong' plaats. Als we het totale volume van 31 PB omzetten, zijn er ongeveer 31.744 harde schijven van 1 TB nodig om dit volledig te kunnen verwerken. Als dezelfde "verticaal gestapelde" methode wordt gebruikt, zal de theoretische hoogte van deze "datatoren", bestaande uit harde schijven, ongeveer 2.645 voet (ongeveer 806 meter) bereiken. Op de wereldlijst van superhoge gebouwen nadert deze hoogte al die van de Burj Khalifa, 's werelds hoogste gebouw in Dubai, dat ongeveer 2.722 voet (ongeveer 829 meter) bedraagt.
Met andere woorden: als het malwaremonster van VirusTotal wordt gezien als een kolom die volledig uit harde schijven bestaat, is de hoogte slechts minder dan 25 meter korter dan die van de Burj Khalifa, wat genoeg is om te wedijveren met de skyline van deze ‘verticale stad’. De verslaggever koos ook voor een andere iconische referentie: de Eiffeltoren in Parijs, die ongeveer 330 meter hoog is. Volgens een ruwe schatting in dit artikel is de hoeveelheid malware-samples die VirusTotal momenteel verzamelt ongeveer gelijk aan een stapel harde schijven zo hoog als "twee en een halve Eiffeltoren".
TechCrunch heeft in het rapport een schematisch diagram van informatievisualisatie verspreid, waarbij meerdere referentieobjecten horizontaal van hoog naar laag zijn gerangschikt op basis van de hoogte. Van links naar rechts: de ongeveer 2.722 meter hoge Burj Khalifa; de ongeveer 600 meter hoge VirusTotal "datatoren" van harde schijven; het ongeveer 1.792 meter hoge One World Trade Center; de ongeveer 300 meter hoge Eiffeltoren; de 1,80 meter lange verslaggever zelf; en een kleine stapel harde schijven, slechts ongeveer 70 cm hoog, die de 30 terabytes aan gegevens van vx-underground vertegenwoordigen. Door deze regeling kunnen lezers duidelijk de enorme kloof in gegevensgrootte tussen verschillende "malwarebanken" voelen.
Het rapport wees er ten slotte op dat deze verbluffend grote bibliotheken met malwaremonsters niet alleen 'noodzakelijk' zijn voor beveiligingsonderzoek, maar ook onzichtbaar de enorme schaduw van de huidige netwerkdreigingen weergeven. Wanneer beveiligingsbedrijven en onderzoekers deze datastapels doorzoeken, labelen en modelleren, racen ze feitelijk tegen ‘onzichtbare torens’ om de aanwijzingen voor de volgende aanvalsgolf zo vroeg mogelijk te ontdekken.