De Large Hadron Collider heeft een nieuw databasesysteem nodig om zijn multi-petabyte experiments

CERN is een van de meest ambitieuze technische en wetenschappelijke ondernemingen in de menselijke geschiedenis. De Large Hadron Collider (LHC) is 's werelds grootste en meest energetische deeltjesversneller, en wetenschappers gebruiken hem om bewijsmateriaal van de structuur van de subatomaire wereld te analyseren. Daarbij kan de LHC elk jaar tientallen petabytes aan gegevens produceren.

CERN moest onlangs zijn backend-IT-systemen upgraden ter voorbereiding op de nieuwe experimentele fase van de LHC (LHC Operation 3). De verwachting is dat deze fase eind 2025 elke dag 1 PB aan data zal genereren. Eerdere databasesystemen zijn niet langer geschikt om de gegevens met "hoge kardinaliteit" te verwerken die zijn geproduceerd door de grote experimenten van de versneller, zoals CMS.

De Compact Muon Solenoid (CMS) is een universele detector bij de Large Hadron Collider met een breed natuurkundig programma. Het omvat de studie van het Standaardmodel, inclusief het Higgsdeeltje, en de zoektocht naar extra dimensies en deeltjes waaruit donkere materie zou kunnen bestaan. CERN noemt het experiment een van de grootste wetenschappelijke samenwerkingen in de geschiedenis, waaraan ongeveer 5.500 mensen uit 241 instellingen in 54 verschillende landen deelnemen.

CMS en andere Large Hadron Collider-experimenten ondergingen een grote upgradefase van 2018 tot 2022 en zijn nu klaar om botsende subatomaire deeltjes te hervatten tijdens de drie jaar durende operationele fase 3-gegevensverzamelingsperiode. Tijdens de sluiting hebben CERN-experts ook aanzienlijke upgrades doorgevoerd aan de detectorsystemen en de computerinfrastructuur die CMS ondersteunen.

Brij Kishor Jashal, een wetenschapper die met CMS werkt, zei dat zijn team in 30 dagen 30 TB aan gegevens verzamelde om de prestaties van de infrastructuur te monitoren. Hij legde uit dat deze bedrijfsfase resulteert in een hogere helderheid, wat resulteert in een aanzienlijke toename van het datavolume. Eerdere back-end monitoringsystemen vertrouwden op de open source time series database (TSDB) InfluxDB en de monitoringdatabase Prometheus, die compressie-algoritmen gebruikten om deze gegevens efficiënt te verwerken.

InfluxDB en Prometheus ondervonden echter problemen met de prestaties, schaalbaarheid en betrouwbaarheid, vooral bij het omgaan met gegevens met een hoge kardinaliteit. Hoge kardinaliteit verwijst naar de prevalentie van dubbele waarden en de mogelijkheid om de applicatie meerdere keren opnieuw te implementeren in nieuwe exemplaren. Om deze uitdagingen aan te pakken, heeft het CMS-monitoringteam ervoor gekozen om InfluxDB en Prometheus te vervangen door de VictoriaMetrics TSDB-database.

Nu is VictoriaMetrics zowel het back-endopslag- als het monitoringsysteem van CMS, waardoor het kardinaliteitsprobleem dat we eerder tegenkwamen effectief wordt opgelost. Jashal merkte op dat het CMS-team momenteel tevreden is over de prestaties van het cluster en de services. Hoewel er nog steeds ruimte is voor schaalbaarheid, draaien deze services in de ‘hoge beschikbaarheidsmodus’ binnen het speciale Kubernetes-cluster van CMS om hogere betrouwbaarheidsgaranties te bieden. Het datacenter van CERN is afhankelijk van OpenStack-services, die draaien op een cluster van robuuste x86-machines.

toegang:

Alibaba Cloud - Universele vouchers tot 1888 yuan onmiddellijk beschikbaar