Cloudflare gebasz, aminek örülni is lehet

Ritkán történnek velünk balesetek. Szerencsés életet élve soha, de ki ne csapott volna rá az ujjára kalapáccsal? Aki dolgozik, hibázik – mondják. Konyhai kellemetlenségek is előfordulnak az éles kések miatt. Némi tapasztalattal a hátad mögött már vigyázol magadra. Nem akarsz megsérülni, csakhogy ez nem kizárólag tőled függ. Ha nagy a baj, akkor elkeseredsz, ha annál is nagyobb, akkor állítólag elkezd peregni előtted az életed, és várod a végedet.
Rázós helyzetekben jól jön a segítség, mert bizonyos sérüléseket elszenvedve harcképtelenné válik az ember, és nem képes egyedül orvosolni a bajt. Ki vagy terülve, lóg a beled és erősen vérzel. Segítőkész embertársaid futnak, szaladnak, hívják a mentőt, tartják benned a lelket. Még magadnál vagy, amikor már tolnak be a műtőbe, ahol felkészült szakemberek várnak. Bízhatsz bennük, láttak már ilyet. Kórházi ágyon térsz magadhoz. Infúzió, kötések rajtad itt-ott, látod az EKG-görbédet a monitoron. Összeraktak, teljesen rendben vagy attól eltekintve, hogy mozdulni sem tudsz. Túlélted, van remény a felépülésre, jó kezekben vagy.

Átlagos magyar emberként nem így éled meg a balesetet. Valószínűleg elvérzel, aztán bekrepálsz. Ha nem a helyszínen, akkor a mentőben vagy a kórházi folyosón, a fal mellé félretolva. Akkor figyelnek fel rád, amikor már büdösödsz. Talán a hírekbe is bekerülsz, valahogy így: méltatlan körülmények között tárolt holttestet találtak a Péterfy Sándor utcai kórházban. Piszok nagy szerencsével vagy protekcióval esetleg mégis foglalkoznak veled. A műtétet túlélheted, de jó eséllyel válsz orvosi műhiba áldozatává. Például nem a rossz lábadat amputálják, hanem a jót. Számtalan módja van annak, hogy ne kerülj ki élve, ha bevisznek egy kórházba. Félrediagnosztizálhatnak. Rutin vakbélműtét után nem ébredsz fel az altatásból. Ha mégis, akkor lábadozva elkapsz valami fertőzést, aminek semmi köze az eredeti nyavalyádhoz, de a kórházak már csak ilyenek. A való élet cseppet sem ideális. Különösen napjaink büdös, koszos, poros, fertőző, kapzsi, haszonleső, önző érdekektől vezérelt világában, alul­fi­nan­szíro­zott in­téz­mény­rend­szer­rel.

A múlt század 80-as éveinek elején, a személyi számítógépek elterjedésének hajnalán azért fordultam a digitális világ felé, mert a gépekben nem lehet csalódni. A bitekből hiányzik ez a "feature". Erre a végletesen egyszerű alapra, a kettes számrendszerre építkezve, szabatosan megfogalmazott algoritmusok mindig jó eredményt adnak, amennyiben a hardware kifogástalan. Számítógépes programok készítésére szakosodtam. Egyszer kell alaposan odafigyelve elvégezni a munkát, utána hátra lehet dőlni, mert az eredmény fáradhatatlanul és megbízhatóan végzi dolgát. Cáfolhatatlan igazság ez, mégis rendszeresen érkeznek hírek a szélesebb tömegeket érintő informatikai fejlesztések hibáiról. Például:

Magyar közpénzen készült weboldalakról, szolgáltatásokról ilyen híreket hallva biztos lehetsz abban, hogy nem az in­ter­net­kap­cso­lat hibája, nem túlterheléses támadás, és nem is a fokozott érdeklődés okozza a gondot. A digitális világ részei ezek, megbízhatóan kéne működniük, mint ahogy a Netflix, YouTube, Amazon, eBay és a többi igazán nagy forgalmú szolgáltató is állja a sarat.
Találni jó példát közelebb is, amit persze nem közpénzből működtetnek. Nézd meg a Telexet. Nem dúskálnak a javakban, mégis odacsattan a böngészőbe a weboldaluk, és azt kell feltételeznem, hogy soha nem lesz elérhetetlen a látogatók rohama miatt. Miért? A telex.hu domaint vizsgálva, most éppen a 172.67.71.160 IP cím van hozzárendelve, amiről a whois megállapítja, hogy a "Cloudflare, Inc. (CLOUD14)" szervezethez tartozik. A Cloudflare pedig saját tapasztalat alapján is ott van a dobogósok között, és a "cdn network ranking" kulcsszavakra keresve is olyan találatok jönnek, ahol az értékelések az élmezőnybe sorolják, ha nem rögtön az első helyre.

Remek szolgáltatás, hozzáértő csapat, megbízható infrastruktúra. Bátran ajánlom mindenkinek, aki internetes megjelenésének rendelkezésre állását a legmagasabb szintre kívánja emelni. Tényleg jó szívvel ajánlom annak ellenére, hogy a napokban lógott a bele, és több sebből vérzett. Felületes szemlélő ebből semmit nem vett észre, mert végig magánál volt, működtek az alapfunkciói.
A Cloudflare jelenleg 310 adatközpontot üzemeltet világszerte (tavaly ilyenkor 250-nél tartottak). Jól átgondolt, minőségi kidolgozású algoritmusokat leképező programok futnak jóféle szervereken, fürtözött, geo-redundáns megoldásokat alkalmazva. Jól ki van találva, le a kalappal, de mint a friss példa mutatja, jön Murphy, és ez is képes elbaszódni. Hogyan lehetséges? Hiszen arról papolok, hogy náluk minden über fasza. Minden, kivéve a szokásosan megbízhatatlan emberi tényező, a munkáltatónál lábatlankodó dolgozó. A melós.

Korábbi történetekben már megosztottam saját tapasztalataimat melósokról, akik manapság nem a legnagyobb megelégedésemre végzik dolgukat. Ezzel a viselkedéssel közvetlenül nekem is okoztak károkat, és azokat a gazdálkodó szervezeteket sem irigylem, akiknél alkalmazásban állnak. Meséltem egy kőművesről, aztán meg a felületkezelő vállakozásnál átélt tapasztalatomról. Én már nem akarok nagy dolgokat véghez vinni, ezért egyedül is boldogulok. Szenvedjenek a melósokkal azok, akik ilyen áron is nagyot akarnak alkotni. Úgy emlékszem, hogy a hosszú élet titkai között mintha szerepelne az a tanács is, hogy semmi közös ügyünk ne legyen melósokkal, se mekkmesterekkel.

Vasárnap este van. Délelőtt kezdtem összefoglalni a tapasztalatokat, de a háztartás igényei többször eltérítettek, ezért vontatottan haladok. Három napja, csütörtök este megnéztem volna a pince.eu statisztikáit, amikor bejelentkezés után az irányítópult (dashboard) képernyőjének alján piros hátterű hibaüzenetek éktelenkedtek, és az adatokhoz nem fértem hozzá. Bill Gates egykoron mögmondta, hogy a siker felé vezető első lépés a rendszer újraindítása. Kijelentkezni, cookie-k és cache törlése után bejelentkezni – továbbra is jönnek a hibajelzések. Megesik az ilyen, nem erőltetem. Másnap ugyanez a helyzet, amiből már merészeltem azt a következtetést levonni, hogy valami gebasz lehet a szolgáltatásban. Aztán később a bejelentkező (login) képernyőn megjelent a tájékoztatás, ami kétségtelenné tette, hogy valóban gebasz van. A nagyon izgága kuncsaftok szorosan nyomon követhetik a CDN állapotát, ahol az erőforrások rendelkezésre állásáról, egyes rendkívüli eseményekről, a megtett intézkedésekről és ezek eredményéről tájékoztatják az érdeklődőket.
Szombat reggelre helyreállt a rend. "All services have been restored" – olvasható a naplóban 2023.11.04 07:58 UTC időstemplivel, és az ezt megelőző bejegyzés arról árulkodik, hogy Matthew Prince, a Cloudflare vezérigazgatója (CEO) részletekbe menően összefoglalta az elmúlt napok eseményeit, amiből a következőket szűrtem le:

  • Nem csak saját adatközpontjaik vannak. Szolgáltatóktól is bérelnek kapacitást, például a Flexential PDX-04 jelzésű, Tier III-as minősítésű egységében.

  • Beütött egy áramszolgáltatói galiba ennek a PDX-04-nek a betáplálásánál. Generátorok elindultak, semmi gond. Aztán az áramszolgáltató automata védelmi rendszere földzárlatot észlelve lekapcsolta a hálózatot, és a protokollnak megfelelően leállította a generátorokat is, amiket emberi beavatkozás révén kellett újraindítani. Az áthidalásra szánt UPS azonban a tervezett 10 helyett csak 4 percig bírta táplálni a rendszert, aztán lemerültek az akkuk. Ennyi idő kevés volt a generátorok újraindítására, így az adatközpont hirtelen áram nélkül maradt. Ennek következménye nem szorul magyarázatra.

  • Az éjszakai műszakba nem osztottak be alkalmas személyzetet. A biztonságiak mellett egy gyakorlatlan technikus volt szolgálatban, aki még csak egy hete dolgozott ebben a munkakörben.

  • Egy jól tervezett redundáns rendszerben még ez sem okozhat gondot, mert ilyen esetben átveszi a feladatokat egy másik, még talpon maradt adatközpont. Számoltak ezzel a lehetőséggel a Cloudflare mérnökei, és nem egy, hanem rögtön két másik adatközpont is készen állt arra, hogy átvegye a kieső szolgáltatásokat. Elméletileg. Mert most éles helyzetben derült fény arra a hiányosságra, hogy bizonyos alrendszerek kizárólag a PDX-04-en futottak, amik így sajnálatosan nem álltak rendelkezésre a továbbiakban.

  • Hiába biztosított a redundancia fizikai síkon (RAID, tandem, clustering), ha rosszul konfigurálják. Az alrendszerek tükrözésének elmaradása emberi mulasztás következménye.

  • A Flexential legfontosabb ügyfele a Cloudflare, mégsem értesítette a kialakult haváriahelyzetről. A Cloudflare-nél abból következtettek üzemzavarra, hogy a PDX-04-ben elhelyezett routerek offline állapotba kerültek.

  • Visszatért az áramellátás. Ekkor kiderült, hogy az áramkörök megszakítói meghibásodtak, nem sikerült visszakapcsolni a Cloudflare szervereit. A Flexential megkezdte a megszakítók cseréjét, s ekkor döbbentek rá, hogy nincs elegendő raktáron, valahonnan szerezni kell. Kereken 10 óra múlva jelezték, hogy végeztek a feladattal.

  • A CEO pihenőre küldte a csapatot azzal, hogy másnap indítsák a PDX-04-et, mert kipihenten kisebb esélyt lát további hibák elkövetésére. Ezerszám állították munkába a szervereket, amire ráment a pénteki nap.

Mit sem ér a Tier III, ha nincs elég szufla az akkumulátorokban. Sokat ront a hatékonyságon a fejetlenség, ha hiányzik a szakképzett sze­mély­zet a műszakból. A beszámolóból ítélve a Cloudflare háza táján is van mit javítani a belső összhangon, a részlegek közötti együttműködésen, az egymástól függetlenül dolgozó programozói csoportok új eredményeinek rendszerbe illesztésén. Látom, hogy a CEO illedelmesen az "I am sorry and embarrassed" keretbe foglalja beszámolóját, de ez csupán egy udvariassági frázis. Ami igazán lényeges, hogy a durva üzemzavar ellenére a CDN szolgáltatás zavartalanul működött világszerte. Abban pedig biztosak lehetünk, hogy ebből az esetből sokat tanultak. Mostantól az eddig nem várt, de mégis bekövetkezett hatásokkal is számolnak, és ettől még jobb, még biztonságosabb lesz a rendszer. Abból is okultak, amikor 1997. január 1-én a DNS szolgáltatásuk bolondult meg rövid időre (ebben a szakmában készülni kell arra a szokatlan furcsaságra, hogy az óra néha visszafelé is ketyeghet).

Egy bizonyos nézet szerint az ember számára az a legnagyobb büntetés, ha meghagyják abban a tudatlanságban, amiben született. Ezzel a történettel mindannyian okosabbak lettünk egy kicsit, aminek örülhetünk. Személy szerint annak is örülök, hogy nem lehet úgy kirántani a szőnyeget egy ilyen rendszer alól, hogy az rögtön dobjon egy hátast. Ez a legfrissebb gyakorlati példa mutatja, hogy akár egy szabotőrnek is rendesen fel kell kötnie a gatyáját ahhoz, hogy egyáltalán felfigyeljenek rá. Annak is örülök, hogy a Cloudflare-nél nem dobták be a törölközőt, nem számolták fel a vállalkozást, és nem eresztették szélnek a szakembereket. Nem semmi feladattal birkóztak meg a halmozott bonyodalmak következtében. Kíváncsi lennék a felelősök sorsára. Megtartják őket a helyükön?