L’incidente dello scorso venerdì ha causato scalpore in tutto il mondo. Ora, a questione risolta, si cerca a chi puntare il dito, e i candidati principali sono CrowdStrike e Microsoft: ma è giusto farlo? E si tratta di un evento epocale come tutti dicono? Ne discutono il direttore di TechBusiness, Dario Maggiorini, e Michele Sensalari, CTO presso OverNet e MVP Microsoft.
Facciamo un po’ di luce su CrowdStrike
CrowdStrike è una società statunitense che si occupa dello sviluppo di vari strumenti per la sicurezza informatica, ed è riconosciuta da Gartner come uno dei player principali del settore. In particolare, la piattaforma di CrowdStrike si occupa di endpoint security e di Identity Threat Detection and Response, ossia della protezione degli endpoint e della rilevazione delle attività malevole, ma anche di Threat Intelligence, Threat Hunting (caccia alle minacce). Ciò che ha causato l’incidente dello scorso 19 luglio è stato il software Falcon, la soluzione di CrowdStrike che si occupa di Endpoint Protection e Endpoint Detection and Response, ossia la protezione dei singoli computer sui quali il software è installato, che in questo caso avevano Windows come sistema operativo.
I problemi di deployment non sono rari, lo sono le circostanze
L’ambiente in cui questi software per la sicurezza operano è molto complesso e articolato, perciò prone a problematiche di vario tipo. Sebbene sia raro che questi problemi (soprattutto di questa scala) si verifichino nel front-end, causando scalpore, lo stesso non si può dire per il back-end, dove problematiche simili si presentano molto più spesso.
Non è raro, infatti, dover fare restart anche di interi segmenti di un’organizzazione per un problema di deployment, o addirittura di dover ricorrere a backup in alcuni casi. Nel mondo del software engineering, spesso capita che non siano stati fatti tutti gli aggiornamenti del caso, o non vengano testate appieno tutte le componenti prima del deployment effettivo. Questo è un errore umano che, nella maggior parte dei casi, non sfocia in un disastro, ma in un temporaneo setback per l’azienda (e qualche ora di sonno in meno per ingegneri e sistemisti). Però, lontano dagli occhi (del pubblico), lontano dal cuore.
In questa situazione, la preoccupazione maggiore per CrowdStrike è stata non il dover risolvere il problema in sé, che richiedeva il riavvio dei sistemi, la cancellazione di un file in safe mode e il re-deployment, ma il far fronte al disastro mediatico causato dell’errore.
È giusto puntare il dito a Microsoft?
Nel caos mediatico è stato messo nel mirino non solo CrowdStrike, ma anche Microsoft. L’aggiornamento del sistema di sicurezza Falcon ha causato il malfunzionamento molte delle macchine virtuali Windows presenti su Azure, facendo erroneamente pensare che anche Microsoft avesse contribuito all’incidente.
“Certamente la visibilità maggiore forse la si vede nel cloud perché dà un impatto più veloce, ma sono stati impattati anche i sistemi on-prem. Non era il cloud il problema, era l’aggiornamento su uno specifico sistema operativo, in questo caso purtroppo Windows“, ha commentato Michele Sensalari.
Dal punto di vista tecnico, ripristinare un sistema on-prem è più semplice di ripristinare un sistema virtualizzato, dato che non si ha di fronte hardware fisico. Questo è ciò che probabilmente ha spinto molti a pensare che Azure, e quindi Microsoft, non sia affidabile.
Il volersi allontanare da Microsoft e Windows, come ha dichiarato di voler fare il governo tedesco in seguito all’incidente, pare, alla luce dei fatti, una mossa guidata dallo scalpore mediatico. Come precisa il direttore, la maggior parte dei sistemi virtualizzati su Azure utilizzano Linux, e non Windows.
Fidarsi è bene, ma non fidarsi è meglio: l’importanza di avere solidi piani di disaster recovery
L’incidente ha inoltre sollevato un polverone riguardo all’affidamento della sicurezza di sistemi critici a terze parti, in questo caso il software di CrowdStrike. Una preoccupazione più che fondata: il software perfetto, privo di errori e sempre correttamente funzionante, non esiste. Affidarsi completamente a soluzioni, siano esse di terze parti o sviluppate ad-hoc, senza avere un piano di ripristino in caso di guasti e malfunzionamenti è quindi un grave errore.
Anche qui, Microsoft ci dà una mano
Se quel fatidico 19 luglio tutte le entità affette avessero avuto un solido piano di disaster recovery e adottato accorgimenti come il backup dell’infrastruttura molto probabilmente la problematica si sarebbe risolta in tempi più brevi. I sistemi Windows semplificano la procedura di backup mettendo a disposizione l’opzione di creare punti di ripristino e snapshot, una sorta di fotografia istantanea del sistema. Anche nei sistemi nel cloud, chiamati in casa Microsoft “Windows 365”, esiste di default una procedura di ripristino, che si preoccupa di creare automaticamente 10 backup del sistema al giorno. In caso di guasti, è possibile fare rollback a una versione del sistema stabile, indipendentemente dal software installato. Per citare un caso italiano, l’aeroporto di Orio al Serio, che ha adottato un’infrastruttura cloud, era dotato di un piano di emergenza che ha permesso il recupero veloce delle funzionalità sfruttando sistemi di backup locali.
Michele Sensalari precisa che è comunque buona prassi avere un piano di emergenza anche per quanto riguarda il cloud stesso. Alcune organizzazioni fanno infatti affidamento a più di un fornitore cloud, per avere ridondanza in caso di guasti presso il fornitore principale.
In conclusione, temere la tecnologia perché prona a errori è uno sbaglio. Ciò che le organizzazioni devono fare è non affidarsi ciecamente a essa, ma essere pronti a ogni evenienza grazie a un solido piano B.
La redazione ringrazia Michele Sensalari per l’opportunità di discutere questo recente evento e per i preziosi spunti forniti.
- Wright, Anthony Cecil (Autore)