Operativno upravljanje IT incidentima

Koliko puta ste čuli ili pročitali: “Kada krene sr*nje najvažnije je ostati pribran. Bez nervoze i paničnih reakcija”? Lako je nešto takvo napisati ali teško provesti jednom kada krene incident. Srećom ima načina da se i u najgorim incidentnim situacijama razina stresa zadrži na minimalnim razinama. Budimo iskreni, nikada se neće u potpunosti ukloniti stres ali se može znatno smanjiti.

Ako smanjimo stres u procesu rješavanja incidenta, smanjuje se mogućnosti dodatnih grešaka a nedostupnost se efikasnije otklanja. Za smanjenje stresa ne moram objašnjavati kakav pozitivan utjecaj ima na zdravlje i moral djelatnika.

Postmortem

Što je postmortem? Lessons-Learned? Pojam mijenja naziv ovisno o kojoj grani industrije se radi. Zajedničko svima je – otkriti uzrok incidenta kako bi se u budućnosti minimizirao rizik ponavljanja istog incidenta. Bitno je da ne otkrivamo krivca. Ne igramo “the blame game”. Otkrivamo uzrok u sustavu, proceduri ili procesu koji je doveo do incidenta. Gotovo nikad je uzrok namjerna ljudska intencija. I tako se trebamo postaviti kada krećemo u postmortem analizu.

Neke grane industrije su iznimno rigorozne što se tiče postmortem procedura. Primjerice avio prijevoz. S druge strane u nekim granama industrije i ne postoji. Najčešće ako nije mandatorno zakonom ili regulativom provoditi postmortem analize – ne provode se. A ako sam nešto naučio iz Black Box Thinking – postmortem analize su ključ za napredak.

Pojedine tvrtke su svjesne te činjenice. Ne samo da provode postmortem analize već i javno objavljuju. Neke postmortem analize su i više od same analize, to su fantastični eseji koje je užitak pročitati. Primjerice, analize Spotify, Cloudflare, GitHub, Facebook, itd.