Come avrai notato, mercoledì 30 c’è stata una sospensione non pianificata del sistema. L’applicazione Debitoor è stata disattiva per 2,5 ore e la funzione Offerte per 4,5 ore.
Il nostro obiettivo è fare in modo che il programma Debitoor sia disponibile 24 ore su 24, quindi non siamo orgogliosi di quello che è successo e ci scusiamo molto se ha causato disagi agli utenti.
In questo blog voglio spiegare in dettaglio quello che è successo, quello che abbiamo fatto per risolvere il problema e le misure che abbiamo preso per prevenire che succeda di nuovo.
Cronologia degli eventi
10.40 Due sviluppatori hanno preparato ed eseguito un aggiornamento del sistema di produzione. L’aggiornamento non avrebbe dovuto interrompere il servizio. Questa è una routine che facciamo quasi ogni giorno per aggiungere nuove funzioni e mantenere il programma nel suo miglior stato.
Questa volta l’aggiornamento non ha funzionato come le altre volte e abbiamo scoperto subito che la funzione Offerte non era più disponibile nell’applicazione. Allarme rosso!
10.45 È stato deciso di portare l’applicazione offline per investigare ulteriormente.
13.15 Certi che nessun danno potrebbe essere causato, Debitoor è stato riportato online, ma la funzione Offerte era ancora disattiva. La ricerca del problema era ancora in corso.
13.41 Abbiamo scoperto che anche la funzione Acquisti presentava lo stesso sintomo e la causa era un aggiornamento fatto il giorno precedente.
14.30 Il problema con gli Acquisti è stato risolto e presentato per la produzione.
17.30 Dopo 7 ore in cui le Offerte sono state disattive, sono tornate in funzione e Debitoor operava normalmente.
Causa principale
Il processo di installazione delle modifiche su Debitoor è altamente automatizzato. Facciamo affidamento su strumenti di distribuzione che eseguono l’installazione tutte le volte necessarie, senza l’intervento umano e, cosa più importante, senza che l’applicazione venga disattivata.
Una settimana prima dell’incidente abbiamo fatto un cambiamento a uno dei nostri strumenti di distribuzione che avrebbe potuto influenzare gli aggiornamenti fatti a Debitoor. Queste modifiche sono state sottoposte alla revisione dei colleghi e ad un processo di verifica.
A quanto pare, qualcosa non ha funzionato e ci è servito molto tempo per analizzare esattamente cosa è successo per fare in modo che lo stesso errore non si ripeta in futuro.
Considerando quello che è successo, sono stati identificati due errori:
- per un errore umano, l’aggiornamento a Debitoor è stato rilasciato senza le modifiche dello strumento di distribuzione
- revisione e verifica della nuova funzionalità sono stati erroneamente eseguiti in un ambiente dove la versione dello strumento di distribuzione era quella sbagliata.
Imparare dai propri sbagli
Imparare, in generale, e in particolare dai propri sbagli, è fondamentale in un’attività che offre un servizio online come Debitoor. L’obiettivo che vogliamo rinforzare è “Fare in modo che il periodo di downtime non succeda due volte per lo stesso motivo”.
In seguito agli eventi dell’altra settimana abbiamo introdotto delle misure che dovrebbero prevenire che questo succeda di nuovo, come:
- migliorare le nostre procedure manuali nell’applicare questi tipi di cambiamenti
- implementare ulteriori controlli automatizzati per supportare le procedure che hanno causato i problemi
Siamo sicuri che questo può prevenire che l’errore accada di nuovo.
In conclusione
Non possiamo scusarci abbastanza per quello che è successo. Sappiamo come ci si sente quando si scopre che il proprio lavoro va offline e stiamo lavorando sodo per assicurare che questo non accada più.
Scritto da Nicolai Kollner