Nell’articolo sulla valorizzazione dei dati abbiamo intrapreso un breve viaggio alla scoperta delle declinazioni delle tecniche di Machine Learning combinate alle tecnologie di Internet of Things.
Le applicazioni che nascono da questo binomio sono certamente le più interessanti ed avanzate all’interno del mondo Industry 4.0: in continua crescita anche l’interesse nei risvolti operativi ed economici.
Proseguendo il percorso, dopo aver parlato di come preparare i dati per il Machine Learning abbiamo iniziato a capire come effettuare una vasta raccolta di dati IoT non sia da solo garanzia di successo del progetto predittivo che si desidera intraprendere: centrale è la capacità di estrapolare i momenti e gli aspetti cruciali del processo monitorato.
Last but not least, per estrapolare conoscenza dell’esperienza pregressa è necessario che le informazioni raccolte raccontino davvero ciò che è successo: come in ogni progetto dove il dato deve trasformarsi in valore, il tema della data quality non può essere trascurato.
Data Cleaning di dati IoT: cos’è?
Il Data Cleaning (a cui si riferisce anche con Data Cleansing) è un aspetto tanto citato quanto vasto da essere affrontato: perché è così importante?
Come negli articoli precedenti, cercheremo di capire quali sono le principali criticità che possono verificarsi quando si approccia per la prima volta una grande mole di dati IoT, per capire quando il Data Cleansing può intervenire e quali situazioni è in grado di risolvere.
Durante tutto il tempo in cui i sensori sono stati in raccolta dal campo, eventi di qualsiasi genere possono essersi verificati e aver introdotto qualche defezione nelle memorie degli impianti:
- La serie storica di una variabile monitorata potrebbe contenere un valore mancante o decisamente fuori scala, comportando un blackout nell’andamento completo del fenomeno;
- Alcune caratteristiche del sensore, interne o esterne, potrebbero essere variate nel tempo. Se il sistema di monitoraggio non viene correttamente irrobustito a queste variazioni, si compromette l’univocità dei valori campionati in momenti diversi di fronte al fenomeno fisico.
Questi due semplici esempi identificano altrettante situazioni apparentemente simili ma profondamente diverse riguardo la possibilità di intervento tramite tecniche di Data Cleaning.
Le casistiche descritte nel primo esempio non creano grande preoccupazione all’interno di un corretto funzionamento dell’apparato: l’aspetto fondamentale è saperle identificare e applicare le tecniche adatte per ricostruire la storia completa.
Il secondo esempio pone l’attenzione sulla necessità imprescindibile di una buona salute dell’apparato che produce l’informazione, da cui ne dipende l’affidabilità.
Se questo pilastro cede, statisticamente non è più possibile giustificare alcuna inferenza derivante da qualsiasi analisi.
Esempi di approcci Data Cleaning su Dati IoT
In alcuni casi, la situazione è facilmente gestibile: pensiamo ad una variabile lenta, come spesso può essere l’andamento della temperatura: anche in presenza di qualche blackout nel campionamento, siamo in grado di stimare con buona precisione l’andamento medio.
Se invece fossimo interessati a ricostruire la continuità della serie storica originale, una corretta interpolazione risulterebbe sufficiente ad ottenere una sequenza fedele alla realtà.
Altre situazioni si presentano più delicate e si rende necessario un approccio più mirato: pensiamo all’andamento di una corrente durante una fase transitoria, dove spesso valori istantanei come picchi e derivate racchiudono grandi indicazioni su possibili anomalie del processo.
Il Data Lake IoT Cloud come scelta strategica
Come visto in precedenza, esistono alcune situazioni dove nessuna tecnica di Data Cleaning può ricostruire una sequenza di valori coerente all’interno dei dati raccolti.
Ecco perché la prima condizione fondamentale per il successo dell’applicazione di algoritmi di Machine Learning risiede nella qualità del processo di digitalizzazione della linea produttiva.
Oggi una scelta strategica è certamente intraprendere la costruzione di un Data Lake secondo le metodologie più avanzate e sfruttando le piattaforme corrette, per poter quanto prima iniziare a sfruttare la potenza dei dati
L’utilizzo di piattaforme messe a disposizione dai principali player Cloud (SAP, Google, AWS) può sia garantire una qualità della soluzione universalmente riconosciuta, sia essere la via più rapida per ottenere un Data Lake efficiente ed affidabile.