Se per molto tempo sono state principalmente le grandi aziende a rendersi conto del valore dei dati che possiedono, ora anche le piccole e medie cominciano a comprendere l’importanza dei dati che hanno o che potrebbero raccogliere da clienti e partner. Non si tratta, però, solo di raccogliere dati, ma anche conservarli ed analizzarli – eliminando i dati inutili e/o duplicati – affinché possano supportare consapevolmente le decisioni aziendali. Analizzare la qualità dei dati diviene essenziale.
Definizione di Data Quality
Si è scelto di adottare come definizione di qualità dei dati quella della ISO 8402, riferendola, però, al concetto di data item.
Una definizione di data item è: “Dato un modello di dati, un data item è l’elemento a granularità più bassa del modello”.
Esempi di data item sono:
- gli attributi di una classe nel modello Object-Oriented (OO);
- gli attributi di un’entità nel modello Entità-Relazione (ER).
Gli elementi del modello di dati costituiti da aggregazioni di data item saranno genericamente riferiti come entità. Esempi di entità sono:
- le classi del modello OO;
- le entità del modello ER.
La definizione di “qualità dei dati” può, dunque, essere: “Un insieme di caratteristiche che un data item deve avere affinché effettui i compiti per cui è stato concepito; tali caratteristiche sono specificatamente riferite ai valori ed al formato del data item”.
La definizione introdotta è volutamente “limitativa” ed in particolare non considera aspetti connessi allo schema concettuale dei dati, concentrando l’attenzione sulla qualità dei valori e del formato.
Il modello progettuale: come analizzare la qualità dei dati
L’analisi della qualità dei dati va condotta tramite quattro fasi principali:
- Definizione delle dimensioni di qualità: si definiscono gli obiettivi e le diverse dimensioni di qualità che verranno applicate alle informazioni oggetto di analisi;
- Analisi dei Dati: si analizzano le dimensioni della qualità dei dati. Queste sono vincolate all’analisi del processo in cui i dati vengono utilizzati, identificando le procedure informatiche e le basi di dati;
- Misurazione delle dimensioni di qualità: in questa fase di analisi dei dati vengono calcolate le singole dimensioni della qualità dei dati tramite un monitoraggio continuo delle stesse;
- Miglioramento della qualità dei dati: il miglioramento avviene tramite l’ispezione e la correzione dei dati, il miglioramento ed il controllo dei processi e tramite la progettazione di nuovi processi.
Una volta terminata l’attività di Data Quality ed implementato il sistema di monitoraggio al fine di garantire l’immediata capacità di standardizzare le informazioni, potrà essere definito un nuovo step progettuale necessario alla risoluzione delle problematiche e degli errori presenti sia a livello Database, sia a livello Applicativo.
Tale nuovo step progettuale potrà essere definito e sviluppato mediante la seguente proposta:
- Riorganizzazione delle banche dati: la riorganizzazione consiste nel ridisegnare o modificare la struttura del database, attraverso le introduzioni di nuovi campi, nuove tabelle o semplici modifiche strutturali per la risoluzione delle problematiche emerse dal processo di Data Quality Assessment presenti nella vecchia struttura delle basi dati;
- Revisione dei processi: il mantenimento della qualità dei dati a lungo termine può essere conseguito mediante un’analisi dei processi ed un’individuazione delle loro criticità nella produzione di dati di qualità. La revisione dei processi implica la modifica e la risoluzione di problematiche a livello applicativo.
Le attività previste per il processo di Data Quality, riorganizzazione del database e revisione dei Processi/Applicazioni sono connesse tra loro e si influenzano e alimentano secondo lo schema di seguito riportato:
Le dimensioni della qualità dei dati
Le dimensioni della qualità dei dati sono classificate in tre categorie:
- schema concettuale: si riferisce all’aspetto “intensionale” dei dati, ovvero a quella componente dei dati che rimane invariata nel tempo;
- valori: sono relativi all’aspetto “estensionale” dei dati, ossia alla parte variabile nel tempo;
- formato: è connesso alla modalità di rappresentazione dei dati.
Nel presente progetto ci si focalizzerà sulle dimensioni della qualità dei dati connesse ai valori ed al formato, escludendo quelle legate allo schema concettuale.
Le dimensioni della qualità dei valori
La definizione di metriche in grado di considerare il contesto passa dalla definizione delle dimensioni attraverso cui valutare la qualità dei dati. Le principali dimensioni da tenere in considerazione sono:
- Accuratezza sintattica: definita come vicinanza del valore del data item ad un valore nel dominio di definizione sintattico considerato corretto;
- Accuratezza semantica: definita come vicinanza del valore del data item ad un valore nel dominio di definizione semantico considerato corretto;
- Accuratezza temporale: definita come vicinanza del valore del data item al valore temporalmente corretto;
- Attualità: definita come adeguatezza del valore del data item rispetto alle esigenze temporali del contesto di utilizzo;
- Completezza dei valori: definita come l’estensione con cui i valori dei data item sono presenti nella base di dati. Un data item deve avere un valore, altrimenti è nullo; i valori nulli dovrebbero essere limitati ed in ogni caso bisogna specificarne il significato;
- Consistenza Interna: relativa al grado di consistenza di valori di data item nell’ambito della stessa entità. Ad esempio, i valori dei data item CAP, Comune, Provincia, devono risultare consistenti nell’ambito dell’entità Persona;
- Consistenza Esterna: relativa al grado di consistenza di valori di data item nell’ambito di entità diverse. Ad esempio, Mario Rossi è celibe in un’entità relativa al suo stato matrimoniale, mentre Anna Rossi si dichiara moglie dello stesso Mario Rossi, in un’entità di tipo diverso.
Modello ISO per la qualità dei dati: ISO 25012 e ISO 25024
Gli standard internazionali ISO/IEC 25012 “Data quality model” e ISO/IEC 25024 “Measurement of data quality” sono parte della famiglia di standard ISO 25000 denominata anche SQuaRE “Software Quality Requirements and Evolution”.
L’ISO 25012 è divenuto norma italiana nel 2014 con la sigla UNI CEI ISO/IEC 25024.
Il metodo di sviluppo degli standard ISO è basato sulla condivisione tra esperti e sulla trasparenza delle votazioni sui commenti inviati periodicamente da ogni National Body. L’ISO raccoglie l’adesione di oltre 160 paesi nel mondo e vuole diffondere le migliori prassi aziendali ed accademiche.
Data Quality e Big Data: come valorizzare i dati
I Big Data rappresentano la grande disponibilità di dati strutturati, principalmente destrutturati, e le tecniche statistiche in grado di elaborare i dati con metodi analitici avanzati. Questi tendono, come finalità della statistica in genere, a cogliere “il costante nel variabile” e si fondano su alcuni fattori di qualità, come la veridicità, e su caratteristiche insite di fatto: varietà delle fonti, variabilità e volume dei dati, velocità di elaborazione.
I Big Data ed il Data Quality mirano alla valorizzazione dei dati e alla ricerca di maggiore conoscenza. Sono due facce della stessa medaglia, la prima più vicina ad una sorta di reverse-engineering e la seconda più vicina al forward-engineering con espliciti fini riorganizzativi dei dati e di armonizzazione.
Redatto da Marta Salazar e Lucia D’Adamo