Pagine

domenica 7 ottobre 2012

Data Quality Service : Creare una Knowledge Base

Siamo sicuri della qualità dei nostri dati ? Da essi dipende la qualità delle informazioni che vi possiamo attingere.
Bad Data = Bad Business !!
I nostri database potrebbero contenere dati provenienti da altri database, da file excell, da file testuali che, a loro volta, potrebbero contenere dati incompleti, inconsistenti, invalidi, duplicati.

La funzione del Data Quality Service è quella di verificare che essi siano completi, consistenti, validi, univoci. DQS ci fornisce una knowledge-driven solution in grado di aiutarci a mantenere elevata la consistenza, la validità e l'univocità dei dati che compongono le informazioni.

Il concetto base è quello della Knowledge base, un repository riutilizzabile contenente la conoscenza dei dati. I dati però col tempo possono evolvere, ecco allora che la Knowledge base ci viene in aiuto "imparando" a riconoscere i dati che le sottoponiamo.
Ma in che modo ?

Ogni Knowledge base è composta da Domini. Ogni Dominio definisce le regole che i dati devono rispettare, definisce quali valori sono validi e quali no.....
Un dominio quindi è un contenitore di dati validi e di regole a cui i dati stessi devono sottostare per essere considerati validi, consistenti univoci e quindi utilizzabili senza problemi.

Per far si che i Dominii posseggano questa conoscenza è necessario formarli e mantenerli costantemente informati dell'evoluzione dei dati stessi.

Vediamo come procedere alla creazione di una semplice Knowledge base contenente la lista dei comuni italiani. Essa ci aiuterà a mantenere consistenti, validi, univoci queste tipologie di informazioni.

Il Data Quality Client è il tool che dobbiamo utilizzare per interagire con il DQS.
Avviandolo la prima cosa che ci richiede è il nome del SQL Server 2012 a cui connetterci e su cui abbiamo effettuato il setup del DQS.

Una volta connessi all'istanza la finestra che ci troveremo davanti è la seguente


Selezioniamo "New Knowledge Base" e proseguiamo. Ci viene chiesto di fornire un nome ed una descrizione


Dobbiamo ora scegliere l'attività che vogliamo implementare.
-Domain Management consente di gestire,creare Dominii, di definirne regole e valori.
-Knowledge Discovery consente di mettere a conoscenza i Dominii dei valori validi
-Matching Policy consente di gestire le impostazioni di corrispondenza per i valori.

Seleziono Domain Management e click su Next.


Creiamo quindi il nostro dominio denominato Comune e click su Ok.


Nella tab Domain Rules possiamo creare le regole alle quali i valori consistenti devono attenersi. Abbiamo a disposizione moltissime tipologie di Rules, tra cui le Regular Expression !! Nell'esempio possiamo annullare la creazione della rule dato che non ci serve.


Nella tab Domain Values possiamo censire tutti i valori validi.


Inserire gli oltre 8000 comuni italiani però è un procedimento molto lungo e noiso.
Possiamo però evitarlo. Grazie all'activity Knwledge Discovery possiamo importare senza sforzo la lista di tutti i comuni italiani nel nostro dominio.
Quindi, se necessario, rimuoviamo gli eventuali valori inseriti manualmente e click su Finish. Ci viene chiesto se vogliamo pubblicare le modifica e rispondiamo yes.

Nel mio caso ho scaricato dal sito dell'istat un file excell contenente la lista completa dei comuni (lo trovate qui) e, si spera, perfettamente corretto, consistente e dai valori univoci.
Procediamo ora alla Knowledge Discovery.


Possiamo importare valori da SQL Server oppure da Excell. In entrambi i casi è necessario selezionare la sorgente dati e per ogni dominio associare la colonna corretta.
Se vogliamo importare i valori da SQL Server è indispensabile che risiedano in un DB associato all'istanza su cui abbiamo installato il DQS.


Click su Next.


A questo punto possiamo avviare la fase di Discovery dei valori del dominio premendo Start. Al termine dell'analisi ci viene proposto un resoconto che ci informa di quanti valori sono stati scoperti.


Click su Next e passiamo alla fase di verifica/modifica dei valori appena inseriti.


Click su finish e torniamo alla finestra iniziale.
Possiamo ripetere questo procedimento per tutti i dominii che dovranno comporre la Knwoledge Base.

I Metadati dei Dominii e i valori inseriti/importati vengono salvati nel database
DQS_Main creato dal setup del DQS sull'istanza. Assicuratevi quindi d'aver abbastanza spazio per contenere i valori validi !!!!

La nostra Knowledge base è quindi pronta all'uso.
Grazie ai Data Quality Projects possiamo verificare che i dati presenti nei DB o in file excell siano perfettamente aderenti alle regole ed ai valori inseriti nel dominio della Knowledge Base desiderata. L'uso dei projects sarà descritto in un prossimo post.

Ciao

Luca

Nessun commento:

Posta un commento