Esercitazione SSIS

Sistemi Informativi
Dott.ssa Elisa Turricchia

Alma Mater Studiorum - Universit di Bologna
elisa.turricchia2@unibo.it
Microsoft SQL Server Integration

Services
SQL Server Integration Services SSIS

SQL Server 2008 R2
una piattaforma per la generazione di soluzioni di integrazione e
trasformazione dei dati aziendali.
Offre funzionalit per la gestione di progetti di Master Data
Management.
Architettura SSIS -1
Architettura SSIS -2
Progettazione SSIS: insieme di componenti per la creazione e

gestione di progetti SSIS.
SQL Server Business Intelligence Development Studio (componente di
Visual Studio)
SQL Server Management Studio
Runtime Integration Services: motore per lesecuzione dei progetti
SSIS.
Motore flusso dati (pipeline): componente per lestrazione dei dati dalle
sorgenti, trasformazioni sui dati, e memorizzazione dei dati nelle

destinazioni.
Pacchetto: unit di lavoro di un progetto SSIS (file con estensione
*.dtsx).
Componenti di un pacchetto SSIS -1

Flusso di controllo: insieme di componenti per il controllo del flusso

dati allinterno di un pacchetto.
Inserimento di un controllo Ciclo che consenta di ripetere loperazione di
estrazione dati da molteplici sorgenti, evitando la definizione della

procedura di esportazione per ogni singola sorgente.
Specifica di condizioni per lesecuzione di particolari attivit allinterno del
pacchetto.
Definizione dellordine di esecuzione delle diverse attivit che
caratterizzano il pacchetto.
Flusso dati: insieme delle origini, delle trasformazioni e delle
destinazioni dati.
Esempi di controlli per la trasformazione dati: unione dati,
raggruppamento fuzzy, suddivisione condizionale.

Gestione connessioni: componente per la definizione della
connessione alle sorgenti e destinazioni dati (es. Flat file, origine OLE
DB).
6
Componenti di un pacchetto SSIS -2

Variabili: utilizzate per aggiornare dinamicamente i valori di propriet

allinterno di un pacchetto o per gestire funzioni di controllo (es.
variabile di ciclo).
Gestore eventi: componente per la gestione degli eventi generati
durante lesecuzione di pacchetti SSIS.

Provider log: gestisce informazioni di supporto (log) relative
allesecuzione di pacchetti SSIS (es. data/ora di esecuzione, elenco

attivit).
Flusso di controllo - 1
Contenitori: definiscono la struttura del flusso di controllo,

raggruppando attivit e definendo operazioni cicliche:
Ciclo For: ripete il flusso di controllo finch unespressione specificata non

risulta falsa.
Ciclo Foreach: enumera un insieme di entit e ripete il flusso di controllo

per ogni elemento dellinsieme.
Sequenza: consente di definire dei sottoinsiemi di attivit e contenitori e

considerarli come unit atomiche.
Flusso di controllo - 2
Attivit: elementi che eseguono i controlli definiti nel flusso dati; di

seguito alcune possibili attivit:
Attivit Flusso Dati: specifica di origini, trasformazioni e destinazioni dati.
Attivit di Preparazione Dati: copia di file, esecuzione di operazioni su file

XML.
Attivit di Scripting: definizione di procedure personalizzate per estendere

le funzionalit dei pacchetti SSIS.
Attivit di manutenzione: esecuzione di funzioni di amministrazione (es.

procedure di backup su database SQL).
Vincoli di precedenza: rappresentano dei connettori fra le attivit e i

contenitori di un pacchetto (flusso di controllo ordinato).
Flusso dati
Origine dati: controlli che

permettono lestrazione
dei dati dalle sorgenti (es.
Flat file, OLE DB, SQL
server database).
Trasformazioni: controlli
per la definizione di
trasformazioni sui dati.
Destinazione dati:
controlli per la
memorizzazione dei dati
trasformati sulle
opportune destinazioni.
10
Trasformazioni
Ricerca
Ricerca Fuzzy (Fuzzy Lookup )
Raggruppamento Fuzzy (Fuzzy Grouping)
Unione input multipli
Suddivisione condizionale
Merge join
Colonna derivata
Ordinamento: dei record di input
Aggregazione: applicazione di funzioni di aggregazione ai dati di input
Estrazione termini: estrazione di termini da campi testuali
Conversione dati: trasformazione del tipo di dato di un campo di input
.
11
Ricerca
Esegue ricerche unendo in join (equi-join) i dati contenuti nelle

colonne di input e le colonne in un set di dati di riferimento.

Individua corrispondenze esatte.
I record di input per cui non viene trovata alcuna corrispondenza,
vengono gestiti come errori.
In caso di corrispondenze multiple, viene mantenuta la prima
corrispondenza individuata.
I dati di riferimento devono essere memorizzati allinterno di unorigine
dati OLE DB.
Dati di input
Dati di riferimento
ID
Nominativo
ID
Nominativo
01
Rossi Mario
01
Rossi Mario
02
Neri Carlo
05
Rossi Anna
03
Neri Rosa
03
Neri Rosa
04
Bianchi Ivo
Errore
12
Ricerca Fuzzy (Fuzzy Lookup)

Lookup) - 1
La trasformazione Ricerca Fuzzy esegue attivit di pulitura dei dati (es.
standardizzazione, correzione e inserimento di valori mancanti)
Input data
Estrazione record
Reference Table
Confronto del
record in esame
con i record della
reference table
Restituzione record simili
13

Lookup) - 2
Reference table:
Deve essere una tabella memorizzata allinterno di un database di SQL

Server (versione 2000 o successive).
I campi su cui viene applicata una corrispondenza fuzzy devono essere di

tipo DT_WSTR e DT_STR.
Parametri di input:
Numero massimo di corrispondenze: numero massimo di record simili da

restituire per ciascun record di input.
Soglia: valore minimo di similarit affinch il record di input sia valutato

come simile ad un record della reference table.
Delimitatori: delimitatori utilizzati per la suddivisione dei record in token

(es. , ; .)
14

Lookup) - 3
Algoritmo di confronto
Error-Tolerant Index (ETI): i record (ovvero linsieme dei campi di

interesse per un record) sono suddivisi in token (la suddivisione avviene in
base alla scelta di opportuni delimitatori).
Stringa
13831 N.E. 8th St
Tokens
13831, N, E, 8th, and St
Lalgoritmo confronto i token del record di input con i token presenti nella
reference table.
La similarit fra token viene calcolata tenendo conto di:
Edit Distance a livello di token
Ordinamento dei token
Numero token simili
La similarit calcolata nellintervallo [0,1].
possibile specificare un insieme limitato di campi del record su cui

eseguire il confronto.
15

Lookup) - 4
Output: costituito da un insieme di campi che comprendono:

Il sottoinsieme di campi del record di input, i campi della reference table,

valori di similarit e confidenza.
Similarit: grado di somiglianza tra i valori dei campi di input (record di input)
e di riferimento (record reference table).
Confidenza: probabilit con cui un valore specifico risulta essere la

corrispondenza migliore tra le corrispondenze individuate nella tabella di
riferimento.
16
Raggruppamento Fuzzy (Fuzzy

grouping)
grouping) - 1
Consente di eseguire operazioni di pulizia sui dati.
Permette lindividuazione di eventuali duplicati e la creazione di un
insieme di record standardizzati e ripuliti.

Per la ricerca dei duplicati e dei record rappresentanti si basa
sullalgoritmo Fuzzy Lookup.

Non viene utilizzata una ReferenceTable, ma i record rappresentanti
vengono scelti fra le righe dellinput.
17

grouping)
grouping) - 2
Parametri di input:
Soglia: valore minimo di similarit affinch il record di input sia valutato

come simile ad un record riferimento.
Delimitatori: utilizzati per la suddivisione dei record in token (es. , ; .).
Algoritmo di confronto:

A ciascun record di input viene associato un identificatore univoco key_in.

Il sistema deriva (tramite algoritmo interno) un insieme di record
rappresentanti.
Utilizza lalgoritmo Fuzzy Lookup per lindividuazione dei duplicati.
Al termine dellalgoritmo, il sistema ha individuato un insieme di record di
riferimento e un insieme di potenziali record duplicati per ciascun record di
rappresentante.
A ciascun record viene aggiunto un campo key_out che identifica il
gruppo di appartenenza, ovvero memorizza lidentificatore univoco
(key_in) del record rappresentante a cui il record in esame risulta simile.
18

grouping)
grouping) - 3
Output:
I campi del record di input.
Similarit: grado di somiglianza tra i valori dei campi di input (record di

input) e i campi del record di riferimento (record reference table).
Score: grado di somiglianza complessivo fra il record di input e il record di

riferimento.
Valori di key_in e key_out.

key_in
campi del record
score
Identificatore univoco
I record riferimento hanno key_in=key_out
similarit
key_out
Identificatore del
gruppo di
appartenenza
(key_in del record di
riferimento)
19
Unione input multipli

Consente di combinare pi input in un unico output (es. possibile
utilizzare gli output di cinque diverse origini dati come input e
combinarli in un singolo output).
Gli input della trasformazione vengono aggiunti all'output della
trasformazione uno dopo l'altro, senza riordinare le righe.

Vengono inseriti valori nulli per i campi mancanti.
20
10
Suddivisione condizionale
Distribuisce i record di input in diverse destinazioni a seconda dei
criteri di suddivisione impostati (analogo ad unistruzione di

programmazione switch), per utilizzarlo necessario:
Specificare uno o pi condizioni da verificare durante la trasformazione.
Specificare lordine di valutazione delle condizioni.
Specificare loutput predefinito per i record che non soddisfano alcuna
condizione.
Applicazione:
Suddividere i record risultanti da una trasformazione di raggruppamento
fuzzy per categorie di similarit.

Categorizzare i dati di input (es. classificazione dei clienti in differenti
categorie di fedelt al negozio, basandosi sui dati degli acquisti del

cliente, risultanti da una procedura di integrazione).
21
Merge Join
Distribuisce i record di input in diverse destinazioni a seconda dei
criteri di suddivisione impostati (analogo ad unistruzione di

programmazione switch), per utilizzarlo necessario:
Specificare uno o pi condizioni da verificare durante la trasformazione.
Specificare lordine di valutazione delle condizioni.
Specificare loutput predefinito per i record che non soddisfano alcuna
condizione.
Tipi di join supportati:
Full outer join
Left outer join
Inner join
22
11
Colonna derivata
Consente di creare nuovi valori di colonna tramite l'applicazione di
espressioni alle colonne di input della trasformazione.

Applicazione:
In caso di record duplicati, si possono definire delle colonne derivate
per stabilire quale valore associare ai campi per cui non esiste un
valore univoco.
Sostituzione di valori mancanti.
Definire una priorit fra i valori dei campi di record diversi.
23
Esempio 1- Ricerca
Competenze:
Estrazione dati da pi sorgenti.
Trasformazione Unione Multipla e Ricerca.
Gestione del flusso di errore.
Impostazione Sorgenti e Destinazioni.
Contesto
Estrarre i record da due sorgenti distinte. I dati riguardano le vendite (dettaglio
vendite) eseguite in stati diversi (USA e Canada). Ciascun record di vendita

contiene anche il riferimento al prodotto oggetto della transazione. Il sistema
dispone di unanagrafica centralizzata dei prodotti in vendita. Si vuole verificare che
i codici dei prodotti venduti abbiano una corrispondenza in anagrafica.
Unire i dati di input.
Confrontare i dati di input (vendite) con quelli presenti in una tabella di riferimento
(anagrafica prodotti). Si ricercano corrispondenze esatte fra i record basandosi sul
codice prodotto.
Gestire il flusso di errore per i record per cui non stato trovata alcuna
corrispondenza.
Creare una nuova tabella di database contenente i record per cui stata
individuata una corrispondenza.
24
12
Esempio 1- Ricerca
VENDITE USA
IDPRODUCT;IDSALES
1;0011
2;0031
3;0050
4;0014
5;0037
6;0037
7;0037
VENDITE CANADA
IDPRODUCT;IDSALES
148;0001
882;0088
891;0150
1302;0001
1428;0043
103;0100
503;0101
503;0100
3;0100
ANAGRAFICA PRODOTTI
IDPRODUCT
1
2
148
891
1302
1428
503
103
25
Esempio 2- Integrazione anagrafiche

clienti Ricerca duplicati
Competenze:
Estrazione dati da pi sorgenti.
Trasformazione Unione Multipla, Raggruppamento Fuzzy, Suddivisione
Condizionale.
Contesto
Integrare le anagrafiche clienti memorizzate da diverse reparti aziendali (vendite,
call center, marketing) e individuare possibili record duplicati.

Unire i dati di input.
Applicare un raggruppamento Fuzzy per lindividuazione dei duplicati.
Applicare una suddivisione condizionale per distinguere i dati standardizzati (puliti)
dai potenziali duplicati.

Memorizzare delloutput della suddivisione condizionale in corrispondenti tabelle di
database SQL Server (generazione automatica).
26
13
Esempio 3- Integrazione dati e

aggiornamento campi
Competenze:
Estrazione dati da due sorgenti.
Trasformazione Merge Join, Colonna derivata.
Contesto
Si supponga di voler integrare le anagrafiche clienti del reparto vendite con quelle
del reparto mkt.

Le due anagrafiche memorizzano gli stessi clienti (congruenza fra identificatori
univoci), ma con diversi livelli di aggiornamento dai dati contenuti. Si vuole creare
ununica anagrafica contenente tutti i clienti e i dati aggiornati. In particolare
laggiornamento dati riguarda:
MaritalStatus: prevista una marca temporale per questo attributo. Si mantiene il valore pi
recente;
Phone: se presente si mantiene il valore specificato nellanagrafica clienti del reparto MKT,
altrimenti quello dellanagrafica vendite;
Per tutti gli altri dati si mantengono i valori delle vendite;

Memorizzazione dei dati integrati in una tabella di un database SQL Server.
27
Esercizio finale
Contesto
Si supponga di voler integrare lanagrafica dei dipendenti della sede centrale
aziendale, con le anagrafiche dipendenti delle filiali.

Si richiede la creazione di un pacchetto SSIS che permetta lintegrazione delle
seguenti anagrafiche:
EmployeeHeadQuarters.txt
Employee1.txt
necessario definire le trasformazioni per gestire eventuali duplicati
I campi su cui eseguire il match sono:
FirstName
MiddleInitial
LastName
In caso di duplicati si mantiene il record pi recente (utilizzare il campo validityTime)

Si considerano duplicati i record con un valore di score >= 0.85
Per i record il cui score inferiore a 0.85 necessaria una procedura manuale per
verificare se si tratta effettivamente di duplicati.
Si otterranno due tabelle SQL in output:
EmployeeStandard: record univoci dopo leliminazione dei duplicati

EmployeeToVerify: record con score < 0.85
28
14
Riferimenti-1
Microsoft Integration Services Tutorial
http://msdn.microsoft.com/en-us/library/ms167593.aspx
http://msdn.microsoft.com/en-us/library/aa964123.aspx
Integration Services Product samples
http://msftisprodsamples.codeplex.com/releases/view/45916
http://www.bigresource.com/MS_SQL-SSIS-Folder-Of-Sample-DataK1SIrGzN.html
http://msftdbprodsamples.codeplex.com/releases/view/55926
Trasformazioni
http://msdn.microsoft.com/it-it/library/ms345128.aspx
29
Riferimenti-2
Gestione errori
Gestione cicli
Architetture
http://msdn.microsoft.com/en-us/library/bb410798.aspx
30
15

Esercitazione SSIS

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Esercitazione SSIS

Uploaded by

Copyright:

Available Formats

Sistemi Informativi

Dott.ssa Elisa Turricchia

Microsoft SQL Server Integration

SQL Server Integration Services SSIS

Progettazione SSIS: insieme di componenti per la creazione e

Runtime Integration Services: motore per lesecuzione dei progetti

sorgenti, trasformazioni sui dati, e memorizzazione dei dati nelle

Componenti di un pacchetto SSIS -1

Flusso di controllo: insieme di componenti per il controllo del flusso

estrazione dati da molteplici sorgenti, evitando la definizione della

raggruppamento fuzzy, suddivisione condizionale.

Componenti di un pacchetto SSIS -2

Variabili: utilizzate per aggiornare dinamicamente i valori di propriet

Gestore eventi: componente per la gestione degli eventi generati

durante lesecuzione di pacchetti SSIS.

allesecuzione di pacchetti SSIS (es. data/ora di esecuzione, elenco

Contenitori: definiscono la struttura del flusso di controllo,

Ciclo For: ripete il flusso di controllo finch unespressione specificata non

Ciclo Foreach: enumera un insieme di entit e ripete il flusso di controllo

Sequenza: consente di definire dei sottoinsiemi di attivit e contenitori e

Attivit: elementi che eseguono i controlli definiti nel flusso dati; di

Attivit Flusso Dati: specifica di origini, trasformazioni e destinazioni dati.

Attivit di Preparazione Dati: copia di file, esecuzione di operazioni su file

Attivit di Scripting: definizione di procedure personalizzate per estendere

Attivit di manutenzione: esecuzione di funzioni di amministrazione (es.

Vincoli di precedenza: rappresentano dei connettori fra le attivit e i

Origine dati: controlli che

Ricerca Fuzzy (Fuzzy Lookup )

Raggruppamento Fuzzy (Fuzzy Grouping)

Unione input multipli

Ordinamento: dei record di input

Aggregazione: applicazione di funzioni di aggregazione ai dati di input

Estrazione termini: estrazione di termini da campi testuali

Conversione dati: trasformazione del tipo di dato di un campo di input

colonne di input e le colonne in un set di dati di riferimento.

Ricerca Fuzzy (Fuzzy Lookup)

Restituzione record simili

Ricerca Fuzzy (Fuzzy Lookup)

Deve essere una tabella memorizzata allinterno di un database di SQL

I campi su cui viene applicata una corrispondenza fuzzy devono essere di

Numero massimo di corrispondenze: numero massimo di record simili da

Soglia: valore minimo di similarit affinch il record di input sia valutato

Delimitatori: delimitatori utilizzati per la suddivisione dei record in token

Ricerca Fuzzy (Fuzzy Lookup)

Error-Tolerant Index (ETI): i record (ovvero linsieme dei campi di

La similarit fra token viene calcolata tenendo conto di:

Edit Distance a livello di token

Ordinamento dei token

Numero token simili

La similarit calcolata nellintervallo [0,1].

possibile specificare un insieme limitato di campi del record su cui

Ricerca Fuzzy (Fuzzy Lookup)

Output: costituito da un insieme di campi che comprendono:

Il sottoinsieme di campi del record di input, i campi della reference table,

Confidenza: probabilit con cui un valore specifico risulta essere la

Raggruppamento Fuzzy (Fuzzy

insieme di record standardizzati e ripuliti.

sullalgoritmo Fuzzy Lookup.

Raggruppamento Fuzzy (Fuzzy

Soglia: valore minimo di similarit affinch il record di input sia valutato

Delimitatori: utilizzati per la suddivisione dei record in token (es. , ; .).

A ciascun record di input viene associato un identificatore univoco key_in.

Raggruppamento Fuzzy (Fuzzy

I campi del record di input.