You are on page 1of 41

La Calidad de los

Datos:
una radiografa completa
Especialistas en Gestin de Datos 2

NDICE

1. Introduccin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2. Definicin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Importancia de los datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4. Roles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5. Integracin & Calidad de Datos hacia dnde vamos . . . . . . . . . . . . . . . . 16

6. Arquitectura de Calidad de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

7. Metodologa & Tecnologa de Calidad de Datos. . . . . . . . . . . . . . . . . . . . . 19

8. Ciclo de Vida Calidad de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

9. Tipo de Proyectos a los que se aplica Calidad de Datos. . . . . . . . . . . . . 34

10. Ejemplo retorno inversin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

11. Gartner: Calidad de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

12. Herramientas de Calidad de Datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

13. Conclusin/Recomendaciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

14. Bibliografa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

Sguenos en:
Especialistas en Gestin de Datos 3

1. Introduccin
Como consecuencia de los avances que hoy da existen en las tecnologas de captura y alma-
cenamiento de datos e informacin, las empresas se enfrentan a un crecimiento exponencial
en cuanto a la cantidad y diversidad de datos a gestionar. Esto significa que, no slo aumentan
los volmenes de datos, sino tambin los elementos a los que se asocian datos e informacin.

Por esta razn, la pobre calidad de los datos es un factor que afecta cada vez ms al desempeo
de la empresa, ya que deteriora de alguna forma las relaciones que se mantienen con los ele-
mentos a los que estn asociados los datos (proveedores, clientes internos y externos o em-
pleados).

Segn lo que plantea la norma ISO 9000: 2000, la calidad se podra definir como

el grado en el que un conjunto de caractersticas inherentes cum-


ple con los requisitos, esto es, con la necesidad o expectativa esta-
blecida, generalmente implcita u obligatoria.

Eficacia del contacto: la Calidad de Datos se centra en la mejora de datos personales, como nombres y di-
recciones, con el objetivo de optimizar la eficacia del contacto, generalmente para la mejora de procesos de
marketing o de cualquier otro proceso que requiera el anlisis o el contacto del cliente.
Identificacin de relaciones: se orienta a la bsqueda de duplicados, relacin de dos fuentes de datos o la
deteccin de unidades familiares o corporativas.
Calidad de Datos General: mejora de datos de cualquier dominio, como pueden ser datos de producto,
finanzas, trfico o activos.
Anlisis de Calidad de Datos: perfilado, deteccin, medicin, anlisis, cuantificacin del impacto y monitori-
zacin de problemas de Calidad de Datos.

Sguenos en:
Especialistas en Gestin de Datos 4

Un poco de historia de la Calidad de Datos


Desde que existen los datos informatizados, siempre en el que se utilizaban multitud de listados en papel.
se ha tenido la preocupacin de que sean correctos. La tcnica utilizada era muy primitiva y no implemen-
Inicialmente, las tcnicas de calidad de datos se lle- taba las metodologas que actualmente poseen los
vaban a cabo mediante edicin manual o con pro- sistemas modernos de calidad de datos.
gramas desarrollados con lenguajes no adaptados En la actualidad se han creado sistemas que permi-
para ese uso. ten crear un ciclo de vida completo de calidad de da-
A principios de los 80, se desarrollaron los primeros tos, generando una metodologa propia dentro de la
sistemas de Calidad de Datos por parte del gobierno organizacin.
de Estados Unidos. Su objetivo era regular los cam- Hay un movimiento en la industria de hoy en da para
bios de domicilio, fallecimientos, bodas, divorcios y estandarizar ciertos datos que no sean de direccin.
circunstancias similares, en un sistema denominado El grupo sin fines de lucro GS1 es uno de los que
NCOA (National Change of Address Registry). encabezan este movimiento. Para las empresas con
La primera vez que se implement un sistema espe- un considerable esfuerzo investigador, el concepto
cializado en la calidad de datos en Espaa fue para de calidad de los datos puede incluir el desarrollo de
corregir y/o informar del cdigo postal, en la direccin protocolos para los mtodos de investigacin, lo que
de los clientes de las principales entidades financie- reduce el error de medicin, permitiendo la compro-
ras del pas. Este sistema fue desarrollado a principios bacin de lmites de los datos, la tabulacin cruzada,
de los 90, basndose en un sistema semiautomtico, el modelado y deteccin de valores atpicos y la veri-
apoyado por un departamento de codificacin manual ficacin de integridad de datos, entre otros.

La realidad...
En cualquier proceso de calidad, cuanta ms inver- a nivel mundial. Cada pieza es rigurosamente revisada
sin de tiempo, mayor calidad, pero la relacin entre y cada sistema tiene rplicas por si los sistemas prin-
las dos variables no es aritmtica sino logartmica: se cipales fallan. Sin embargo, siguen existiendo errores,
cumple el famoso 80% -20%. Es decir, a medida que algunos de ellos de consecuencias fatales.
se incrementa el esfuerzo, el margen de mejora cada
En procesos de calidad de datos ocurre lo mismo. Es im-
vez es menor. El 100% de la calidad suele ser inviable
portante un equilibrio entre el esfuerzo y la calidad, se
tcnicamente y econmicamente.
debe encontrar el punto de inflexin dependiendo del tipo
de negocio, por ejemplo no harn la misma inversin en
logstica una empresa que fabrica juguetes, otra que im-
prime peridicos y otra que desarrolla medicamentos.
La empresa que vende juguetes puede invertir mucho
menos porque el coste de la devolucin no es dema-
siado alto, la de los peridicos tendra que invertir algo
ms porque se trata de un producto perecedero y el
tiempo corre en su contra; y la de medicamentos
debera de invertir mucho ms, porque una empresa
farmacutica, por ley, debe destruir todas sus devolu-
ciones. Esto supone que el coste de cada una es muy
elevado ya que, no slo pierde el importe de la mercan-
ca, sino que se debe ocupar de su incinerado, el alma-
Como ejemplo, la NASA es probablemente la corpora- cenamiento de residuos potencialmente peligrosos y
cin que ms recursos invierte en procesos de Calidad una serie de procedimientos bastante costosos.

Sguenos en:
Especialistas en Gestin de Datos 5

2. Definicin
Calidad de datos se refiere a los procesos, tcnicas, algoritmos y operaciones encaminados
a mejorar la calidad de los datos existentes en empresas y organismos. Sin embargo, en
la mayora de los casos se hace referencia al mejoramiento de la calidad de los datos de
personas fsicas y jurdicas, pues son stos probablemente los datos que ms tienden a
degradarse y cuya falta de calidad ms impacta en la productividad de las organizaciones.

El trmino calidad, en relacin con los datos, toma sen- Entre las dimensiones ms importantes, pues son las
tido por el hecho de que los datos, al igual que los pro- ms utilizadas y referenciadas estn la exactitud, la in-
ductos y servicios, deben adecuarse al uso que se les tegridad, la consistencia y la coherencia.
pretende dar. El trmino preciso para el uso en este caso
Pero la Calidad de Datos no slo se refiere a la ausen-
implica que dentro de cualquier contexto operacional,
cia de defectos. Tambin deben tener las siguientes
el dato que va a ser utilizado satisfaga las expectativas
caractersticas:
de los usuarios de los datos. Dichas expectativas se sa-
tisfacen en gran medida si los datos son tiles para el
fin para el que son utilizados, son fciles de entender e Los datos deben proporcionar una visin nica.
interpretar, y adems son correctos.
Tienen que estar correctamente relacionados e
Para garantizar estos aspectos se debe hacer, en prin- interrelacionados con todas las fuentes.
cipio, un diseo apropiado de la base, tabla o lista de Los datos han de ser consistentes, completos y
datos, con el fin de definir correctamente los atributos adecuados para su funcin.
o tipos de datos en la misma. Posteriormente, habr
Debemos asegurarnos de cumplir normativas y
que realizar un adecuado diseo de los procesos de
leyes.
produccin de datos, garantizando que stos lleguen
a la base o tabla de datos, libres de defectos y con las
dems caractersticas deseadas intactas.
La calidad es un trmino genrico que describe las ca-
De estas definiciones se puede deducir que la calidad
ractersticas de los datos (completos, fiables, pertinen-
de los datos es un concepto relativo. Por ejemplo, los
tes, actualizados y coherentes), as como el conjunto de
datos que un consumidor puede considerar como de
procesos que permite garantizar sus caractersticas. El
calidad aceptable, son de calidad inaceptable para
objetivo es obtener datos sin repeticiones, sin errores
otro con requisitos ms rigurosos de uso o con otras
ortogrficos, sin omisiones, sin variaciones superfluas
funcionalidades previstas. Por lo tanto, al variar las
y conformes a la estructura definida.
expectativas de los usuarios respecto a los datos, tam-
bin varan las caractersticas que deben tener los Es necesario definir las reglas de gestin de los datos
mismos para ser considerados como adecuados. Estas de la empresa. Estas reglas se dictan para garantizar
cualidades que deben poseer los datos para ser consi- la calidad de los datos, reflejada en su completitud,
derados como vlidos se denominan dimensiones de conformidad, coherencia, exactitud, no duplicacin e
calidad de los datos. integridad. Se trata del gobierno de los datos. Para ga-
rantizar su eficacia, este proceso debe contar con un
Esto quiere decir que la calidad de los datos est aso-
comit, un conjunto de procedimientos y un plan de
ciada a un conjunto de dimensiones o atributos que
ejecucin. Asimismo, el proceso debe poner en prcti-
son los que la definen. Un objetivo fundamental de la
ca los controles de calidad de los datos y difundir las
definicin de las dimensiones es poder establecer un
buenas prcticas.
lenguaje comn y tambin focalizar los problemas de
calidad de los datos y las oportunidades de mejora.

Sguenos en:
Especialistas en Gestin de Datos 6

El proceso se basa en dos enfoques:

Un enfoque proactivo, que engloba las buenas prcticas a aplicar cuando se generan datos nue-
vos, se lanzan nuevos proyectos que afectan a los datos o se llevan a cabo acciones de calidad.
Un enfoque reactivo, que abarca las acciones correctivas de la no calidad, las acciones de puesta en
conformidad tras la aparicin de normativa, y las acciones de integracin tras el establecimiento de
nuevas arquitecturas orientadas a servicios (SOA).

En general, la iniciativa de calidad de datos debe cubrir los aspectos siguientes:

Definicin de los objetivos de la calidad de datos.


Definicin, establecimiento y gestin de las normas de calidad.
Comprobacin de la conformidad con las normas de calidad previamente definidas.
Identificacin de los mbitos en los que se debe mejorar la calidad de datos.
Establecimiento de indicadores de la calidad de datos.
Evaluaciones y publicacin de los informes para la gerencia.
Concienciacin y formacin de los equipos sobre la problemtica de la calidad de datos.

3. Importancia de los datos


Debido a los crecientes avances de la tecnologa en cuanto a gestin de datos e informa-
cin, las empresas se ven enfrentadas da a da a un aumento en la cantidad y diversidad
de los datos que deben gestionar y en los elementos a las cuales se les asocian estos datos
e informacin.

Los datos son un trmino general para denotar al- existencia de datos, no se llegara nunca a obtener co-
guno o todos los hechos, letras, smbolos y nmeros nocimiento.
referidos a, o que describen un objeto, idea, situacin,
Por otra parte, el uso de datos como base para la toma
condicin u otro factor y constituyen un elemento
de decisiones ha sido una prctica ampliamente reco-
fundamental para la toma de decisiones objetivas
mendada, en contraposicin al hecho de desarrollar
a todos los niveles de una organizacin. Es ms, para
la toma de decisiones en base en la intuicin. De he-
una organizacin moderna, los datos constituyen uno
cho, uno de los principios de gestin de la calidad es el
de sus recursos ms valiosos.
enfoque basado en hechos para la toma de decisin,
En la actualidad existe un gran inters organizacional el cual plantea que la eficacia mxima se consigue al
por lograr lo que se ha denominado gestin del cono- partir del anlisis de los datos y la informacin.
cimiento. Esto implica el tomar los datos generados
Sin embargo, no basta con la existencia de datos ni
en diferentes procesos empresariales y convertirlos
con la voluntad de basar las decisiones que se tomen
en informacin, al agregarles valor mediante proce-
en ellos. Se requiere que stos tengan la calidad ade-
sos de agrupacin y clasificacin. De esta forma, es
cuada. Es decir que, cuando con base en los datos se
posible posteriormente convertir esta informacin en
favorezca una decisin sobre otra, se tenga la certeza
conocimiento, a travs de procesos de separacin,
de que los datos estn libres de errores y que, adems,
evaluacin y comparacin. Podra decirse que, sin la
posean atributos relevantes.

Sguenos en:
Especialistas en Gestin de Datos 7

3. 1. Propietario de los datos


Tradicionalmente se ha considerado la problemtica de Calidad de Datos como un problema de IT
un porcentaje altsimo y es una tendencia creciente. Lo
los datos son esas cosas que estn dentro lgico, hace unas dcadas, era hacer responsable al
de los ordenadores, que lo arreglen los in- equipo de IT puesto que los datos estn dentro de los
formticos ordenadores y de los ordenadores se ocupaba IT pero
hoy da se va un paso ms all.
IT no es el causante ni sufre los problemas de Calidad
El cambio de mentalidad ya est teniendo lugar. Ahora
de Datos, y por lo general, tiene una visin parcial del
la calidad de los datos comienza a ser responsabilidad
problema. Otra figura habitual es el rea de Sistemas
de otros departamentos, no slo de IT, y entre ellos
de Informacin, departamento generalmente enfo-
pueden encontrarse un equipo centrado en la de cali-
cado a proyectos de DWH/BI y CRM. Si bien cuentan
dad de datos, distintas unidades de negocio o incluso
con una perspectiva ms prxima al negocio, no puede
la direccin de la empresa.
olvidarse que las cuestiones relativas a la Calidad de
Las empresas, para arreglar los problemas de calidad, Datos tambin afectan al operacional/transaccional.
estn empezando a designar equipos especficos que
Como vemos la propiedad de datos est ms orienta-
se encarguen de ello. Un 35% de empresas ya han
da a departamentos ms cercanos a negocio que a IT.
creado su propio departamento de calidad. Se trata de

3. 2. Impacto en el Negocio - Retorno de Inversin


La mejor manera de empezar a pensar so-
bre el retorno de inversin de un Sistema
de Calidad de Datos es evaluar el impacto
real en el negocio que los defectos en los
datos producen. El objetivo de cualquier
compaa es disponer de los empleados
ms productivos posibles, que desarrollen
productos de alto valor y que puedan co-
mercializarse a precios ptimos, para un
gran conjunto de buenos clientes fideliza-
dos, con una inversin ms razonable y el
menor riesgo posible.
Esta larga frase implica una fuerte depen-
dencia de cada una de estas variables:

Sguenos en:
Especialistas en Gestin de Datos 8

La principal tarea es determinar es qu, dnde y cmo Algunos costes se producen cuando se trata de afron-
los problemas de Calidad de Datos afectan a una o tar los problemas de Calidad de Datos de forma inade-
ms de estas variables. cuada, y otros se producen cuando se ignoran dichos
problemas.

3. 3. Peligro de la mala calidad de datos


Traduccin de un artculo de Dan Tynan, publicado en InfoWorld

Pocos proyectos de IT resultan tan aterradores como la reconciliacin e integracin de datos. Bueno, mejor dicho,
hay algo todava ms espeluznante: los casos en los que falla la integracin de datos.
A veces, el problema se produce por haber empezado a trabajar con datos incorrectos, por errores de usuario o
incluso a causa de un sabotaje deliberado. Otras veces, la informacin es correcta al principio, pero se va perdiendo,
truncando o alterando al cambiar de sistema o de base de datos. La informacin puede caducar o puede convertirse
en un dao colateral en el marco de una autntica batalla dentro de una organizacin, en la que cada uno se aferra
a su pequeo almacn de datos y nadie quiere compartir la informacin.
Adems, la situacin no hace ms que agravarse con el apabullante volumen de datos que las organizaciones ge-
neran diariamente.
Los proyectos relacionados con los datos pueden fracasar por muchos motivos. Pondremos un par de ejemplos de
fracasos para explicar porque salieron mal, cules fueron las consecuencias y qu se puede hacer para evitar que a
usted le suceda lo mismo.

La carta al Estimado idiota

Hay que tener mucho cuidado al extraer informacin de algn sitio porque el origen de los datos puede pasar
factura. Esta espantosa experiencia tuvo lugar en el centro de atencin al cliente de una gran institucin de
servicios financieros. Como en casi todos los centros de atencin al cliente, los agentes del servicio atienden
llamadas e introducen datos de clientes en una base de datos compartida.
La base de datos de este centro en concreto tena un campo de encabezamiento editable. As, en lugar de
limitarse a Sr., Sra., Dr., etc., el campo admita hasta 20 30 caracteres para que el agente escribiera la fr-
mula que deseara. A medida que los agentes atendan las quejas de clientes enfadados, algunos empezaron
a introducir notas (no siempre agradables) en cada registro, como por ejemplo pesado o idiota.
Lo hicieron durante aos y nadie not nada porque ningn sistema de la organizacin extraa datos de ese
campo de encabezamiento. Hasta que, un da, el departamento de marketing decidi lanzar una campaa
de correo directo para promover un producto nuevo. Tuvieron una idea genial: en lugar de comprar una lista,
utilizaran la base de datos del servicio de atencin al cliente.
De esta manera, el encabezamiento de las cartas acab siendo:
Estimado idiota John Smith.
Pareca raro que ningn cliente quisiera contratar el nuevo servicio propuesto, pero, cuando la organizacin
empez a examinar el correo enviado, descubri por qu nadie estaba interesado en hacerlo.

Sguenos en:
Especialistas en Gestin de Datos 9

Moraleja?
Ya no somos dueos de nuestros datos, afirma Arvind Parthasarathi, vicepresidente de gestin de productos y de
calidad de la informacin para especialistas en integracin de datos de Informatica.

El mundo est tan interconectado que es posible que alguna persona acce-
da a su informacin y la utilice de manera inaudita. Puesto que extraemos
datos de cualquier lugar, debemos asegurarnos de que poseemos un nivel
adecuado de gestin de la calidad de datos antes de utilizar esa informa-
cin para algo nuevo

Lo que deba entenderse por nivel adecuado depender del uso que se d a los datos. En el sector del correo
directo, probablemente sea suficiente con tener entre un 70 y un 80% de datos exactos, aade Parthasarathi.
Por el contrario, en la industria farmacutica, es aconsejable disponer al menos de un 99% de datos correctos. No
obstante, ninguna compaa quiere, necesita o est dispuesta a pagar por tener datos perfectos. Es demasiado caro.
La cuestin que siempre debemos plantearnos es: cmo vamos a utilizar la informacin y dnde est el lmite de
lo aceptable?

Engao por partida doble

Los errores de usuario son perjudiciales, pero la ingenuidad de los usuarios puede ser an peor.
Tomemos como ejemplo el caso de una aseguradora muy importante que almacenaba la mayora de los da-
tos de sus clientes en una aplicacin del sistema central de los aos 70. Los agentes encargados de introducir
los datos recibieron instrucciones para buscar los registros existentes en la base de datos antes de crear
nuevas entradas, pero la funcin de bsqueda era tan lenta e imprecisa que muchos agentes desistieron y
crearon registros nuevos.
Cul fue el resultado? Cada empresa acab figurando 700 u 800 veces en la base de datos, lo que haca que
el sistema fuera todava ms lento e impreciso.
Lamentablemente, la aplicacin estaba tan asociada con otros sistemas de la empresa que la direccin no
quiso gastar dinero en retirarla y sustituirla por otra. Al final, el departamento de TI de la aseguradora pre-
sent argumentos convincentes de que la incapacidad de la empresa para localizar a clientes actuales podra
llegar a costarles diariamente 750.000 dlares estadounidenses.
En ese momento, la empresa utilizaba SSA-Name3 de Identity Systems para limpiar los datos. As depuraron
en ltima instancia 36.000 registros duplicados.
La duplicacin es uno de esos problemas que les quitan el sueo a los gerentes de TI. Cuanto ms grande
sea la base de datos, peor suele ser el problema, afirma Ramesh Menon, un director de Identity Systems,
empresa que proporciona software de correspondencias y bsqueda de identidades a organizaciones como
AT&T, FedEx y el servicio de administracin tributaria estadounidense.
Por desgracia, nadie alcanza a conocer las dimensiones reales de su problema, aade. Si alguien le dice
que tiene exactamente un 2,7% de datos duplicados en su base de datos de clientes, se equivoca.

Sguenos en:
Especialistas en Gestin de Datos 10

Tampoco existen remedios milagrosos. Menon afirma que la solucin consiste en utilizar tecnologa de com-
paracin de datos para aislar el registro de oro, es decir, lograr una vista nica de la informacin a travs de
mltiples repositorios de datos. Incluso en ese caso, lo ms difcil puede ser lograr que todos los accionistas
de una organizacin decidan de comn acuerdo qu informacin estn dispuestos a compartir, as como qu
debe considerarse una correspondencia.
Dos departamentos distintos de una misma organizacin pueden tener definiciones de correspondencia
y de duplicado completamente diferentes, apunta Menon. Este tipo de procesos de integracin fracasa
porque la gente no es capaz de ponerse de acuerdo sobre quin es propietario de la informacin y qu datos
pueden intercambiarse.
Como hemos podido descubrir a travs de estas historias increbles pero ciertas, es que todas las organiza-
ciones deben tomar seriamente en cuenta la calidad de sus datos.
La calidad de la informacin es esencial para el xito de todos los proyectos de integracin de datos. Antes de
poder ser utilizados en un data warehouse, un sistema CRM, un ERP o una aplicacin analtica, as como en
proyectos de migracin, consolidacin y sincronizacin, los datos se deben analizar y limpiar. Una mala cali-
dad de los datos cuesta muy cara a la organizacin, atenta contra el cumplimiento de normativas y conlleva,
entre otras consecuencias, una alteracin de la relacin con los clientes, rupturas en la cadena logstica y una
toma decisiones menos pertinentes.

Consecuencias

Impacto en la retencin de clientes. Costes no planificados.


Errores en la toma de decisiones. Descuadres contables.
Mala gestin de riesgos de ndole legal. Desincronizacin de sistemas.
Prdida de competitividad. Incapacidad de controlar el impacto ante cambios en los datos.
Desperdicio de recursos. Informacin duplicada, desactualizada e inexistente/incompleta.
Duplicidad de esfuerzos. Ineficiencia operacional.

Beneficios

Retencin de cliente. Optimizacin de la gestin de proveedores.


Mejora de la imagen. Identificacin de informacin duplicada.
Ahorro de costes. Mayor efectividad de campaas de marketing.
Mejora de los ratios. Reduccin del trabajo manual de elaboracin de informes.
Optimizacin de la gestin de procesos internos. Cumplimiento de obligaciones regulatorias.
Venta cruzada a clientes existentes. Trazabilidad de la informacin analizada.
Mejora en el servicio al cliente. Mayor seguridad en los datos para la toma de decisiones.

Sguenos en:
Especialistas en Gestin de Datos 11

3. 4. Impacto de la mala Calidad de Datos


La mala calidad de datos tiene un gran impacto en el negocio, genera importantes sobrecostes y daa la imagen
corporativa que se proyecta hacia el exterior. La calidad de datos contribuye a una prdida de seriedad en la percep-
cin de la organizacin por algunos de sus posibles impactos, como pueden ser:

Impide la Business Intelligence: provocando informes errneos y defectos en el anlisis. Una


decisin basada en informacin incorrecta puede tener un graves consecuencias. Un decisor
debe confiar plenamente en los datos proporcionados para tomar medidas acertadas y eficaces
de forma productiva.
Aumenta los costes de gestin: las discrepancias entre aplicaciones pueden requerir trabajos
de reconciliacin de registros. Muchas empresas realizan procesos de cuadre, correccin y de-
duplicacin con desarrollos manuales que conllevan un gran coste y aportan poco valor.
Daa la relacin con el cliente: dificulta la posibilidad de ofrecer un buen servicio y un trato
personalizado. El cliente suele ser el primer afectado ante un problema de Calidad de Datos.
Con frecuencia se realizan las labores correctivas tras una reclamacin del cliente cuando el
dao ya est hecho (pero, qu ocurre cuando no reclaman?).
Imposibilita la deteccin de fraudes, sobrepagos, etc.: No puede identificar duplicados, unida-
des familiares y corporativas (households), etc.
Incumplimiento de normativas: la Calidad de Datos es clave para el cumplimento regulatorio.
La calidad de datos es igualmente uno de los pilares fundamentales para el cumplimiento de
la LOPD.

3. 5. Donde se genera y cules son las causas de la mala Calidad


de datos?

Dnde se genera? de informacin de las organizaciones, sin tomar las


precauciones oportunas, y esto provoca que gene-
Data Entry: la mayor fuente de errores son las en- ren multitud de problemas de Calidad de Datos. Por
tradas de informacin manual. Suelen producirse ejemplo, si se quiere incorporar un nuevo listado de
por ruido en la comunicacin, errores tipogrficos productos en la base de datos de una compaa y no
o equivocaciones. Tambin pueden aparecer como se han asimilado previamente las referencias actuali-
consecuencia de otros factores externos, como por zadas por el proveedor (no se trata de un nuevo pro-
ejemplo: en la entrada de datos de un contacto, si ducto, quizs le ha cambiado: el nombre, el formato,
ste desconoce su cdigo postal y la persona que etc..) tendremos duplicidades en nuestro catlogo de
est realizando la entrada, como tampoco lo sabe productos.
y no tiene herramientas para localizar esta codifica-
cin, deja en blanco ese tem. E
 rrores de carga de los sistemas transaccionales:
los mltiples errores que suelen ocurrir durante la
Datos externos: frecuentemente se incorporan da- carga en los sistemas transaccionales, provocan una
tos externos de forma automtica, en los sistemas deficiencia de la calidad de los datos.

Sguenos en:
Especialistas en Gestin de Datos 12

Migraciones: cuando se realiza una migracin de Nuevas Aplicaciones: cuando se crea una nueva apli-
datos sin haber analizado en profundidad los cam- cacin en la organizacin, no se tiene en cuenta los
bios que hay que aplicar a la informacin, una de las estndares de calidad de datos establecidos, o se
muchas consecuencias, ser la ausencia de calidad desconoce que existen.
de datos, existencia de valores obsoletos o en un
formato distinto al esperado en el nuevo sistema y
duplicidades.

OrigendelosErroresdeCalidaddeDatos

ProcesosExternos DeterioroNatural

Migracin Nuevos Usos


Consolidacin de Cambios no registrados
Sistemas Basede Actualizacin de
Datos Sistemas
Entrada Manual de Datos
Alimentacin por Lotes Automatizacin de
Interfaces Tiempo Real Procesos

Causas?
Cada vez hay ms datos de ms fuentes en ms Mayores niveles de Calidad de Datos requeridos para
sistemas: ERPs, fuentes externas, web, call centres, procesos automatizados: la mala calidad de datos lle-
Datawarehouses, etc: todos los procesos se informa- va a problemas de pagos en sistemas ERP, SCM, etc.
tizan, los volumenes aumentan, las aplicaciones se Todos los procesos se automatizan y cada vez hay me-
migran, los sistemas se comunican. nos intervencin humana. Por ejemplo, una persona
detectara y cancelara por sentido comn un proceso
Los datos que eran introducidos para un propsito
errneo, como por ejemplo, el envo de una carta a la
ahora est siendo empleados en otras aplicaciones:
calle kkkkkkkk, mientras que un sistema automati-
la Calidad de Datos puede ser relativamente buena
zado de mailing, no.
para los sistemas transaccionales pero no para siste-
mas BI o CRM. Una factura incorrecta en el transac- Mayor sensibilidad del pblico: los clientes esperan
cional afecta slo a un cliente. En el sistema de BI, un mejor servicio. Los datos defectuosos llevan a una
esta misma factura puede tener un impacto mucho pobre gestin del cliente que cada vez es ms exigen-
mayor. te y cada vez conoce mejor sus derechos.

Sguenos en:
Especialistas en Gestin de Datos 13

3. 6. Como evaluar la mala calidad de datos

Una manera sencilla y prctica de evaluar la calidad de Algunas de las dimensiones que se definan, sobre todo
los datos es el clculo de una tasa de error, para todos, las relacionadas con los valores de los datos, podrn
o para los ms importantes atributos dentro de una ser medidas a partir del clculo de un indicador que se
base de datos. Para esto es recomendable comparar obtendr como resultado de comparar los datos entre
un nmero de veces que sea estadsticamente adecua- la fuente original y la base, lista o tabla de datos. Sin
do, los datos entre la fuente original y la base, lista o embargo, en el caso de otras dimensiones cuya me-
tabla de datos. dicin directa sea ms compleja (relevancia, puntua-
lidad o accesibilidad), una forma de evaluacin sera
Otra manera de medir la calidad de los datos es enfo-
la aplicacin de encuestas al personal implicado en la
cndose en las dimensiones de calidad. Para esto se
produccin y utilizacin de los datos, para obtener cri-
hace necesario, en principio, definir las dimensiones
terios cualitativos respecto a las dimensiones.
de calidad que sean importantes para el conjunto de
datos en anlisis, y despus se deben establecer indi-
cadores que permitan cuantificar o calificar el grado
de adecuacin del dato atendiendo a cada dimensin.

Otros indicadores del nivel de calidad de los datos me- tos, las quejas y reclamaciones de los clientes de la
nos relacionados con mediciones directas realizadas empresa que estn asociadas a este factor, as como
sobre la base de datos, seran las estimaciones que se cualquier otro indicador que pueda ser reflejo de un
puedan obtener del costo (en tiempo o dinero) dedi- inadecuado comportamiento empresarial a causa de
cado a la deteccin y correccin de errores en los da- la mala calidad de los datos.

Sguenos en:
Especialistas en Gestin de Datos 14

4. Roles
En las siguientes lneas se definen las diferentes responsabilidades de cada uno de los par-
ticipantes en un proyecto de calidad de datos.

Analista de Negocio
La funcin primordial del analista de negocios (a veces conocido como el Analista Funcional) es representar los
intereses de la empresa en el desarrollo de la solucin de integracin de datos. Su papel secundario es funcionar
como un intrprete para el personal comercial y tcnico, traduciendo conceptos y terminologa, actuando como
puente de entendimiento.
En circunstancias normales, una persona de la empresa cumple este papel, ya que el conocimiento profundo de las
necesidades de negocio es indispensable. Idealmente, la familiaridad con la tecnologa y el ciclo de vida de desarro-
llo permite que el personal acte como canal de comunicacin entre los usuarios tcnicos y de negocio.

Responsabilidades
Asegura que la solucin entregada cumple con las necesidades de la empresa (deben participar en las decisiones
relacionadas con los requisitos de negocio).
Ayuda a determinar el alcance del proyecto de integracin de sistemas de datos, el tiempo y los recursos necesarios.
Proporciona apoyo en el anlisis de las funciones de recaudacin, la cartografa, la agregacin y el equilibrio de
datos.
Realiza el anlisis, documentacin, pruebas, informes ad hoc, apoyo al usuario y proyecto de liderazgo.
Produce flujos detallados de procesos de negocio, especificaciones de requisitos funcionales y modelos de datos y
comunica estos requisitos para el diseo y construccin de equipos.
Lleva a cabo evaluaciones de coste/beneficio de las funcionalidades solicitadas por los usuarios finales.
Prioriza los factores que compiten.
Elabora planes y se encarga de la confeccin del conjunto de documentacin de usuario.

Data Steward
El Data Steward es responsable de la gestin estratgica de las entidades de datos asignados a travs de una
parte determinada de la empresa. Busca asegurar altos niveles de calidad de los datos, la integridad, la disponi-
bilidad, la fiabilidad y la seguridad de los datos. Esta funcin se encarga de establecer las definiciones de datos
consistentes, mantener las reglas de negocio y normas tcnicas, y procurar el seguimiento y calidad de los datos
de auditora. El administrador de datos pone de relieve el valor de negocio de los datos, fomenta el objetivo de
reutilizar datos y articula la importancia de la informacin en la organizacin.

Responsabilidades
Registra el uso comercial de los datos definidos.
Identifica oportunidades para compartir y reutilizar datos.
Determina y pone de acuerdo las ganancias de las mtricas de calidad de datos de destino.

Sguenos en:
Especialistas en Gestin de Datos 15

Supervisa el progreso de la calidad de los datos.


Supervisa la calidad de los datos y la estrategia de ciclo de vida de la informacin y las medidas correctivas.
Participa en la aplicacin de la calidad de los datos y las normas de seguridad de datos.
Asegura la calidad, la integridad y exactitud de las definiciones de datos.
Comunica inquietudes, temas y problemas de datos a las personas que pueden influir en el cambio.
Resuelve las investigaciones y las cuestiones de datos.
Asegura que las metodologas de gestin de datos incluyen las etapas, actividades y resultados necesarios para
lograr de manera consistente de datos de alta calidad, en condiciones de seguridad.
Asegura que los propietarios de los datos o sistemas de registro se adhieren a la gestin de datos definidos prc-
ticas, polticas y procedimientos.
Identifica y gestiona la solucin de calidad de datos y los problemas de seguridad de datos, como singularidad, la
integridad, la exactitud, la coherencia, la privacidad y la integridad de una manera rentable y oportuna.

Desarrollador Quality
El desarrollador de Calidad de Datos se encarga de disear, probar, implementar y documentar los procedi-
mientos de calidad de los datos del proyecto y sus resultados. Adems, proporciona la Integration Developer DQ
de datos con todos los productos y resultados de los procesos de calidad de datos, incluidos los procedimientos
en curso que se ejecutarn en la fase de operacin o despus del proyecto.
El desarrollador DQ debe entregar al analista de negocios el resumen de los resultados de anlisis de calidad
de los datos, segn sea necesario durante el proyecto. Tambin debe documentar a nivel funcional cmo los
procedimientos de trabajo evolucionan dentro de las aplicaciones de calidad de datos.
Las principales tareas asociadas a esta funcin son desarrollar y explorar/perfilar los datos de origen del
proyecto, definir o confirmar la definicin de los metadatos, limpiar y perfilar los datos del proyecto, revisar los
registros duplicados o redundantes y proporcionar al Integration Developer datos con propuestas concretas
sobre la forma de proceder con los procesos ETL.

Responsabilidades
Determinar todos los datos de origen y las caractersticas de los metadatos.
Disear y ejecutar la auditora de Data Quality.
Presentar los resultados de perfiles/auditora, en resumen y en detalle, para el analista de negocios, el director
del proyecto, y el data steward.
Ayudar al analista/ gestor de proyecto empresarial/ data steward en la definicin o modificacin del plan de
proyecto.
Ayudar al Integration Developer Data en el diseo de las asignaciones de fuente a destino.
Disear y ejecutar los planes de calidad de datos, llevando a cabo la limpieza, de-duplicacin y preparacin de los
datos del proyecto para la fase de construccin.
Probar los planes de calidad de datos en cuanto a su precisin y exhaustividad.
Colaborar en la implementacin de los planes que se ejecutan en un entorno de lnea o por lotes.
Documentar todos los planes en detalle y completar la documentacin de traspaso al cliente.
Ayudar a otras reas relacionadas con el uso de los procesos de calidad de datos, tales como las pruebas unitarias.

Sguenos en:
Especialistas en Gestin de Datos 16

5. Integracin & Calidad de Datos hacia dnde


vamos
Las iniciativas de integracin y calidad de datos, generalmente han sido ejecutadas de for-
ma tctica y fragmentada. Primero con cdigo a medida, despus con una mezcla de cdigo
a medida y herramientas cerradas.

Las herramientas disponibles del mercado tradicionalmente estaban diseadas para un solo propsito que se estruc-
turaba en torno a un estilo muy simple de integracin de datos (como las ETL, slo abordaban la integracin de datos)
o una parte de la calidad de datos (por ejemplo perfilado de datos o limpieza de datos).
El coste y la limitada funcionalidad de estas herramientas hizo que las organizaciones desplegaran cada una de
ellas tcticamente, mientras continuaban desarrollando cdigo a medida. De este modo, al tiempo que las or-
ganizaciones reconocen la importancia estratgica de la integracin y la calidad de los datos, empiezan a buscar
soluciones para enfrentarse de una forma simple y centralizada a todo el rango de necesidades y requerimientos.
El cambio en la demanda y las presiones de la competencia en el mercado, han provocado la consolidacin de los
proveedores y la aparicin de herramientas con mltiples propsitos. Adems, la madurez de este tipo de herra-
mientas ha permitido a las organizaciones empezar a reducir la cantidad de cdigo a medida y comenzar a apoyarse
en los metadatos.
Actualmente estamos en un punto de convergencia, donde ya se han desarrollado herramientas que solucionan
de manera unificada todas las necesidades de integracin y calidad de datos. En el mercado pueden encontrarse
herramientas muy verstiles y que, de una forma muy centralizada, pueden dar soporte a muchos proyectos dentro
una organizacin, adems de trabajar con muy buenos resultados sobre los metadatos.

El estado actual de la calidad de datos: se est implementado una figura visible que vele por la calidad de datos llama-
da DataSteward.

Sguenos en:
Especialistas en Gestin de Datos 17

6. Arquitectura de Calidad de Datos


Esta arquitectura es aplicable a casi todas las tecnologas lderes en la Calidad de Datos y
consta de los siguientes elementos:

Componente servidor: encargado de recibir las peticiones, ejecutar los procesos y ofrecer un en-
torno centralizado.
Repositorio: donde se almacenan los procesos de calidad desarrollados, as como caractersticas
de la solucin: usuarios, versiones, etc.
Componente cliente: entorno grfico que permite el diseo de los procesos de Calidad de Datos
y almacenarlos.
Runtime: encargado del lanzamiento de los procesos de Calidad de Datos.
Realtime: encargado de la ejecucin en tiempo real, generalmente mediante API`s o WebServices.
Diccionarios: con los contenidos de referencia que se usan para estandarizar, normalizar y enri-
quecer. Pueden ser desde callejeros completos, hasta listados de productos, nombres, etc.
Mdulo de reporting: que permite la visualizacin de las mtricas de Calidad de Datos.
Conectores: que permiten el acceso a diversas fuentes de datos o aplicaciones.
Conectividad a soluciones de Integracin de Datos: para la incorporacin de procesos de Calidad
a los flujos de datos existentes.

Sguenos en:
Especialistas en Gestin de Datos 18

6. 1. Donde acta la calidad de datos en un proceso de DWH

En la construccin de un DWH, una aplicacin de calidad de datos nos ayuda a explorar, perfilar y medir el nivel de
calidad de datos que tenemos. Tambin va a permitir estandarizar, modificar, limpiar, de-duplicar y enriquecer los
datos; asegurando as que todos los datos a insertar en el DWH cumplen las normas y estndares definidos por la
organizacin con la supervisin del DataSteward.

Adicionalmente, nos permite monitorizar y la creacin de informes sobre la calidad de datos que se est utilizando
en el DWH. Gracias a los procesos de calidad de datos se pueden corregir los datos en origen cuando sea requerido.

Sguenos en:
Especialistas en Gestin de Datos 19

7. Metodologa & Tecnologa de Calidad de Datos


Una buena metodologa de calidad de datos, debe tener una cohesin entre una buena
metodologa y una buena tecnologa. Para poder definir la metodologa adecuada hay que
tener en cuenta que sta depende del nivel de apoyo logrado, adems de complementarse
con el uso de una tecnologa adecuada para el tratamiento de la calidad de datos; debido
a que los procesos son complejos y realizar un desarrollo manual resultara muy costoso
y lento.

Lo primero es definir qu tipo de proyecto se quiere abordar:

Proyectos estratgicos, con apoyo de la direccin: metodologas de Data Governance. El crecimiento


debe ser preferiblemente moderado, iniciando un nico proyecto de alta viabilidad, logrando el xito
y creciendo a partir de ah.
Proyectos tcticos, con apoyo de una o varias unidades de negocio. Proyectos relacionados con la
Calidad de Datos y el establecimiento de mejores prcticas para cada uno de ellos.
Proyectos departamentales, orientados a la resolucin de un problema determinado. Es recomenda-
ble establecer bases metodolgicas slidas previendo el crecimiento.

En todos ellos, es importante la divulgacin de los xitos para seguir creciendo. Las mejoras de la Calidad de Datos
tienen un impacto muy positivo en todos los procesos, pero pueden resultar imperceptibles para los usuarios. Cuan-
do los problemas desaparecen, no suelen valorarse los esfuerzos que se han realizado para lograrlo.
La tecnologa escogida debe presentar los siguientes requisitos:

Acceso universal a cualquier fuente de datos: debemos exigir que la solucin pueda acceder de forma
fluida (es decir, sin requerir extracciones a ficheros y recargas posteriores) a todos los sistemas de la
compaa. La mejor forma es con una solucin que pueda combinarse con una plataforma de integra-
cin de datos.
Deben poder tratar cualquier tipo de datos. Incluso en el caso de que el proyecto inicial comprenda
nicamente datos personales. Recurrir a un normalizador en esta fase limitar la evolucin del pro-
yecto a otras reas.
Debe incluir soluciones de reporting, scorecarding y monitorizacin. Fundamental para medir, ana-
lizar, reportar y seguir la evolucin de la Calidad de Datos.
Debe estar orientado a usuarios de negocio. Las herramientas de Calidad de Datos deben estar
orientadas al fin, y no a los datos. Esto se logra con interfaces grficas y componentes que permitan,
de forma lgica, el tratamiento de los datos sin necesidad de codificacin. Cuanta menos complejidad
tcnica, mejor se aplicarn las reglas de negocio.

Sguenos en:
Especialistas en Gestin de Datos 20

Los pasos fundamentales de cualquier metodologa de Calidad de Datos: definir mtricas, establecer objetivos, co-
rregir, monitorizar, repetir y evolucionar.

Sguenos en:
Especialistas en Gestin de Datos 21

8. Ciclo de Vida Calidad de Datos


Es importante considerar que los proyectos de calidad de datos, son proyectos de mejora
continua, siendo un proceso iterativo hasta llegar a crear una espiral de calidad de datos.
Por ello, para obtener los mejores resultados en la implementacin de estos proyectos, es
imperativa la utilizacin de procedimientos claros y bien establecidos.

El ciclo de vida de un proyecto de Calidad de Datos consiste en:

1. Definir las reglas de negocio de Calidad de Datos junto con las unidades funcionales, adems de establecer objeti-
vos de cumplimiento. Estas reglas deben ser recogidas en un documento y validadas por las unidades funcionales
y la alta direccin.
2. Implementar las reglas para verificar el cumplimiento de las mismas en los datos existentes.
3. Generar y publicar informes de errores, excepciones e inconsistencias.
4. V
 alidar los resultados por parte de las unidades de negocio.
5. Establecer iniciativas de correccin siguiendo las reglas de Calidad de Datos. Describir y reportar peridicamente
las iniciativas aplicadas, documentando los porcentajes de correccin. Proceso de Calidad de Datos: perfilado,
limpieza y matching.

Sguenos en:
Especialistas en Gestin de Datos 22

8. 1. Procesos de Calidad de Datos


Cuenta con los siguientes procesos fundamentales:

Perfilado de Datos: anlisis, medicin y monitoriza-


cin de la Calidad de Datos.
Limpieza: correccin de los errores detectados.
Mejora de Datos/Enriquecimiento: incorporacin de
datos externos de elevada fiabilidad.
Matching: relacin de datos y consolidacin/fusin
de duplicados.

8. 1. 1. Perfilado de Datos
El perfilado de datos permite localizar, medir, monito-
rizar y reportar problemas de calidad de datos
El perfilado no debe ser slo el inicio de un proyecto de
Calidad de Datos, es un proyecto en s. Debe perma-
necer durante todo el ciclo de vida de los procesos de
calidad de datos, tanto en los procesos posteriores e
incluso despus para la monitorizacin.
Existen dos tipos de perfilado:

Perfilado de estructura.
Perfilado de contenido, tambin llamado anlisis de
datos.

El perfilado de estructura consiste en el anlisis de Tipos de anlisis del Perfilado de Estructura:


los datos sin tener en cuenta su significado. Se anali-
Perfilado de Columnas: anlisis de atributos que
za la informacin desde un punto de vista estructural.
puede tener una columna de una tabla: tipo de da-
Por ejemplo, un dato que contiene el nombre Juan J
tos, longitud, nmero de nulos, nmero de valores
Gmez no tiene en cuenta si el nombre es vlido, sim-
nicos, frecuencias de valores, patrones de caracte-
plemente lo analiza y lo identifica como una cadena de
res, mximos, mnimos, medias, etc.
caracteres de tamao de 12 caracteres.
Perfilado de Dependencias: anlisis de columnas de-
El anlisis se realiza de forma semi-automtica y ma-
pendientes de otras. Tpicamente usado para valida-
siva. Las soluciones especializadas en este tipo de per-
cin de claves primarias y/o candidatas.
filado pueden analizar cientos de tablas sin apenas
necesidad de parametrizacin. Perfilado de Redundancias: bsqueda de relaciones
entre las tablas. Generalmente usado para valida-
cin de claves forneas y/o joins. Anlisis de valores
hurfanos, es decir, valores de una tabla referen-
ciada no existentes en una tabla de referencia (Child
Orphan), o viceversa (Parent Orphan).

Sguenos en:
Especialistas en Gestin de Datos 23

El perfilado de contenido consiste en el anlisis realizarse un perfilado de estructura para obtener


de la informacin contenida en los datos. Se analiza un conocimiento factual de los datos. No basarse en
la informacin desde un punto de vista sintctico y se- suposiciones sino en hechos. Igualmente puede reali-
mntico. Por ejemplo, un dato que contiene el nombre zarse un perfilado de contenido para dimensionar el
Juan J Gmez, podra indicar que contiene un nom- proceso de limpieza.
bre vlido, una letra que podra ser una inicial de un Durante la fase de limpieza es necesario analizar el
segundo nombre y un apellido vlido. contenido y la problemtica de la informacin a tra-
Este tipo anlisis requiere una configuracin para cada tar desde un punto de vista de negocio. La estructu-
campo para aplicar las reglas de negocio pertinentes ra es menos importante para esta fase. Es ms im-
en cada dato. Se deben combinar componentes es- portante es conocer si el contenido se adapta a las
pecficos para tratamientos de cadenas, diccionarios necesidades del negocio. Esta fase es realizada por
o listas de valores e incluso diccionarios de patrones Data Stewards, responsables de negocio o expertos
vlidos. en Calidad de Datos.
Este tipo de anlisis es usado por analistas de Calidad Los desarrolladores ETL pueden usar el perfilado de
de Datos. estructura para ayudar adaptar los datos al modelo
destino. Por lo general los desarrolladores ETL no re-
Se usa generalmente para:
quieren el perfilado de contenido.
Auditora de Calidad de Datos
El departamento de operaciones puede usar el perfi-
Monitorizacin de Calidad de Datos lado de estructura para validar los datos entregados,
as como compararlos con las fuentes originales. Por
lo general no requieren perfilado de contenido aunque
Fases donde se aplica el perfilado de datos s pueden usar informes o cuadros de mandos gene-
Al inicio del proyecto, o simplemente a la hora de rados por el perfilado de contenido para su monitori-
analizar una base de datos no documentada, puede zacin.

Sguenos en:
Especialistas en Gestin de Datos 24

Indicadores de Calidad de Datos

Durante la fase de perfilado, es importante no slo la documentacin de los datos, sino la deteccin de errores y su
clasificacin.
Por lo general se pueden distinguir seis categoras principales de indicadores de Calidad de Datos:

Existencia: datos omitidos (nulos, en blanco), o que contienen informacin no til (valores por defecto,
como N/D).
Conformidad: adecuacin del formato de un dato con respecto a un estndar establecido. Por ejem-
plo, que los telfonos espaoles estn todos en el formato de nueve dgitos, sin prefijo internacional,
ni guiones, ni espacios.
Consistencia: nivel de coherencia entre dos o ms conjuntos de datos. Por ejemplo, una columna
indica que el cliente es varn y tiene por nombre Luisa.
Precisin: existencia de datos incorrectos u obsoletos. Generalmente se comprueba comparando con
datos de referencia. Por ejemplo: fecha de nacimiento 1/3/1890
Duplicacin: datos referentes a la misma entidad repetidos y que no aportan informacin aadida.
Por ejemplo: una misma persona que aparece dos o ms veces en la misma tabla.
Integridad: problemas tanto de integridad referencial (claves primarias y forneas), como de datos
relacionados no unidos por un campo comn. Por ejemplo, empresas del mismo grupo de empresas
no relacionados entre s en una base de datos.

Sguenos en:
Especialistas en Gestin de Datos 25

Ejemplo Indicadores de Calidad de Datos

Existencia: existen valores vacos en el campo direc- grupo de empresas y no hay ningn campo que los
cin, ciudad, cdigo postal, etc. En el campo telfono relacione entre s.
aparece un N/D.
Una vez creada la expectativa y reconocidos los bene-
Conformidad: Arcosa Sociedad Annima debera ficios de mejorar la calidad de la informacin, se debe
estar escrito Arcosa S.A. para mantener la mis- aplicar una metodologa para mejorar la calidad de la
ma nomenclatura que el resto de registros. Grupo informacin en nuestro negocio. Existen muchas me-
Renault (Madrid) debera excluir la palabra Ma- todologas, aunque la siguiente suele generar buenos
drid pues este dato ya est indicado en el campo resultados en negocios de cualquier sector e indepen-
de poblacin. En el campo pas aparece Espa#a o dientemente de sus caractersticas:
Spain en lugar de Espaa.
Identificar la informacin crtica para el negocio. Exis-
Consistencia: Aparece Banco Popular como cliente te tanta informacin en una organizacin que difcil-
particular, y BMW aparece como Activo cuando mente podemos dedicar suficientes recursos para
el ltimo pedido se realiz en julio de 2003. mejorar la calidad de toda la informacin, por lo que
hay que identificar cual es la informacin que tiene
Precisin: para el cliente 763117 existe una la direc-
un mayor impacto en las operaciones del negocio.
cin de Madrid con una calle de Madrid, sin embar-
go el cdigo postal es de Barcelona. Se trata de un Definir criterios de Calidad de Datos. Significa poder
cdigo postal errneo que podemos detectar y corre- definir cundo un dato es exacto para su organizacin.
gir cruzando con una fuente de datos de referencia
Realizar mediciones iniciales para detectar posibles
(por ejemplo un callejero).
problemas de Calidad de Datos. Este paso es un diag-
 Duplicados: aparecen los clientes Deutsche Bank nstico que nos apoya a medir la calidad actual de la
Group y Deutsche Bank, con la misma direccin. informacin crtica definida en el paso 1, identificando
Se trata del mismo cliente aunque tenga dos cdigos dnde se encuentran los mayores problemas y priori-
de cliente diferente. zando las reas con las que hay que iniciar el esfuerzo.
Integridad: dos clientes diferentes, 763130 BBVA A
 utomatizar Indicadores de Calidad de Informacin.
y 763133 Banco Bilbao Vizcaya, uno de ellos de Ma- En este paso se realizan programas que apoyen a
drid y el otro de Ciudad Real, pertenecen al mismo medir peridicamente la Calidad de la Informacin,

Sguenos en:
Especialistas en Gestin de Datos 26

lo que no se puede medir no se puede administrar y planes de accin normalmente se incluye el estable-
no se puede mejorar. Estos medidores deben estar al cer controles preventivos y correctivos para la mejo-
alcance de las personas que sern las responsables ra de la calidad de Datos.
de monitorizar y mejorar la calidad de la informacin.
Monitorizacin de los indicadores por parte de la Ge-
Definir responsables de Calidad de Datos. Uno de los rencia. Si los empleados no perciben las altas expec-
factores crticos de xito de un proyecto de Calidad tativas por parte de la gerencia, el proyecto tendr
de Datos es definir un responsable de cada indicador. resultados limitados, es pues importante que los
Esta persona debe monitorizar las tendencias del in- indicadores de Calidad de Datos se revisen peridi-
dicador y disear planes de accin encaminados a la camente, asegurando su seguimiento y mejora con-
mejora de los indicadores. tinua.
Diagnsticos de calidad de Datos. En estos diagns- Finalmente, una vez estabilizados los indicadores de
ticos se determinan las posibles causas de la mala Calidad de Datos, se regresa al punto uno para iden-
calidad de Datos y se definen planes de accin con tificar informacin que tenga impacto en el negocio y
responsables para mejorar el indicador. Entre los cuya medicin y mejora sean necesarias.

8. 1. 2. Limpieza y Estandarizacin/Normalizacin de Datos


La normalizacin de datos se refiere a las operaciones relacionadas con la modificacin de la apariencia de los da-
tos, por lo que se parte de una estructura ms uniforme y se procede al enriquecimiento de los datos mediante la
derivacin de detalles adicionales de contenido existente.
La limpieza de datos, es el acto de descubrimiento, correccin o eliminacin de datos errneos de una base de da-
tos. Este proceso permite identificar datos incompletos, incorrectos, inexactos o no pertinentes, para su posterior
sustitucin, modificacin o eliminacin.
La limpieza de datos se diferencia de la validacin de datos (data validation), en que esta ltima cumple la funcin
de rechazar los registros errneos durante la entrada al sistema. Sin embargo, el proceso de data cleansing incluye
la validacin y adems la correccin de datos.

La limpieza de datos permite:

Parsing: descomponer los datos de un campo


en elementos en su lugar correspondiente. Por
ejemplo: c/ Juan Bravo 34, 1B separarlo en:
tipo va: Calle, nombre va: Juan Bravo, n-
mero portal: 34, piso: 1, puerta: B.
Estandarizar. Por ejemplo el telfono:
+34.609.039.049 convertirlo en 609039049.
Corregir errores en los datos. Por ejemplo, co-
rreccin de cdigos postales en base a la va y
a la localidad.
Enriquecimiento de datos. Por ejemplo, detec-
cin del gnero en base al nombre.

Sguenos en:
Especialistas en Gestin de Datos 27

Parsing

Consiste en la descomposicin de los distintos elementos que componen el dato. Existen mltiples modos
de separar los datos. Desde mtodos simples por medio de subcadenas (usado para referencias de pro-
ductos, nmeros de cuenta, separacin del prefijo del telfono), hasta mtodos ms complejos que usan
diccionarios de valores y componentes que tienen en cuenta los patrones, la posicin de un elemento o el
tipo de dato.

Estandarizacin

Es la adecuacin de un dato a un formato esperado. Las operaciones necesarias para la estandarizacin


dependen de la naturaleza del dato. Por ejemplo, para calcular el dgito de control del CIF es necesario un
pequeo script o cdigo. Otros elementos clsicos de estandarizacin son el reemplazo de caracteres o la
sustitucin de elementos a partir de diccionarios de traslacin y componentes de tratamiento de mayscu-
las y minsculas.

Sguenos en:
Especialistas en Gestin de Datos 28

Normalizacin

Consiste en el reemplazo/enriquecimiento de un elemento errneo o la no existencia del mismo por uno


correcto. Generalmente se realiza a travs del enfrentamiento de los datos originales contra los existentes
en una fuente de datos de referencia o con diccionarios. La relacin con fuentes externas o diccionarios se
realiza a travs de la relacin directa con otros campos o a travs de un proceso de matching.

Enriquecimiento

Consiste en aadir datos que no existan originalmente en la fuente de origen. Generalmente, este proceso
se realiza a travs de la incorporacin en la fuente de datos de algunos de referencia o usando para ello dic-
cionarios. Tcnicamente, es muy similar al proceso de correccin slo que, en lugar de un dato incorrecto,
lo que se reemplaza es un dato vaco.

Sguenos en:
Especialistas en Gestin de Datos 29

Matching Por ejemplo, para 1.000.000 de registros el nmero de


combinaciones de dos a dos es de: 499.999.500.000.
Consiste en buscar registros que tengan una coin- Por ello, a menos que se trate de un volumen pequeo
cidencia, dependiendo de una serie de atributos los de registros (menos de 10.000), es conveniente pre-
cuales servirn para identificar los duplicados. Como agrupar los registros. La pre-agrupacin consiste en
norma general, antes de realizar una de-duplicacin se el uso de una clave de agrupacin (Group Key) que
deben crear grupos de coincidencia, es decir, datos co- obligar a que los registros se comparen nicamente
munes al grupo al 100%, ya que con esto se consigue con los que pertenecen al mismo grupo.
reducir el nmero de registros por grupo.
La pre-agrupacin tiene un inconveniente: dos regis-
Los usos ms comunes en la bsqueda de duplicados tros con group keys distintos nunca se compararn
son: entre s. Si se est, por ejemplo, usando el primer ape-
Deteccin de duplicados. llido como group key no se comparar un Fernn-
dez con un Fernndes, y puede que el resto de los
Relacin entre dos fuentes de datos que no tienen datos sean idnticos.
campos de unin entre s.
Para reducir este inconveniente se emplean dos tc-
Deteccin de unidades familiares y corporativas nicas:
(Householding).
U
 so de claves fonticas. Existen algoritmos que con-
Existen dos mtodos de matching: vierten una cadena de texto en un cdigo fontico.
Determinstico. Los ms conocidos son el SOUNDEX y el NYSIIS. El
SOUNDEX, por ejemplo, tiene en cuenta la pronun-
Probabilstico. ciacin de las consonantes segn la forma de la boca
al pronunciarlas (bilabiales, africadas, oclusivas, etc.),
generando un valor numrico por cada consonante
Pre-Agrupacin no consecutiva. El resultado es que Fernandez,
El pre-grouping o preagrupacin es un paso previo Frenandez, Ferandez o Fernandes tendrn el
al matching, no obligatorio, pero muy conveniente. En mismo cdigo fontico, y si ste se usa como Group
el matching los registros se comparan por parejas, Key, los registros sern comparados.
es decir, si tenemos una tabla con 4 registros, no se U
 so de varios Group Keys. El campo usado para la
compararn todos al mismo tiempo sino en grupos de agrupacin puede estar vaco o ser errneo, o no ser
dos en dos: el primero con el segundo, el primero con determinante (por ejemplo, podemos agrupar por
el tercero, el primero con el cuarto, el segundo con el provincia pero tambin queremos encontrar duplica-
tercero, as sucesivamente, en volmenes grandes el dos aunque tengan direcciones distintas pero coinci-
nmero de combinaciones puede ser muy elevado. dan otros campos). Pueden usarse campos alternati-
vos para solventar estas situaciones.

Sguenos en:
Especialistas en Gestin de Datos 30

Determinstico El resultado final no ser positivo-negativo, sino que


ser un valor porcentual con el nivel de semejanza.
Se comparan los diferentes atributos asociados a la Pueden ajustarse a uno o varios umbrales a los que se
entidad a comparar. El resultado de la comparacin consideren relacionados un par de registros si tienen
puede terminar con uno de los siguientes resultados: un rango porcentual determinado. Por ejemplo, entre
positivo o negativo. 90% y 100% puede considerarse un match positivo,
Generalmente se trata de comparaciones por igual- entre 82% y 90% un match probable, y entre 75% y
dad, aunque se pueden realizar transformaciones, 82% un match dudoso.
normalizaciones, codificaciones y limpiezas para una De forma previa a la comparacin puede realizarse un
comparacin ms adaptada al mundo real. Este m- muestreo de todos los valores de uno o varios atribu-
todo, sin embargo, es muy sensible a posibles errores tos, de modo que los valores ms comunes adquieran
tipogrficos no contemplados en la estandarizacin. un peso inferior en la comparacin final y los menos
Por ejemplo: a la hora de comparar Teresa con The- comunes un peso mayor. Por ejemplo, a la hora de
resa dar como resultado un match negativo en el comparar personas, puede tener ms peso la coinci-
nombre. dencia del apellido LUCENA que SNCHEZ por ser
ms infrecuente. Incluso agrupado por otro atributo:
por ejemplo: el nombre JORDI es comn en Cata-
lua, pero no lo es en Andaluca. Los muestreos ms
complejos pueden ser realizados con una solucin de
Datamining y usarse como fuente del proceso de mat-
ching probabilstico.

Probabilstico
Se comparan los diferentes atributos asociados a la en-
tidad a comparar con algoritmos especficos. Estos al-
goritmos no realizan comparaciones de igualdad, sino
que devuelven un porcentaje de similitud (Fuzzy-Logic)
entre los dos atributos comparados. Los algoritmos de
comparacin debern ser adecuados para el tipo de
datos, puesto que no es lo mismo comparar una ca- Consolidacin
dena de texto libre (como un nombre, razn social o
Cuando se ha usado el matching para la deteccin de
descripcin de producto) que un cdigo (por ejemplo,
duplicados, con frecuencia se desea fusionar estos re-
telfono, CIF, cdigo postal o nmero de referencia).
gistros. A esto se le denomina consolidacin. Los dupli-
Al igual que con el matching determinstico, es conve- cados detectados durante la fase de matching pueden
niente realizar transformaciones, normalizaciones, co- tratarse de muy diversas maneras.
dificaciones y limpiezas previas para una comparacin
Por ejemplo, para los clientes de un banco o de una
ms adaptada al mundo real.
empresa aseguradora simplemente se crean cdigos
Finalmente, se toman todos los porcentajes obtenidos de relacin entre los diferentes duplicados y se man-
de las diferentes comparaciones y se realiza una media tienen los datos originales asociados a cada cuenta o
ponderada. Ciertos atributos pueden tener un mayor cada pliza. Existir un cdigo de cliente y debajo de
peso que otros, por ejemplo, al comparar empresas este cdigo de cliente, distintas versiones del cliente
tendr ms peso la razn social que el telfono. por cada instancia duplicada.

Sguenos en:
Especialistas en Gestin de Datos 31

Sin embargo, en muchos otros casos como entornos asociadas a la entidad. Y adems existe la dificultad de
de marketing, CPG o DWH, es deseable que los dife- elegir qu registros deben ser los borrados y qu datos
rentes registros duplicados desaparezcan fsicamente deben permanecer sobre esa entidad.
de la tabla. Por ejemplo, si un cliente est triplicado, se
Para este ltimo aspecto, existen dos tcnicas de con-
desea suprimir los dos registros redundantes y alma-
solidacin:
cenar un nico registro. Puede ser una problemtica
compleja, pues requiere re-asignar todas las transac- Registro superviviente (survivorship).
ciones (facturas, albaranes, pedidos y reclamaciones) Mejor registro (Best Record).

Registro Superviviente, consiste en la seleccin de Por ejemplo, para la clave primaria: puede seleccionar-
uno de los registros del conjunto de registros duplica- se la clave primaria que tenga asociadas ms registros
dos. El criterio de seleccin depende de la naturaleza en sus tablas referenciadas. Si tenemos un cliente du-
del dato. Con frecuencia se usa el registro ms reciente plicado, y uno de los registros de cliente tiene asociada
o el ms completo. 20 facturas y el otro una sola, es ms lgico utilizar
el cdigo de cliente del que tiene asociada las 20 fac-
Mejor Registro, consiste en la combinacin de dife-
turas, pues se requerir menos actualizaciones en el
rentes datos de cada conjunto de registros duplica-
sistema de facturacin. Pueden existir datos acumula-
dos, para componer el registro ms completo y mayor
bles. Por ejemplo, en el caso del telfono: una persona
calidad posible. Se establece un criterio de seleccin
o empresa puede tener varios telfonos, y puede que
para cada dato dependiendo de su naturaleza. Gene-
nos interese almacenar todos los telfonos diferentes
ralmente es el nivel de calidad el que decide el dato
de cada conjunto de duplicados en lugar de seleccio-
ms adecuado, aunque pueden usarse otros criterios
nar nicamente uno.
alternativos.

Sguenos en:
Especialistas en Gestin de Datos 32

ScoreCards/Reporting
Es una representacin grfica de los valores vlidos, para las columnas que han sufrido un perfilado de datos. El
scorecarding muestra de forma tangible la mejora de la calidad de uno o varios ciclos de vida del proceso de calidad,
ayudando a redisearlos. Los Scorecards se realiza al principio del ciclo de vida del proceso de calidad de datos y
tambin al final del mismo, para comprobar la evolucin del proceso. Su desarrollo se resume en tres pasos:
Reporting: informes simples de conteo de registros por los Indicadores de Calidad de Datos con capacidad de
drill-down (exploracin al detalle).
Scorecarding: cuadros de mando con resumen de resultados de todos los indicadores de Calidad de Datos. Iconos
de tendencia o cdigos semafricos segn cumplimiento con unos objetivos fijados. Valores de ejecuciones previas.
Evolucin histrica: nivel de un indicador de Calidad de Datos a lo largo del tiempo para su monitorizacin.
Para reforzar los controles de calidad se requieren mecanismos de reporte, siendo imprescindible tambin la traza-
bilidad para buscar y resolver incidentes. De esta forma registraremos la evaluacin, podremos hacer un diagnstico
inicial y monitorizar las siguientes acciones/eventos asociados para poder catalogar esas incidencias, jerarquizarlas
y asociar procedimientos/mejores prcticas.

Tcnicas de Medicin y Monitorizacin

Granularidad Tiempo Real Batch


Elementos: consistencia estructural, - Editar checks en las aplicaciones. - Queries directas.
completitud y coherencia. - Servicios de validacin. - Herramienta de perfilado.
- Aplicacin especfica.

Registros: completitud, consistencia - Editar checks en las aplicaciones. - Queries directas.


semntica y coherencia. - Servicios de validacin. - Herramienta de perfilado.
- Aplicacin especfica.

Data Set: medidas como el nmero - Inspeccin en diversos puntos del - Queries directas.
de registros mximo o mnimo, su- proceso. - Herramienta de perfilado.
mas o significado.

Sguenos en:
Especialistas en Gestin de Datos 33

Gestin de incidencias/excepciones y niveles. Mnimos de servicio.


Al establecer mecanismos de supervisin identificaremos los problemas para reaccionar antes de que se degrade
la calidad de los datos. Tambin s necesario llevar a cabo un seguimiento de la evolucin de los datos a lo largo del
tiempo para la deteccin de su posible deterioro. En ltima instancia, se pueden identificar las tendencias relaciona-
das con la calidad de los datos que avisan de posibles transgresiones de las reglas de calidad establecidas.
El primer paso es definir niveles de cumplimiento con las expectativas de rendimiento operativo y de calidad de los
datos. Tambin hay que especificar los roles y las responsabilidades asociadas. Anticiparse, aislar y descubrir la raz
de los errores en los flujos informacionales requiere conocer el esquema arquitectnico y la entrada de los datos.

De esta forma podemos establecer alertas y controles que incluyan:


Elementos cubiertos por los SLAs acordados.
Impactos en el negocio mapeado por los flujos.
Dimensiones de CD asociados a cada elemento.
Dimensiones de CD en cada aplicacin.
Parmetros de medicin.
Umbral de aceptabilidad.
Personas a notificar en caso de que se traspase ese umbral y plazos de respuesta.
Estructura de escalado.

Al finalizar el proceso, es necesaria la creacin de reportes de conformidad de la calidad de los datos con las reglas
de negocio y con los requerimientos operacionales. Sin embargo, cuando las incidencias de calidad no se resuelven
los mrgenes de tiempo establecidos debe existir un proceso de escalado para comunicar la no-observancia de los
niveles de calidad establecidos.

Sguenos en:
Especialistas en Gestin de Datos 34

9. T
 ipo de Proyectos a los que se aplica Calidad
de Datos
Los requerimientos de Calidad de Datos han de ser observados en cada momento, aunque
es el nivel de madurez de la visin corporativa de la Calidad de Datos el elemento impres-
cindible para completar los proyectos con xito.

Calidad de Datos para Marketing orientado a cam- M


 DM (Master Data Management): la visin y apoyo
paas: requiere un nivel de madurez menor pues es corporativos son necesarios y requieren de todas las
un proyecto departamental. Se centra en la eficiencia funcionalidades de Calidad de Datos y Metadatos.
del contacto y en la deteccin de relaciones (general-
S
 oluciones verticales, para el cumplimiento de re-
mente para deteccin de duplicados).
gulaciones, como Basilea II, Solvencia II o SOX. Re-

Proyectos de Integracin: migraciones, CRM, Da- quieren una madurez corporativa elevada y la ga-
tawarehouse, BigData generalmente dirigidas por ranta de cumplimiento de todos los requisitos, con
el departamento de TI, se extiende a todos los reque- menor enfoque a la eficiencia del contacto.
rimientos dependiendo del contenido de los datos.
D
 ata Governance: requiere el mximo apoyo de la di-
Visin nica del cliente: orientado a la eficiencia del reccin y unidades funcionales para garantizar todas
contacto e identificacin de relaciones completa que las funcionalidades de Calidad de Datos.
puede incluir: supresin de duplicados, relacin en-
tre varias fuentes o householding, entre otros.
CDI (Customer Data Integration): similar a la visin
nica del cliente aunque se extiende a otros datos no
personales de entidades relacionadas con el cliente.

Sguenos en:
Especialistas en Gestin de Datos 35

10. Ejemplo retorno inversin


A continuacin, se muestran varios ejemplos con los conceptos e importes correspon-
dientes ms significativos en los que el departamento de Marketing/Ventas de un cliente
puede ahorrar implementando una solucin de Calidad de Datos.

ROI Campaas - Mailing

Esta tabla muestra los costes que pueden ser ahorrados con una solucin de Calidad de Datos en las
campaas de captacin de clientes:

Ejemplo ROI Marketing para Campaa Mailing Captacin Clientes

Concepto Sin una solucin de Con una solucin


Calidad de Datos de Calidad de Datos

Coste por cliente incluyendo gastos postales 2,00 Euros 2,00 Euros

ROI de la campaa medio por cliente 3,00 Euros 3,00 Euros

Total impactos 200,000 200,000

Total coste de la campaa de Marketing 400.000 Euros 400,000 Euros

% estimado de registros duplicados 15% 0%

Total potenciales duplicados 30.000 0

Coste de la campaa asociado con clientes potenciales duplicados 60.000 Euros 0 Euros

* Coste de oportunidad asociado a los clientes duplicados 30.000 Euros 0 Euros

Total costes asociados con registros duplicados 90.000 Euros 0 Euros

% estimado de direcciones postales incorrectas 21% 0%

Nmero total de direcciones incorrectas 42.000 0

Costes de campaa asociados a direcciones postales incorrectas 84.000 Euros 0 Euros

* Coste de oportunidad asociado a las direcciones postales incorrectas 42.000 Euros 0 Euros

Total costes asociados a direcciones postales incorrectas 160.000 Euros 0 Euros

Sguenos en:
Especialistas en Gestin de Datos 36

Ejemplo ROI Marketing para Campaa Mailing Captacin Clientes

Concepto Sin una solucin de Con una solucin


Calidad de Datos de Calidad de Datos

% de clientes potenciales que ya son clientes 12% 11%

Nmero total de clientes potenciales que ya son clientes 24.000 0

Costes de campaa asociados a clientes ya existentes 48.000

Costes de oportunidad asociados a clientes ya existentes 24.000

Total costes asociados a clientes potenciales que ya son clientes 72.000 Euros 0 Euros

Total coste de la campaa asociado con la mala Calidad de los datos 322.000 Euros 0 Euros

Nmero de campaas anuales 4 4

Total coste anual 1.288.000 Euros 0

Ahorro potencial por campaa Marketing asociado a la imple- 1.288,000 Euros


mentacin de una solucin de Calidad de Datos

* El coste de oportunidad representa la oportunidad perdida de enviar el impacto a un cliente potencial adicional debido a la duplicidad
de un registro, o de un impacto perdido por una direccin postal incorrecta o a un cliente actual y no potencial.

Sguenos en:
Especialistas en Gestin de Datos 37

ROI en Call Center

La mala Calidad de los datos requiere correcciones y verificaciones que suponen un importante gasto
para cada agente del Call Center.

Ejemplo ROI Call Center

Concepto Sin una solucin de Con una solucin


Calidad de Datos de Calidad de Datos

Coste por segundo por agente en un Call Center 0,05 Euros 0,05 Euros

Media de segundos por llamada para completar un registro del cliente 4 0

Coste por llamada para completar un registro del cliente (coste por 0,10 Euro -
segundo x segundos por llamada)
Llamadas por hora por agente 15 15

Coste por hora por agente por completar registros del cliente (coste 3 Euros .
por llamada x llamadas por hora)
Coste por ao por agente por completar registros del cliente (coste por 6.240 Euros .
hora por agente x 40 horas por semana x 52 semanas)
Agentes en el call Center 50 50

Total costes asociados por registros incompletos 312.000

Ahorro potencial en el Call Center asociado a la implementacin 312.000 Euros


de una solucin de Calidad de Datos

Sguenos en:
Especialistas en Gestin de Datos 38

11. Gartner: Calidad de Datos


Ted Friedman, de Gartner, hace la siguiente valoracin sobre la calidad de los datos y su
evolucin:

Prediccin: las organizaciones incrementarn las iniciativas de mejora de la calidad de


datos, llevados por la presin de las normativas, por el deseo de la mejora de la eficiencia
y agilidad y movidos por una insatisfaccin general del estado de sus datos corporativos.

Claves: las organizaciones donde la gerencia de alto nivel comprende el impacto de la


calidad de datos estn mejor posicionados para completar con xito programas de me-
jora de calidad de los datos.

Implicaciones de mercado: los datos de alta calidad (y los conocimientos, organizacin,


procesos y tecnologa para lograrlos) constituirn un diferencial competitivo relevante
entre negocios. Las organizaciones que olviden o ignoren sus problemas de calidad de
datos van a ser superadas por la competencia.

Recomendaciones: las organizaciones deben ver la calidad de datos como un problema


estratgico de su negocio y alinear sus recursos a travs de la mejora de calidad de
datos. Las actividades clave incluyen el desarrollo de programas de administracin de
datos, anlisis y medicin de la calidad de datos, mejora de procesos de negocio y la im-
plementacin de tecnologa para soportar los controles de calidad de datos.

12. Herramientas de Calidad de Datos


Algunas de las herramientas de calidad de datos
que pueden encontrarse en el mercado son:

Informatica Data Quality


Oracle Data Quality
IBM DataStage & QualityStage
SAS Dataflux

Sguenos en:
Especialistas en Gestin de Datos 39

13. Conclusin/Recomendaciones
Detectados los problemas de Calidad de Datos, sus orgenes y modos de replicarse, pue-
den ponerse en prctica los siguientes planes de accin, cuyas recomendaciones se basan
en la experiencia adquirida:

Plan a Corto Plazo Plan a Medio Plazo

C
 umplimiento de normativas. Localizacin de C
 orreccin, estandarizacin y enriquecimiento
inconsistencias en los datos relacionados con del resto de los datos.
la LOPD. En caso de inconsistencia e inexisten- C
 onsolidacin de clientes duplicados, seleccio-
cia de la fecha de actualizacin, tomar siem- nando los mejores campos de cada repeticin
pre el campo ms restrictivo. para generar una vista nica del cliente sin
A
 limentacin de campos como NIF en aque- perder informacin.
llos clientes donde sea invlido o inexistente, E
 stablecimiento de un sistema de monitoriza-
cruzando la tabla de clientes con otras fuentes cin continua de la Calidad de Datos.
que nos puedan facilitar este dato (por ejem-
plo: facturas o bases de datos de empresas). M
 ejora de las interfaces de entrada para evi-
Las tecnologas de Oracle data Quality, IBM tar en la medida de lo posible la entrada de
Datastage, Informatica Data Qualty o Dataflux datos errneos, formatos inadecuados o NIF
de SAS permiten relacionar fuentes externas repetidos.
sin que haya campos de unin, basndose en R
 elacin de la base de datos de clientes poten-
otros datos como el nombre de la empresa, ciales con la base de datos de clientes, registro
direccin o telfonos. de impagos ASNEF/XFAX y lista Robinson de
M
 ejora de los campos de contacto y segmen- la FECEMD.
tacin del cliente.
I dentificacin de clientes duplicados. Creacin Plan a Largo Plazo
de un flag en los clientes que permita seleccio-
A
 mpliacin a otras reas de la compaa: Fi-
nar una nica repeticin del cliente (un mas-
nanzas, RR.HH., Produccin, Control y Planifi-
ter record).
cacin Estratgica, entre otras.
D
 esignacin de un responsable de Calidad de
M
 onitorizacin continua del negocio. Creacin
Datos dentro de la compaa. Sera idneo
de un sistema de alertas automatizado.
designar un Data Steward, con una doble
visin tcnica y funcional, que defina junto a
los responsables de cada departamento las
reglas de Calidad de Datos a aplicar, fije obje-
tivos, plazos e indicadores.

Sguenos en:
Especialistas en Gestin de Datos 40

14. Bibliografa
Informatica Methodology Velocity - Best Practices Olson, J. (2002). Data Profiling: The Data Quality Analysts
Best Tool. DM Direct, December. DMReview.com.
wikipedia.org
50 Libre Empresa Vol . 6 No. 1, En ero - Jun io de 2009
Traduccin de un artculo de Dan Tynan, publicado en
InfoWorld Pipino, Leo; Lee, Yang & Wang, Richard (2002). Data
Quality Assessment. http://web.mit.edu/tdqm/www/
Norma Cubana ISO 9000:2000: Sistemas de gestin de la
tdqmpub/PipinoLeeWangCACMApr02.pdf.
calidad. Fundamentos y vocabulario.
Ponjun, Gloria. (2006). Gestin de Informacin en las
Jobany Jos Heredia Rico & Jos Alberto Vilalta Alonso.
Organizaciones. Editorial Flix Varela.
Libre Empresa (2009). La calidad de los datos: Su
importancia para la gestin empresarial Rahm, E. & Hong, H. (2000). Data cleaning: Problems
and current Approache. IEEE Techn. Bulletin on Data
Abate, Marcey L & Diegert, Kathleen V. (1998). A
Engineering.
Hierarchical Approach to Improving Data Quality.
http:// www.dataquality.com. Redman, Thomas C. (2001). Sistemas de calidad de datos
de segunda generacin. Manual de Calidad de Juran.
Caro, A., Calero C. & Caballero, I. (2006). A first Approach
McGraw Hill.
to a data Quality Model for Web Portals. International
Conference on Computational Sciences and its Applications Redman, Thomas C. (2004). Data an unfolding quality
(ICCSA). disaster. http://www.dmreview.com/portals/dataquality.
Cong, G., Fan, W., Geerts, F., Jia, X. & Ma, S. (2007). Strong, D.M., Lee, Y.W. & Wang R.Y. (1997). 10 Potholes in
Improving data quality: consistency and accuracy. the Road to Information Quality. IEEE Computer, Vol. 30,
Proceedings of the 33 International Conference on Very No. 8, pp. 38 46.
Large Data Base.
Strong, Diane & Lee, Yang. (2003). Process knowledge and
Gendron, M. & DOnofrio, M. (2001). Data Quality in the data quality outcomes. http://web.mit.edu/tdqm/www/
Healthcare Industry. Data Quality, Vol. 7, No. 1. tdqmpub/LeeStrong.pdf.
Gil Aluja, J. (2000). Las decisiones y la incertidumbre. Tayi, G. & Ballou, D. (1998). Examining Data Quality.
Barcelona. Communications of the ACM. Vol. 41, No. 2.
Heredia, J & Vilalta, J. (2008). Procedimiento para el Vilalta, J. (2008). Procedimiento para el Diagnstico de la
Diagnstico de la Calidad de los Datos. Sexto Taller de Calidad de los Datos. Una nueva versin. 14 Conferencia de
Calidad. Universidad de la Habana. Ingeniera y Arquitectura., Cujae, La Habana, Cuba.
Javed, B. & Hussain, S. (2003). Data quality A problem Norma Cubana ISO 9000:2000: Sistemas de gestin de la
and an approach. Wipro Technologies. calidad. Fundamentos y vocabulario.
Klein, Barbara. (1998). Data Quality in the Practice of Good Clinical Data Management Practices Committee.
Consumer Product Management. http://dataquality.com. (2002). Good Clinical Data Management Practices Guide.
Levy, S. (2004). Model Documents and forms for Organizing Data Management.
and Maintaining a Data Quality Program. http:// www.dataflux.com/datamanagement.
www .dataqualitymodeldocument.com
The MIT Total Data Quality Management Program.
Lpez, Beatriz & Prez, Ramiro. (2002) Tiene usted datos http://web.mit.edu/tdqm.
sucios? Revista: GIGA. La Habana, Cuba.
Kimball, R., Caserta, J. The Data Warehouse ETL Toolkit,
Loshin, David. (2001). Integration and the Data Quality Wiley and Sons, 2004. ISBN 0-7645-6757-8.
Imperative: The Data Quality Monitor.
Muller H., Freytag J., Problems, Methods, and Challenges in
http://www.datajunction.com.
Comprehensive Data Cleansing, Humboldt-Universitat zu
Maynard, J. (1982). Dictionary of Data Processing. Londres, Berlin, Germany.
Inglaterra.
Rahm, E., Hong, H. Data Cleaning: Problems and Current
Naveh, E. & Halevy, A. (2000). A hierarchical framework for Approaches, University of Leipzig, Germany
a quality information system. Total Quality Management,
Vol. 11, No. 1, p 87-111.

Sguenos en:
Especialistas en Gestin de Datos

ESPAA
MADRID BARCELONA VALENCIA
C/ Miguel Yuste, 17, 4, C C/ Pau Claris, 95 Edificio Europa - 5 I Avda. Aragn, 30
28037 Madrid 08009 Barcelona 46021 Valencia
Tel:(+34) 91 129 72 97 Tel: (+34) 934 45 60 01 Tel: (+34) 960916025
marketing@powerdata.es marketing@powerdata.es marketing@powerdata.es
www.powerdata.es www.powerdata.es www.powerdata.es

LATINOAMRICA
ARGENTINA CHILE
Avenida Leandro N Alem 530, Piso 4 Av. Presidente Errzuriz N 2999 - Oficina 202
CD C100 1AAN Ciudad Autnoma de Buenos Aires Las Condes, Santiago CP 7550357
Tel: (+54) 11 4314 1370 Tel: (+56) 2 29363-100
marketing@powerdataam.com marketing@powerdataam.com
www.powerdataam.com www.powerdataam.com

COLOMBIA MXICO
Calle 100 No. 8A-55 Torre C. Of. 718 Homero 906, Colonia Polanco, Miguel Hidalgo
Bogot C.P. 11550, Mxico, D.F.
Tel: (+57 1) 6167796 Tel: +52 (55) 6552-7039
marketing@powerdataam.com marketing@powerdataam.com
www.powerdataam.com www.powerdataam.com

PER
Calle Los Zorzales N 160, piso 9
San Isidro, Lima 27
Tel: (+51) 1 6344900
marketing@powerdataam.com
www.powerdataam.com

Sguenos en:

You might also like