You are on page 1of 16

Conceptos de almacenes de datos (Data Warehousing) Conceptos de almacenes de datos (Data Warehousing)

Un almacn de datos es una tecnologa de gestin y anlisis de los datos. Puede definirse como una coleccin de datos clasificados por temas, integrada, variable en el tiempo y no voltil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen una organizacin. Los almacenes Web de datos son almacenes de datos distribuidos que se implementan sobre la Web, no existiendo ningn repositorio centralizado.

Ventajas:
Alto retorno de inversin Ventajas competitivas derivadas de su utilizacin Mayor productividad de los responsables de la toma de decisiones

Comparacin entre OLTP y almacenes de datos:


Proceso de Transacciones en Lnea (OLTP) Almacena datos actuales. Almacena datos detallados. Los datos son dinmicos. Procesamiento repetitivo. Alta tasa de transacciones. Patrn de uso predecible. Dirigido por transacciones. Orientado a la aplicacin. Soporta las decisiones cotidianas. Sirve a un gran nmero de usuarios administrativos / operacionales. Almacenes de datos Almacena datos histricos. Almacena datos resumidos en poca gran medida. Los datos son principalmente estticos. Procesamiento ad hoc, no estructurado y heurstico. Tasa media baja de transacciones. Patrn de uso impredecible. Dirigido por anlisis. Orientado a los temas. Soporta las decisiones estratgicas. Sirve a un nmero relativamente bajo de usuarios de tipo gerencial.

Problemas de los almacenes de datos


Subestimacin de los recursos necesarios para la carga de datos. Problemas ocultos de los sistemas de origen. No se capturan los datos requeridos. Incremento de la demanda por parte de los usuarios finales. Homogeneizacin de los datos. Alta demanda de recursos. Propiedad de los datos. Altos costes de mantenimiento. Proyectos de larga duracin. Complejidad de la integracin.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


Arquitectura de un almacn de datos

Las principales componentes de un almacn de datos son: 1. Fuentes de Datos operacionales: todos los datos operacionales previamente almacenados en BDs, archivos propietarios, estaciones primarias de trabajo e incluso en sistemas externos como Internet, bases de datos comerciales bases de datos dependientes de los proveedores clientes de la organizacin. 2. Repositorio de datos operacionales (Operacional Data Store - ODS): es un almacn de datos operacionales actuales e integrados que se utilizan para el anlisis. 3. Gestor de carga ( componente de interfaz): realiza todas las operaciones asociadas con la extraccin y carga de los datos en el almacn. Se incluyen transformaciones simples. 4. Gestor del almacn de datos: realiza las operaciones asociadas con la gestin de datos dentro del almacn. Incluye el anlisis de los datos para garantizar su coherencia, transformacin y combinacin de datos de origen, creacin de ndices y vistas, generalizacin de agregaciones y desnormalizaciones, y el archivado y copia de seguridad de los datos. 5. Gestor de consultas ( componente de servicio): realiza todas las operaciones asociadas con la gestin de las consultas de los usuarios: dirigir consultas hacia tablas apropiadas y planificar su ejecucin. 6. Datos detallados: rea del almacn que guarda todos los datos detallados contenidos en el esquema de la BD. 7. Datos poco resumidos y muy resumidos: guarda todos los datos, poco muy resumidos (agregados), que hayan sido establecidos por el gestor de datos como resmenes predefinidos. 8. Datos de archivo / copia de seguridad: guarda los datos detallado y resumidos con el propsito de mantener un archivo y disponer de copias de seguridad. 9. Metadatos: guarda todas las definiciones de metadatos (datos acerca de los datos) utilizadas por todos los procesos del almacn. Se utilizan para propsitos tales como:

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


los procesos de extraccin y carga: los metadatos mapean las fuentes de datos sobre una vista comn de los datos utilizada dentro del almacn - el proceso de gestin del almacn: los metadatos se utilizan para automatizar la produccin de tablas de resmenes - como parte del proceso de gestin de consultas: los metadatos se usan para dirigir una consulta a la fuente de datos ms apropiada. 10. Herramientas de acceso para usuarios finales: - Consulta y generacin de informes: Incluyen generacin de informes de produccin de carcter operacional, peridicos con altos volmenes de tareas- y escritores de informes diseados para usuarios finales, de bajo costo-. Las herramientas de consulta para almacenes de datos relacionales estn diseadas para aceptar SQL generar instrucciones SQL con el fin de consultar los datos del almacn. - Desarrollo de aplicaciones: Puede requerirse por algunos usuarios. - Sistemas de informacin ejecutiva (EIS): Inicialmente para ayuda a la toma de decisiones estratgicas de alto nivel. Se han ampliado para incluir soporte para todos los niveles de gestin. - Procesamiento analtico en lnea (OLAP): Basadas en el concepto de BDs multidimensionales. Permiten analizar los datos mediante vistas complejas de carcter multidimensional. Genera modelos retrospectivos. - Minera de Datos: Proceso de descubrimiento de nuevas correlaciones, patrones y tendencias significativas procesando grandes cantidades de datos mediante tcnicas estadsticas, matemticas y de inteligencia artificial. Posee la capacidad de construir modelos predictivos. -

Flujos de datos en un almacn

Los almacenes de datos se centran en la gestin de cinco flujos principales de datos:


Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


1. Flujo de entrada: Constituido por lo procesos asociados con la extraccin, limpieza y carga de los datos de los sistemas de origen en el almacn de datos. 2. Flujo ascendente: Constituido por los procesos asociados con la adicin de valor a los datos del almacn, mediante los procesos de resumen, empaquetado y distribucin de los datos. 3. Flujo descendente: Son los procesos asociados con el archivado y la realizacin de copias de seguridad de los datos en el almacn. 4. Flujo de salida: Procesos asociados con la puesta de los datos a disponibilidad de los usuarios finales. 5. Metaflujo: Procesos asociados con la gestin de los datos sobre los datos: metadatos.

Herramientas y tecnologas de almacn de datos


1. Herramientas de extraccin, limpieza y transformacin - Generadores de cdigo: Crean programas de transformacin 3GL / 4GL personalizados, basado en las especificaciones de datos de origen y de destino. - Replicacin de datos: emplean disparadores (triggers) en BDs usan el registro de actividad para capturar cambios efectuados en un origen de datos y aplicarlos sobre una copia ubicada en otro sistema diferente. - Motores de transformacin dinmica: dirigidos por reglas, capturan datos de un sistema de origen a intervalos definidos por el usuario, los transforman y envan para su carga en un entorno destino. 2. Sistemas de Gestin de Bases de Datos para almacenes de datos Los requisitos para un Sistema de Gestin de Bases de Datos Relacional (SGBDR) para almacenes de datos incluyen: - velocidad de carga buena, a partir del requerimiento de carga incremental de nuevos datos de manera peridica, con ventanas temporales cortas. - el procesamiento de la carga, lo que incluye pasos para incluir datos nuevos, actualizar, convertir, filtrar, indexar y actualizar metadatos. - la gestin de la calidad de los datos, ya que deben garantizarse: coherencia local, coherencia global e integridad referencial a pesar de los posibles problemas en los orgenes de datos. - la velocidad de las consultas no debe disminuir. Las tcnicas de gestin basadas en hechos y en anlisis ad hoc no deben ser ralentizadas inhibidas por las prestaciones del SGBR del almacn de datos. - escalabilidad en el rango de almacenamiento: el SGBDR no debe tener limitaciones de arquitectura en lo que respecta ala tamao de la BD, y debe soportar gestin modular y paralela. En caso de fallo, debe soportar una disponibilidad continua y proporcionar mecanismos para la recuperacin. Debe permitir usar dispositivos de almacenamiento masivo: discos pticos, y dispositivos de gestin jerrquica de almacenamiento. La velocidad de las consultas no debe depender del tamao de la BD, sino solamente de su complejidad. - escalabilidad en cuanto a nmero de usuarios: los SGBDR deben ser capaces de soportar miles de usuarios concurrentes sin que por ello sufran una degradacin en la velocidad de procesamiento de las consultas. - Almacn de datos en red: capacidad para coopera en una red de almacenes de datos. Debe incluir herramientas que coordinen las transferencias de subconjuntos de datos entre diversos almacenes. - Administracin del almacn: demandan alta flexibilidad y gran facilidad de administracin. El SGBD debe proporcionar controles para implementar lmites de utilizacin de los recursos, contabilidad de costos, mecanismos de asignacin de prioridad a las consultas, para optimizacin y control de la carga de trabajo, etc.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


Anlisis dimensional integrado: para proporcionar las mximas prestaciones a las herramientas OLAP relacionales. Soporte para creacin rpida y simple de los tipos de resmenes precalculados y para automatizar la creacin de agregados precalculados. Los clculos dinmicos de agregados deben ser coherentes con las prestaciones de procesamiento interactivo que esperan los usuarios finales. - Funcionalidad avanzada de consultas: Debe proporcionarse un conjunto completo y avanzado de operaciones que permitan clculos analticos complejos, anlisis secuenciales y comparativos y acceso coherente a datos detallados y de resumen. 3. Metadatos de un almacn de datos Su objetivo principal es mostrar cual es el camino que lleva hacia el origen de los datos, de modo que los administradores del almacn de datos conozcan la historia de cualquier elemento almacenado. Su gestin es una tarea compleja y difcil. Se usan para diversos propsitos, resultando elementos crticos para conseguir una plena integracin del almacn. El principal problema de integracin consiste en sincronizar los diversos tipos de metadatos utilizados en el almacn. 4. Herramientas de administracin y gestin Deben ser capaces de soportar tareas tales como: - monitorizar la carga de datos desde mltiples fuentes; - comprobar la calidad e integridad de los datos; - gestionar y actualizar los metadatos; - monitorizar el rendimiento de la BD para garantizar tiempos de respuesta cortos a las consultas y eficiente empleo de los recursos; - auditar el uso del almacn para atribuir los costos respectivos a los distintos usuarios; - replicar, dividir y distribuir los datos; - purgar los datos; - archivar y realizar copias de seguridad; - implementar mecanismos de recuperacin ante fallos; - gestionar adecuadamente la seguridad. -

Mercados de datos (Data Marts)


Un subconjunto de un almacn de datos que soporta los requisitos de un departamento rea de negocios concreto. Las principales caractersticas que diferencian a los mercados de datos de los almacenes de datos son: - un mercado de datos se centra nicamente en los requisitos de los usuarios asociados con un departamento rea de negocio concreto; - los mercados de datos no contienen normalmente datos operacionales detallados, a diferencia de lo que sucede con los almacenes de datos; - como los mercados de datos contienen menos informacin que un almacn de datos, son ms fciles de comprender y de utilizar. Razones para crear un mercado de datos: - Proporcionar a los usuarios acceso a los datos que necesiten analizar de manera mas frecuente. - Proporcionar los datos en una forma que se adapte a la vista colectiva que tiene de los datos un grupo de usuarios pertenecientes a un departamento rea de negocios concreto. - Mejorar el tiempo de respuesta a las consultas del usuario final, gracias a la reduccin en el volumen de los datos a los que hay que acceder. - Proporcionar datos apropiadamente estructurados segn dicten los requisitos de las herramientas de accesos para usuarios finales, las cuales pueden requerir sus propias estructuras de BD internas.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


Los mercados de datos emplean normalmente menos datos, por lo que las tareas de limpieza, carga, transformacin e integracin de los datos son ms sencillas, lo que trae como resultado que la implementacin y puesta en marcha sea ms simple que establecer un almacn corporativo. El costo de implementacin de los mercados es inferior al requerido para un almacn corporativo. Los usuarios potenciales estn claramente definidos y son ms fciles de convencer para que colaboren con un proyecto de mercado de datos que para un proyecto de almacn corporativo.

Cuestiones fundamentales en los mercados de datos - Funcionalidad: Las capacidades se han incrementado. La complejidad y el tamao de algunos mercados de datos es comparables con algunos almacenes corporativos de baja gama. - Tamao: Los usuarios esperan tiempos de respuesta ms cortos. - Velocidad de carga: Deben equilibrarse dos componentes crticos: tiempo de respuesta de las consultas del usuario final y velocidad de carga de los datos. - Acceso de los usuarios a mltiples mercados de datos: Una tcnica posible es replicar datos entre diferentes mercados, otra construir mercados de datos virtuales. - Acceso Internet / intranet al mercado de datos: bajo costo, utilizando navegadores. - Administracin: Necesidad de gestionar y coordinar centralizadamente las actividades de los mercados de datos. Surgen problemas con las versiones, coherencia e integridad de los datos y metadatos, seguridad del nivel corporativo y con los ajustes del rendimiento.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


Instalacin: Cada vez son ms complejos de construir.

Diseo de almacenes de datos


Diseo de la BD para un almacn de datos
Se necesita responder a preguntas tales como: Qu requisitos de usuario son los ms importantes? Qu datos deben considerarse en primer lugar? Deber reducirse el alcance del proyecto para que sea ms manejable y al mismo tiempo proporcionar una infraestructura que pueda crecer posteriormente hasta convertirse en un almacn de datos completo de mbito corporativo?

Modelado de la dimensionalidad
Tcnica de diseo lgico que trata de presentar los datos de una manera estndar e intuitiva que permita un acceso de alto rendimiento. Utiliza los conceptos del modelado Entidad Relacin (ER), con algunas restricciones importantes. Todo modelo dimensional (dimensional model DM) est compuesto de una tabla con una clave principal compuesta, denominada tabla de hechos, y un conjunto de tablas mas pequeas denominadas tablas de dimensin. Cada tabla de dimensin tiene una clave principal simple (no compuesta) que se corresponde con exactamente uno de los componentes de la clave compuesta de la tabla de hechos. Todas las claves naturales se sustituyen por claves subrogadas de manera que toda combinacin entre la tabla de hechos y las de dimensiones estn basadas en estas claves subrogadas. - Esquema ( combinacin) en estrella: Estructura lgica que tiene una tabla de hechos que contiene datos factuales en el centro, rodeada por tablas de dimensin que contienen datos de referencia. - Esquema en copo de nieve: Variante en el que las tablas de dimensin no contienen datos desnormalizados. - Esquema en copo de estrella: Estructura hbrida que contiene mezcla de esquemas en estrella y en copo de nieve. La forma predecible y estndar del modelo dimensional ofrece ventajas para un entorno de almacn de datos: - Eficiencia: La coherencia de la estructura de BD subyacente permite un acceso ms eficiente a los datos por parte de las distintas herramientas, incluyendo las de consultas y generacin de informes. - Posibilidad de gestionar requisitos cambiantes, ya que el esquema puede adaptarse a cambios en los requisitos de los usuarios producto de que todas las dimensiones son equivalentes en trminos de proporcionar acceso a la tabla de hechos. El diseo est mejor adaptado para soportar consultas ad hoc. - Ampliabilidad para: a) permitir adicin de nuevos hechos, siempre que sean coherentes con la granularidad fundamental de la tabla de hechos existente; b) adicin de nuevas dimensiones, siempre y cuando haya un nico valor de dicha dimensin definido para cada registro de hechos existente; c) Adicin de nuevos atributos dimensionales; y d) descomposicin de los registros de dimensin existentes para tener un menor nivel de granularidad a partir de un cierto instante temporal. - Capacidad de modelar situaciones empresariales comunes. - Procesamiento de consultas predecible, ya que en el nivel mas bajo, cada tabla de hechos debe ser consultada de manera independiente.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Conceptos de almacenes de datos (Data Warehousing)


Metodologa de diseo de BDs para DW
Un aspecto importante en el trabajo con almacenes de datos es comprender que un modelo ER se descompone normalmente en mltiples modelos DM. Los diferentes DM se asocian mediante tablas de dimensin conformadas (compartidas). Comnmente se emplea la llamada Metodologa de los Nueve pasos: 1. Seleccin del proceso: Hace referencia al tema objetivo de un mercado concreto. 2. Seleccin de la granularidad: Decidir exactamente qu es lo que va a representar cada registro de la tabla de hechos. Determina tambin la granularidad de las tablas de dimensin. 3. Identificacin y conformacin de las dimensiones: Se establece el contexto para consultar los hechos. Un buen conjunto de dimensiones hace que el mercado sea comprensible y fcil de usar. 4. Seleccin de los hechos: La granularidad determina cules hechos pueden emplearse en el mercado de datos. 5. Almacenamiento de los valores precalculados en la tabla de hechos: Anlisis para evaluar posibilidad de empleo de valores precalculados. 6. Terminacin de las tablas de dimensin: Se aaden tantas descripciones textuales, intuitivas y comprensibles para los usuarios, como sea posible. El uso de un mercado de datos est determinado por el mbito y naturaleza de los atributos de las tablas de dimensin. 7. Seleccin de la duracin de la BD: Hasta que momento del pasado debe retroceder la tabla de hechos. 8. Control de dimensiones lentamente cambiantes. 9. Seleccin de las prioridades de consulta y de los modos de consulta: Considera los aspectos del diseo fsico.

Criterios para verificar la dimensionalidad de un almacn de datos


Se dividen en tres grupos amplios: 1- Arquitectura: Son caractersticas fundamentales de la forma en que el sistema completo est organizado. 2- Administracin: Son tcticos, pero esenciales para la operacin adecuada de un almacn de datos orientado dimensionalmente. 3- Expresin: Capacidades analticas necesarias en situaciones reales.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Procesamiento Analtico en Lnea (OLAP) OLAP


El Procesamiento Analtico en Lnea (OLAP) es la sntesis, anlisis y consolidacin dinmica de grandes volmenes de datos multidimensionales. Aplicaciones: - clculo de presupuestos, - anlisis de rendimiento financiero, - anlisis y previsin de ventas, - anlisis e investigacin de mercados y - segmentacin de mercados / clientes.

Caractersticas
Vistas multidimensionales de los datos: requisito fundamental para la construccin de un modelo de negocio realista. Una vista multidimensional de los datos proporciona la base para el procesamiento analtico, al permitir un acceso flexible a los datos corporativos. Debe tratar todas las dimensiones de manera equitativa. No debe influenciar los tipos de operaciones permitidas sobre una determinada dimensin ni la tasa a la que estas operaciones se realicen. Debe permitir que los usuarios analicen los datos segn cualquier dimensin y en cualquier nivel de agregacin, manteniendo una misma funcionalidad y facilidad de uso. Igualmente, debe soportar todas las vistas multidimensionales de los datos en la manera mas intuitiva posible. Los sistemas OLAP deben ocultar lo ms posible a los usuarios la sintaxis de consultas complejas y proporcionar tiempos de respuesta siempre cortos para todas las consultas, independientemente de su complejidad. - Soporte para clculos complejos: El software debe proporcionar diversos mtodos de clculo suficientemente potentes, como los requeridos para realizar previsiones de ventas, que utilizan algoritmos de clculos de tendencias: medias mviles y crecimientos porcentuales. - Inteligencia temporal: Caracterstica clave. Debe poderse definir conceptos como acumulados de ao, comparaciones entre perodos, etc. Beneficios: - mayor productividad de los usuarios finales de la organizacin, de los desarrolladores de los departamentos de tecnologas de la informacin, acceso controlado y oportuno a la informacin de carcter estratgico; - reduccin en la carga de trabajo de desarrollo de aplicaciones, pues brinda autosuficiencia para los usuarios finales que pueden desarrollar sus propios modelos y cambios de esquema; - se conserva el control sobre la integridad de los datos corporativos, ya que los sistemas OLAP dependen de los almacenes de datos y de los sistemas OLTP para refrescar sus datos de origen; - menor frecuencia de consultas y menor trfico de los sistemas OLTP en el almacn de datos; - mayores ingresos y beneficios potenciales al permitir que la organizacin responda rpidamente a las demandas del mercado.

Representacin de datos multidimensionales Cubos


Los servidores de BDs OLAP utilizan estructuras multidimensionales para almacenar los datos y relaciones entre los mismos. La mejor forma de visualizar estructuras multidimensionales es como cubos de datos. Cada lado de un cubo se denomina dimensin. El tiempo de respuesta depende de cuantas celdas se sumen en la marcha. Con el incremento del nmero de dimensiones, el nmero de celdas del cubo crece exponencialmente. Sin embargo, la mayora de las consultas tratan con datos resumidos de alto nivel, por lo que pueden previamente agregarse (consolidarse) todos los totales y subtotales lgicos segn todas las dimensiones. Esta agregacin previa puede ser especialmente valiosa ya que las dimensiones tpicas son de naturaleza
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

Procesamiento Analtico en Lnea (OLAP)


jerrquica. Imponer jerarqua predefinida para cada dimensin permite agregacin lgica previa y, a la inversa, profundizacin lgica. Operaciones analticas comunes: - Consolidacin: implica agregacin de datos, como totalizaciones simples expresiones complejas que impliquen datos relacionados. - Profundizacin: operacin inversa de la consolidacin. Implica mostrar datos de detalle comprendidos en datos consolidados. - Navegacin (pivotaje): capacidad de examinar los datos desde diferentes puntos de vista, con el fin de analizar tendencias y encontrar patrones. La pre-agregacin, las jerarquas dimensionales y la gestin de datos dispersos pueden reducir significativamente el tamao de la base de datos y las necesidades de clculo. Estas tcnicas eliminan la necesidad de efectuar combinaciones multitabla y proporcionan un acceso rpido y directo a las matrices de datos, acelerando la ejecucin de las consultas multidimensionales. Los servidores OLAP tienen la capacidad de almacenar datos multidimensionales de manera comprimida, para maximizar el empleo del espacio. Los datos densos, que existen para un alto porcentaje de celdas, pueden almacenarse independientemente de los datos dispersos, aquellos en que un porcentaje altamente significativo de celdas estn vacas. La capacidad de un SGBD para omitir celdas vacas repetitivas contribuye a reducir el tamao del cubo y la cantidad de procesamiento. Estas optimizaciones minimizan necesidades de almacenamiento fsico, permitiendo el anlisis de grandes cantidades de datos, con incremento en las prestaciones, etc.

Reglas de Codd para las herramientas OLAP:


1. Vista conceptual multidimensional 2. Transparencia 3. Accesibilidad 4. Prestaciones coherentes en la generacin de informes 5. Arquitectura cliente servidor 6. Dimensionalidad genrica 7. Gestin dinmica de matrices dispersas 8. Soporte multiusuario 9. Operaciones interdimensionales no restringidas 10. Manipulacin de datos intuitiva 11. Generacin flexible de informes 12. Dimensiones y niveles de agregacin ilimitados

Categoras de herramientas OLAP


OLAP multidimensional (MOLAP): Utilizan estructuras especializadas de datos y SGBD multidimensionales para organizar, navegar y analizar los datos.

Los problemas de desarrollo asociados con la tecnologa MOLAP son: a) Slo pueden almacenarse y analizarse de manera eficiente una cantidad limitada de datos.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

10

Procesamiento Analtico en Lnea (OLAP)


b) La navegacin y el anlisis de datos estn limitados. El soporte de nuevos requisitos puede demandar la reorganizacin fsica de los datos. c) Requieren un conjunto diferente de capacidades y herramientas para construir y mantener la BD, incrementando el costo y complejidad de las tareas de soporte. OLAP relacional (ROLAP): Soportan productos SGBDR mediante el uso de un nivel de metadatos, evitndose as crear una estructura de datos multidimensional esttica. Algunos productos ROLAP disponen de motores SQL mejorados para soportar la complejidad del anlisis multidimensional; pero otros productos recomiendan usar BDs altamente desnormalizadas como el esquema en estrella.

Los problemas de desarrollo asociados con la tecnologa ROLAP son: a) Problemas de rendimiento asociados con el procesamiento de consultas complejas que requieran efectuar mltiples pasadas a travs de los datos relacionales. b) Desarrollo de middleware para facilitar el desarrollo de aplicaciones multidimensionales: software que convierta la relacin bidimensional en una estructura multidimensional. c) Desarrollo de una opcin para crear estructuras multidimensionales persistentes, junto con las funciones para ayudar a administrarlas. OLAP hbrido (HOLAP): Proporciona capacidades limitadas de anlisis, bien mediante SGBDR por un servidor MOLAP intermedio. El servidor suministra un cubo de datos que se almacena, analiza y mantiene localmente.

Los problemas de desarrollo asociados con la tecnologa HOLAP son: a) La arquitectura provoca una significativa redundancia de los datos y puede causar problemas en las redes que soporten muchos usuarios. b) La capacidad de cada usuario para construir un cubo personalizado puede provocar una falta de coherencia entre los datos de diferentes usuarios. c) Slo puede mantenerse de manera eficiente una cantidad limitada de datos. OLAP de escritorio (Desktop OLAP - DOLAP): Almacenan los datos OLAP en archivos situados en la plataforma del cliente y soportan el procesamiento multidimensional utilizando un motor multidimensional del lado del cliente. Requiere extractos relativamente pequeos de los datos en las mquinas de los clientes, los cuales pueden distribuirse por adelantado bajo peticin.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

11

Procesamiento Analtico en Lnea (OLAP)

Los problemas de desarrollo asociados con la tecnologa DOLAP son: a) Provisin de controles de seguridad apropiados, ya que los datos se extraen fsicamente del sistema. b) Se necesita reducir el esfuerzo necesario para implementar y mantener herramientas DOLAP c) Las tendencias actuales apuntan hacia el uso de clientes simples.

Extensiones OLAP a la norma SQL


Una limitacin de SQL para los analistas empresariales es su dificultad para responder a consultas frecuentes en dicho entorno como el clculo del porcentaje de cambio de una serie de valores entre el mes actual y el correspondiente del ao anterior, calcular una serie de medias mviles, sumas acumulativas y otras funciones estadsticas. El estndar SQL: 2003 (ISO/IEC 9075-2) soporta la funcionalidad OLAP al proporcionar una serie de extensiones para: 1.- Capacidades de agrupacin ampliadas (T431) La agregacin se proporciona mediante extensiones a la clusula GROUP BY: 1.1.- Extensin ROLLUP a GROUP BY: Permite calcular mltiples niveles de subtotales segn un grupo especificado de dimensiones. SELECT GROUP BY ROLLUP (lista de columnas) 1.2.- Extensin CUBE para GROUP BY: Forma un conjunto especificado de columnas de agrupamiento y crea subtotales para todas las posibles combinaciones. SELECT GROUP BY CUBE (lista de columnas) CUBE puede utilizarse en cualquier situacin donde sea necesario informe de tablas cruzadas. Es especialmente adecuado en aquellas columnas que usen mltiples dimensiones, en lugar de columnas que representen diferentes niveles de una misma direccin. 2.- Operadores OLAP elementales (T611) Los operadores OLAP elementales del estndar SQL soportan diversas operaciones:

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

12

Procesamiento Analtico en Lnea (OLAP)


2.1.- Funciones de clasificacin ordenada: Calcula la posicin de un registro en relacin con los restantes registros del conjunto de datos, basndose en los valores de un conjunto de medidas. Hay distintos tipos de funciones de clasificacin. Ejemplos: RANK ( ) OVER (ORDER BY lista_de_Columnas) DENSE_RANK( ) OVER (ORDER BY lista_de_Columnas) La diferencia entre ambos operadores est en que DENSE_RANK no deja huecos en la secuencia de clasificacin cuando existen empates para un cierto puesto. 2.2.- Clculos de ventana mvil: Pueden utilizarse para calcular agregados acumulativos, mviles y centrados. Se devuelve un valor para cada fila de una tabla que depender de otras filas dentro de la ventana correspondiente.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

13

Minera de Datos Minera de Datos (Data Mining )


Proceso de extraer informacin vlida, previamente desconocida, comprensible y til de bases de datos de gran tamao y utilizar dicha informacin para tomar decisiones de negocios. Ejemplos de aplicaciones: - Comercio al por menor / marketing Identificacin de patrones de compra de los clientes Determinacin de asociaciones entre las caractersticas demogrficas de los clientes Prediccin de la respuesta a las campaas de publicidad Anlisis de cestas de la compra - Banca Deteccin de patrones de uso fraudulento de tarjetas de crdito Identificacin de clientes leales Prediccin de clientes que tienen probabilidad de cambiar de suministrador de servicio Determinacin de los gastos realizados por ciertos grupos de clientes - Seguros Anlisis de partes Prediccin de los clientes que suscriben nuevas plizas - Medicina Caracterizacin del comportamiento de los pacientes para predecir las visitas quirrgicas Identificacin de terapias mdicas adecuadas para diferentes enfermedades

Tcnicas de Minera de datos


Hay cuatro operaciones principales: 1. Modelado predictivo Puede utilizarse para analizar una base de datos existente con el fin de determinar ciertas caractersticas esenciales (modelo) acerca del conjunto de datos. Se utilizan observaciones para formar un modelo de las caractersticas ms importantes de algn tipo de fenmeno. Es similar al proceso de aprendizaje humano. El modelo se desarrolla utilizando una tcnica de aprendizaje supervisado que tiene dos fases: entrenamiento y prueba. La fase de entrenamiento construye un modelo utilizando una muestra de datos histricos denominada conjunto de entrenamiento. Las pruebas permiten comprobar el modelo utilizando datos nuevos, no empleados previamente para el entrenamiento. Clasificacin: Tcnica empleada para establecer una clase predeterminada especfica para cada registro de una BD. Hay dos tipos bsicos: induccin en rbol e induccin neuronal.

Prediccin de valores: Se utiliza para estimar un valor numrico continuo que est asociado con un registro de BD. 2. Segmentacin de la Base de Datos Su objetivo es realizar la particin de la BD en un nmero desconocido de segmentos clsteres de registros similares: compartiendo un conjunto de propiedades, y que, por ello, se consideran
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

14

Minera de Datos
homogneos. Los segmentos tienen una alta homogeneidad interna y alta heterogeneidad externa. Este enfoque utiliza aprendizaje NO supervisado para descubrir subconjuntos homogneos dentro de una base de datos con el fin de mejorar la precisin de los perfiles. Se asocia con las tcnicas de agrupacin neuronal demogrfica, que se distinguen por los tipos permitidos de datos de entrada, los mtodos utilizados para calcular la distancia entre los registros y la presentacin de los segmentos resultantes para su anlisis. 3. Anlisis de enlaces Trata de establecer vnculos, denominados asociaciones, entre los registros individuales entre los conjuntos de registros de una BD. Hay tres tipos: a) descubrimiento de asociaciones: trata de encontrar elementos que impliquen la presencia de otros elementos en el mismo suceso; b) descubrimiento de patrones secuenciales: trata de encontrar patrones entre sucesos tales que la presencia de un conjunto de elementos es seguida por otro conjunto de elementos en una BD de sucesos a lo largo de un perodo de tiempo; y c) descubrimiento de secuencias temporales similares: se utiliza para descubrir enlaces entre dos conjuntos de datos que sean dependientes del tiempo, y est basado en el grado de semejanza exhibido por ambas series temporales. 4. Deteccin de desviaciones Tcnica novedosa que identifica las excepciones: que expresa la desviacin con respecto a una cierta expectativa a una norma previamente conocida.

El proceso de Minera de Datos


Existe una especificacin denominada Proceso estndar intersectorial para la minera de datos (CRoss Industry Standard Process for Data Mining CRISP-DM) cuyo objetivo es hacer que los grandes proyectos de DM funcionen de manera eficiente y que sean mas baratos, fiables y con mejor factibilidad de gestin. La metodologa CRISP-DM es un modelo de proceso jerrquico. El proceso se divide en seis fases genricas: a) Comprensin del negocio: Se centra en comprender los requisitos y objetivos del proyecto desde la perspectiva del negocio. b) Comprensin de los datos: Incluye la recopilacin inicial de datos y se preocupa por establecer sus principales caractersticas. c) Preparacin de los datos: Actividades para construir el conjunto final de datos al que pueden aplicrsele las herramientas de modelado. d) Modelado: Propiamente Minera. Implica seleccionar las tcnicas de modelado, los parmetros y evaluar el modelo. e) Evaluacin: Valida el modelo desde el punto de vista del anlisis de datos. f) Implantacin: El conocimiento obtenido y reflejado en el modelo tiene que organizarse y presentarse de una manera comprensible por parte de los usuarios.

Herramientas
Las caractersticas ms importantes son: 1) Preparacin de los datos: Aspecto que demanda mayor tiempo. Puede dar soporte a operaciones de limpieza, transformacin, etc., de datos, as como para muestreo con vistas a la creacin de conjuntos para entrenamiento y validacin, etc. 2) Seleccin de las operaciones (algoritmos) de minera de datos: Su comprensin asegurar que cumplan los requisitos que demandan los usuarios. Es importante conocer como los distintos algoritmos tratan los tipos de datos de las variables de respuesta y variables predictoras (columnas de la BD que pueden usarse para construir un modelo predictor de los valores de otra columna), la rapidez con que llevan a cabo la fase de entrenamiento y la velocidad con que
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

15

Minera de Datos
operan sobre nuevos datos. Debe analizarse su sensibilidad al ruido (diferencia entre un modelo y sus predicciones), establecer sensibilidad a la falta de datos de un algoritmo dado y robustez de patrones que dicho algoritmo descubre en presencia de datos irrelevantes incorrectos. 3) Escalabilidad y prestaciones del producto: Consideraciones importantes cuando se trabaja con datos crecientes en trminos del nmero de filas columnas, posiblemente con controles de validacin sofisticados. Puede demandar el uso de tecnologas de multiprocesamiento simtrico (Symmetric Multi Processing SMP) de procesamiento masivamente paralelo (Massively Parallel Processing MPP) 4) Funcionalidades para comprender los resultados, proporcionadas mediante medidas que describan la precisin y lo significativo de los datos, permitiendo que el usuario analice la sensibilidad del resultado. Tambin es til la presentacin de resultados con el empleo de varias maneras alternativas, por ejemplo, visualmente. Una matriz de confusin muestra el nmero real de valores de una clase comparndolo con el nmero predicho. Ilustra la capacidad predictiva del modelo y presenta los detalles necesarios para ver donde pudiera estar fallando. El anlisis de sensibilidad determina la sensibilidad del modelo respecto a pequeas fluctuaciones de un valor predictor. Permite evaluar los efectos que tienen el ruido y los cambios ambientales sobre la precisin del modelo. Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar la comprensin de su significado. Las capacidades van desde las simples grficas de dispersin hasta representaciones multidimensionales complejas:

Minera de datos y almacenes de datos


Un desafo principal para las organizaciones es identificar los datos ms adecuados para aplicar estas tcnicas. La Minera de Datos necesita una fuente de datos unificada, independiente, limpia, integrada y auto coherente. Un almacn de datos est bien preparado para proporcionar los datos requeridos por la Minera de Datos.

Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)

16

You might also like