Professional Documents
Culture Documents
Un almacn de datos es una tecnologa de gestin y anlisis de los datos. Puede definirse como una coleccin de datos clasificados por temas, integrada, variable en el tiempo y no voltil que se utiliza como ayuda al proceso de toma de decisiones por parte de quienes dirigen una organizacin. Los almacenes Web de datos son almacenes de datos distribuidos que se implementan sobre la Web, no existiendo ningn repositorio centralizado.
Ventajas:
Alto retorno de inversin Ventajas competitivas derivadas de su utilizacin Mayor productividad de los responsables de la toma de decisiones
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
Las principales componentes de un almacn de datos son: 1. Fuentes de Datos operacionales: todos los datos operacionales previamente almacenados en BDs, archivos propietarios, estaciones primarias de trabajo e incluso en sistemas externos como Internet, bases de datos comerciales bases de datos dependientes de los proveedores clientes de la organizacin. 2. Repositorio de datos operacionales (Operacional Data Store - ODS): es un almacn de datos operacionales actuales e integrados que se utilizan para el anlisis. 3. Gestor de carga ( componente de interfaz): realiza todas las operaciones asociadas con la extraccin y carga de los datos en el almacn. Se incluyen transformaciones simples. 4. Gestor del almacn de datos: realiza las operaciones asociadas con la gestin de datos dentro del almacn. Incluye el anlisis de los datos para garantizar su coherencia, transformacin y combinacin de datos de origen, creacin de ndices y vistas, generalizacin de agregaciones y desnormalizaciones, y el archivado y copia de seguridad de los datos. 5. Gestor de consultas ( componente de servicio): realiza todas las operaciones asociadas con la gestin de las consultas de los usuarios: dirigir consultas hacia tablas apropiadas y planificar su ejecucin. 6. Datos detallados: rea del almacn que guarda todos los datos detallados contenidos en el esquema de la BD. 7. Datos poco resumidos y muy resumidos: guarda todos los datos, poco muy resumidos (agregados), que hayan sido establecidos por el gestor de datos como resmenes predefinidos. 8. Datos de archivo / copia de seguridad: guarda los datos detallado y resumidos con el propsito de mantener un archivo y disponer de copias de seguridad. 9. Metadatos: guarda todas las definiciones de metadatos (datos acerca de los datos) utilizadas por todos los procesos del almacn. Se utilizan para propsitos tales como:
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
Cuestiones fundamentales en los mercados de datos - Funcionalidad: Las capacidades se han incrementado. La complejidad y el tamao de algunos mercados de datos es comparables con algunos almacenes corporativos de baja gama. - Tamao: Los usuarios esperan tiempos de respuesta ms cortos. - Velocidad de carga: Deben equilibrarse dos componentes crticos: tiempo de respuesta de las consultas del usuario final y velocidad de carga de los datos. - Acceso de los usuarios a mltiples mercados de datos: Una tcnica posible es replicar datos entre diferentes mercados, otra construir mercados de datos virtuales. - Acceso Internet / intranet al mercado de datos: bajo costo, utilizando navegadores. - Administracin: Necesidad de gestionar y coordinar centralizadamente las actividades de los mercados de datos. Surgen problemas con las versiones, coherencia e integridad de los datos y metadatos, seguridad del nivel corporativo y con los ajustes del rendimiento.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
Modelado de la dimensionalidad
Tcnica de diseo lgico que trata de presentar los datos de una manera estndar e intuitiva que permita un acceso de alto rendimiento. Utiliza los conceptos del modelado Entidad Relacin (ER), con algunas restricciones importantes. Todo modelo dimensional (dimensional model DM) est compuesto de una tabla con una clave principal compuesta, denominada tabla de hechos, y un conjunto de tablas mas pequeas denominadas tablas de dimensin. Cada tabla de dimensin tiene una clave principal simple (no compuesta) que se corresponde con exactamente uno de los componentes de la clave compuesta de la tabla de hechos. Todas las claves naturales se sustituyen por claves subrogadas de manera que toda combinacin entre la tabla de hechos y las de dimensiones estn basadas en estas claves subrogadas. - Esquema ( combinacin) en estrella: Estructura lgica que tiene una tabla de hechos que contiene datos factuales en el centro, rodeada por tablas de dimensin que contienen datos de referencia. - Esquema en copo de nieve: Variante en el que las tablas de dimensin no contienen datos desnormalizados. - Esquema en copo de estrella: Estructura hbrida que contiene mezcla de esquemas en estrella y en copo de nieve. La forma predecible y estndar del modelo dimensional ofrece ventajas para un entorno de almacn de datos: - Eficiencia: La coherencia de la estructura de BD subyacente permite un acceso ms eficiente a los datos por parte de las distintas herramientas, incluyendo las de consultas y generacin de informes. - Posibilidad de gestionar requisitos cambiantes, ya que el esquema puede adaptarse a cambios en los requisitos de los usuarios producto de que todas las dimensiones son equivalentes en trminos de proporcionar acceso a la tabla de hechos. El diseo est mejor adaptado para soportar consultas ad hoc. - Ampliabilidad para: a) permitir adicin de nuevos hechos, siempre que sean coherentes con la granularidad fundamental de la tabla de hechos existente; b) adicin de nuevas dimensiones, siempre y cuando haya un nico valor de dicha dimensin definido para cada registro de hechos existente; c) Adicin de nuevos atributos dimensionales; y d) descomposicin de los registros de dimensin existentes para tener un menor nivel de granularidad a partir de un cierto instante temporal. - Capacidad de modelar situaciones empresariales comunes. - Procesamiento de consultas predecible, ya que en el nivel mas bajo, cada tabla de hechos debe ser consultada de manera independiente.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
Caractersticas
Vistas multidimensionales de los datos: requisito fundamental para la construccin de un modelo de negocio realista. Una vista multidimensional de los datos proporciona la base para el procesamiento analtico, al permitir un acceso flexible a los datos corporativos. Debe tratar todas las dimensiones de manera equitativa. No debe influenciar los tipos de operaciones permitidas sobre una determinada dimensin ni la tasa a la que estas operaciones se realicen. Debe permitir que los usuarios analicen los datos segn cualquier dimensin y en cualquier nivel de agregacin, manteniendo una misma funcionalidad y facilidad de uso. Igualmente, debe soportar todas las vistas multidimensionales de los datos en la manera mas intuitiva posible. Los sistemas OLAP deben ocultar lo ms posible a los usuarios la sintaxis de consultas complejas y proporcionar tiempos de respuesta siempre cortos para todas las consultas, independientemente de su complejidad. - Soporte para clculos complejos: El software debe proporcionar diversos mtodos de clculo suficientemente potentes, como los requeridos para realizar previsiones de ventas, que utilizan algoritmos de clculos de tendencias: medias mviles y crecimientos porcentuales. - Inteligencia temporal: Caracterstica clave. Debe poderse definir conceptos como acumulados de ao, comparaciones entre perodos, etc. Beneficios: - mayor productividad de los usuarios finales de la organizacin, de los desarrolladores de los departamentos de tecnologas de la informacin, acceso controlado y oportuno a la informacin de carcter estratgico; - reduccin en la carga de trabajo de desarrollo de aplicaciones, pues brinda autosuficiencia para los usuarios finales que pueden desarrollar sus propios modelos y cambios de esquema; - se conserva el control sobre la integridad de los datos corporativos, ya que los sistemas OLAP dependen de los almacenes de datos y de los sistemas OLTP para refrescar sus datos de origen; - menor frecuencia de consultas y menor trfico de los sistemas OLTP en el almacn de datos; - mayores ingresos y beneficios potenciales al permitir que la organizacin responda rpidamente a las demandas del mercado.
Los problemas de desarrollo asociados con la tecnologa MOLAP son: a) Slo pueden almacenarse y analizarse de manera eficiente una cantidad limitada de datos.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
10
Los problemas de desarrollo asociados con la tecnologa ROLAP son: a) Problemas de rendimiento asociados con el procesamiento de consultas complejas que requieran efectuar mltiples pasadas a travs de los datos relacionales. b) Desarrollo de middleware para facilitar el desarrollo de aplicaciones multidimensionales: software que convierta la relacin bidimensional en una estructura multidimensional. c) Desarrollo de una opcin para crear estructuras multidimensionales persistentes, junto con las funciones para ayudar a administrarlas. OLAP hbrido (HOLAP): Proporciona capacidades limitadas de anlisis, bien mediante SGBDR por un servidor MOLAP intermedio. El servidor suministra un cubo de datos que se almacena, analiza y mantiene localmente.
Los problemas de desarrollo asociados con la tecnologa HOLAP son: a) La arquitectura provoca una significativa redundancia de los datos y puede causar problemas en las redes que soporten muchos usuarios. b) La capacidad de cada usuario para construir un cubo personalizado puede provocar una falta de coherencia entre los datos de diferentes usuarios. c) Slo puede mantenerse de manera eficiente una cantidad limitada de datos. OLAP de escritorio (Desktop OLAP - DOLAP): Almacenan los datos OLAP en archivos situados en la plataforma del cliente y soportan el procesamiento multidimensional utilizando un motor multidimensional del lado del cliente. Requiere extractos relativamente pequeos de los datos en las mquinas de los clientes, los cuales pueden distribuirse por adelantado bajo peticin.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
11
Los problemas de desarrollo asociados con la tecnologa DOLAP son: a) Provisin de controles de seguridad apropiados, ya que los datos se extraen fsicamente del sistema. b) Se necesita reducir el esfuerzo necesario para implementar y mantener herramientas DOLAP c) Las tendencias actuales apuntan hacia el uso de clientes simples.
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
12
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
13
Prediccin de valores: Se utiliza para estimar un valor numrico continuo que est asociado con un registro de BD. 2. Segmentacin de la Base de Datos Su objetivo es realizar la particin de la BD en un nmero desconocido de segmentos clsteres de registros similares: compartiendo un conjunto de propiedades, y que, por ello, se consideran
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
14
Minera de Datos
homogneos. Los segmentos tienen una alta homogeneidad interna y alta heterogeneidad externa. Este enfoque utiliza aprendizaje NO supervisado para descubrir subconjuntos homogneos dentro de una base de datos con el fin de mejorar la precisin de los perfiles. Se asocia con las tcnicas de agrupacin neuronal demogrfica, que se distinguen por los tipos permitidos de datos de entrada, los mtodos utilizados para calcular la distancia entre los registros y la presentacin de los segmentos resultantes para su anlisis. 3. Anlisis de enlaces Trata de establecer vnculos, denominados asociaciones, entre los registros individuales entre los conjuntos de registros de una BD. Hay tres tipos: a) descubrimiento de asociaciones: trata de encontrar elementos que impliquen la presencia de otros elementos en el mismo suceso; b) descubrimiento de patrones secuenciales: trata de encontrar patrones entre sucesos tales que la presencia de un conjunto de elementos es seguida por otro conjunto de elementos en una BD de sucesos a lo largo de un perodo de tiempo; y c) descubrimiento de secuencias temporales similares: se utiliza para descubrir enlaces entre dos conjuntos de datos que sean dependientes del tiempo, y est basado en el grado de semejanza exhibido por ambas series temporales. 4. Deteccin de desviaciones Tcnica novedosa que identifica las excepciones: que expresa la desviacin con respecto a una cierta expectativa a una norma previamente conocida.
Herramientas
Las caractersticas ms importantes son: 1) Preparacin de los datos: Aspecto que demanda mayor tiempo. Puede dar soporte a operaciones de limpieza, transformacin, etc., de datos, as como para muestreo con vistas a la creacin de conjuntos para entrenamiento y validacin, etc. 2) Seleccin de las operaciones (algoritmos) de minera de datos: Su comprensin asegurar que cumplan los requisitos que demandan los usuarios. Es importante conocer como los distintos algoritmos tratan los tipos de datos de las variables de respuesta y variables predictoras (columnas de la BD que pueden usarse para construir un modelo predictor de los valores de otra columna), la rapidez con que llevan a cabo la fase de entrenamiento y la velocidad con que
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
15
Minera de Datos
operan sobre nuevos datos. Debe analizarse su sensibilidad al ruido (diferencia entre un modelo y sus predicciones), establecer sensibilidad a la falta de datos de un algoritmo dado y robustez de patrones que dicho algoritmo descubre en presencia de datos irrelevantes incorrectos. 3) Escalabilidad y prestaciones del producto: Consideraciones importantes cuando se trabaja con datos crecientes en trminos del nmero de filas columnas, posiblemente con controles de validacin sofisticados. Puede demandar el uso de tecnologas de multiprocesamiento simtrico (Symmetric Multi Processing SMP) de procesamiento masivamente paralelo (Massively Parallel Processing MPP) 4) Funcionalidades para comprender los resultados, proporcionadas mediante medidas que describan la precisin y lo significativo de los datos, permitiendo que el usuario analice la sensibilidad del resultado. Tambin es til la presentacin de resultados con el empleo de varias maneras alternativas, por ejemplo, visualmente. Una matriz de confusin muestra el nmero real de valores de una clase comparndolo con el nmero predicho. Ilustra la capacidad predictiva del modelo y presenta los detalles necesarios para ver donde pudiera estar fallando. El anlisis de sensibilidad determina la sensibilidad del modelo respecto a pequeas fluctuaciones de un valor predictor. Permite evaluar los efectos que tienen el ruido y los cambios ambientales sobre la precisin del modelo. Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar la comprensin de su significado. Las capacidades van desde las simples grficas de dispersin hasta representaciones multidimensionales complejas:
Fuente: Connolly,T.M. y Begg,C.E. Sistemas de BD Pearson, 2005; Parte 9: Captulos 31 al 34; pp 1035-1127 Resumido por: Dr. Juan Jos Aranda Aboy Profesor Titular (Grado 5)
16