Este documento presenta la conceptualización del entorno de información empresarial aplicado a la gestión de la toma de decisiones a través de almacenes de datos y minería de datos. Explica conceptos clave como sistemas de información ejecutiva, data warehouse, datamart y los beneficios de estas herramientas. También describe los procesos de planeación, diseño e implementación de proyectos de data warehouse.
Este documento presenta la conceptualización del entorno de información empresarial aplicado a la gestión de la toma de decisiones a través de almacenes de datos y minería de datos. Explica conceptos clave como sistemas de información ejecutiva, data warehouse, datamart y los beneficios de estas herramientas. También describe los procesos de planeación, diseño e implementación de proyectos de data warehouse.
Este documento presenta la conceptualización del entorno de información empresarial aplicado a la gestión de la toma de decisiones a través de almacenes de datos y minería de datos. Explica conceptos clave como sistemas de información ejecutiva, data warehouse, datamart y los beneficios de estas herramientas. También describe los procesos de planeación, diseño e implementación de proyectos de data warehouse.
empresarial, aplicada en la gestin de la toma de decisiones a travs de almacenes de datos y la minera de los mismos para una inteligencia del negocio. Alcances Reconocer las principales caractersticas de los sistemas de informacin ejecutiva. Explicar el concepto y los principales beneficios del datawarehousing. Explicar el concepto y los principales beneficios del datamining. Explicar los fundamentos de la tecnologa de informacin de la inteligencia de negocios. Analizar los procesos de negocios de una organizacin, para ofrecer alternativas ptimas de explotacin de los datos.
Bibliografa TIPO TTULO AUTOR EDITORIAL AO Libro E-data convertir datos en informacin con datawarehousing Dyche, Jill Pearson 2000 Libro The data warehouse Lifecycle Toolkit (2 nd
Edition) Kimball, Ralph Wiley 2002 Reeves, Laura Libro Datamining concepts and techniques Han Jiawei; Kamber, Micheline Morgan Kaufmann Publishers 2001 Libro Intelligent Systems Reference Library,Volume 12 Florin Gorunescu Spinger 2011 Temario parte 1 Qu es el data warehouse? o Hacia dnde se dirigen los datos? o Sistemas de informacin ejecutiva o Concepto data warehouse o Concepto data mart o Data warehouse empresarial o El data warehouse como herramienta Planeacin y administracin del proyecto de data warehouse o Planeacin del ciclo de vida del proyecto o Diseo y anlisis o Modelo de implementacin Herramientas de optimizacin de un data warehouse o ndices o Particin de datos o Agregados y vistas materializadas o Optimizacin de joins Anlisis dimensional y tablas de hechos o Definicin del modelo dimensional o Tablas de hechos y tablas de dimensiones o Construccin de modelos dimensionales o Llaves artificiales Temario parte 2 Proceso ETL o Staging de datos o Planeacin o Carga de tablas de dimensiones o Carga de tabla de hechos o Oracle Enterprise Manager Data Management Load Funciones SQL de Oracle para Data Warehouse o Funciones para agregacin o Funciones SQL para clculos analticos o Expresiones CASE y WITH o Aplicaciones OLAP Qu es la minera de datos? o Definicin del concepto minera de datos o Extraccin y descubrimiento o Antologa como modelos o Bases cientficas o Metodologas de minera de datos Pilares de la organizacin de la minera de datos o La tecnologa de informacin de la inteligencia de negocios o Herramientas de inteligencia de negocios o Aplicaciones de inteligencia de negocios o Plataformas de procesamiento o Filosofa de la inteligencia de negocios Los datos en la minera de datos o Metadata o Representacin: cuantificacin y cdigos o Extraccin de caractersticas y mejoras o Calidad de los datos o Relevancia e independencia de las caractersticas o La preparacin de los datos o Seleccin de caractersticas o Demografa y comportamiento de los datos de los clientes Examen Diagnostico Qu es una base de datos? Qu es un sistema de gestin de bases de datos? Qu significan las siglas SQL? Qu es SQL? Qu es una llave y cuantos tipos de llaves existen en el contexto de bases de datos? Qu es el modelo entidad relacin? Qu es una base de datos transaccional? Cules son las instrucciones principales del lenguaje de manipulacin de datos? Cul es la sintaxis bsica para realizar consultas en el lenguaje SQL ? Introduccion Sistemas de informacin ejecutiva Es una herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado de los indicadores de negocio que le afectan al instante, manteniendo tambin la posibilidad de analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para determinar el plan de accin ms adecuado. Que es el dataware house? Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de perspectivas y con grandes velocidades de respuesta. Y Se caracteriza por ser : Integrado Temtico Histrico No voltil Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los cuales apoyan a: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora
Ventajas de DWH Alto retorno de inversion Ventaja competitivas Mayor productividad de los responsables de la toma de decisiones
OLTP VS DWH OLTP Almacenes de datos Almacenan datos actuales Almacenan datos histricos Almacenan datos detallados Almacenan datos resumidos Los datos son dinmicos Los datos principalmente son estticos Procesamiento repetitivo Procesamiento ad-hoc, no estructurado y heurstico Alta tasa de transacciones Tasa media o baja de transacciones Patron de uso predecible Patron de uso impredecible Dirigido por transacciones Dirigido por analisis Orientado a la aplicacin Orientado a temas Soporta las decisiones cotidianas Soporta las decisiones estrategicas Sirve a un gran numero de usuarios Sirve a usuarios gerenciales y directivos Problemas de los almacenes de datos Subestimacin de los recursos necesarios para la carga de datos Problemas ocultos de los sistemas de origen No se capturan los datos requeridos Incremento de la demanda por parte de los usuarios finales Homogeneizacin de datos Alta demanda de recursos Propiedad de los datos Altos costos de mantenimiento Proyectos de larga duracin Complejidad de la integracin Qu es un datamart? Almacena informacin especifica de un rea de negocio Dispone de una estructura optima para analizar informacin Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: o Poco volumen de datos o Mayor rapidez de consulta o Consultas SQL y/o MDX sencillas o Validacin directa de la informacin o Facilidad para la historizacin de los datos
Datawarehouse como herramienta Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares.
Ciclo de vida del proyecto Factores que deben ser tomados en cuenta Objetivo Costo Tiempo Riesgo Calidad Recursos Grupos de interes Planificacion de un datawarehouse Planificacion de un datawarehouse Descubrir o Analisis y definicion de requerimiento Diseo o Modelos semanticos: es una representacin de algunas cosas identificables en el ambiente de trabajo de los usuarios. o Modelos esquematicos Tercera Forma Normal: o La tabla est en la segunda forma normal (2NF) una tabla 1NF est en 2NF si y solo si, dada una clave primaria y cualquier atributo que no sea un constituyente de la clave primaria, el atributo no clave depende de toda la clave primaria en vez de solo de una parte de ella. o No hay orden de arriba-a-abajo en las filas. o No hay orden de izquierda-a-derecha en las columnas. o No hay filas duplicadas. o Cada interseccin de fila-y-columna contiene exactamente un valor del dominio aplicable (y nada ms). o Todas las columnas son regulares [es decir, las filas no tienen componentes como IDs de fila, IDs de objeto, o timestamps ocultos]. o Ningn atributo no-primario de la tabla es dependiente transitivamente de una clave primaria Estrella: las tablas de dimensiones tendrn siempre una clave primaria simple, mientras que en la tabla de hechos, la clave principal estar compuesta por las claves principales de las tablas dimensionales. Copo de nieve: Se da cuando alguna de las dimensiones se implementa con ms de una tabla de datos.
Planeacion de un DWH Desarrollo o Modelar el diseo fisico o Dimensionar la base de datos o Crear la convencion de nombres de objetos o Estrategias de indexacion o Desarrollo de esquemas para realizar el ETL (Extraer, Transformar y Cargar) Despliegue o Su despliegue es gradual hacia varios grupos de usuarios o Se pone la infraestrructura o Se instala el software y se evalua para ponerlo en produccion o Los componentes de la pista de datos son desplegados o Se contruyen las bases de datos del almacen o Lo procesos ETL se ponen en linea o Se ajustan los procesos y necesidades o Se libera la capa de aplicacin
Planeacion de UN DWH Dia a dia: o Mantenimiento constante del hardware y software o Monitoreo constante del rendimiento y crecimiento del sistema o Validar si funciona completamente y si se encuentra actualizado o Resolver eventos, incidentes y problemas o Tener trabajos de respaldo definidos y agendados o Los respaldos deben de ser verificados y probados en ambientes especificados para esto Defender: depende del tiempo de recuperacion necesario y el punto de recuperacion objetivo o Externas (catastrofes naturales, incendios, inundaciones) o Internas (ataques, perdidas de archivos, configuraciones, entre otras) Intencionales Accidentales
Planeacion de un DWH Disponer fuera de servicio: o Sin remplazo: ya no se requieren los servicios del DWH o Corte y cambio: Se tiene un nuevo DWH y se realiza el cambio en un olo movimiento o Funcin en paralelo: se trabajan el sistema nuevo y el viejo en paralelo por un tiempo.
Repositorio de metadatos Descripcion de la estructura del data warehouse Datos operacionales: o Linea de tiempo de las migraciones o Estadisticas del datawarehouse o Actualizacion de la informacin Algoritmos utilizados para la sumarizacion Mapeo del ambiente operacional: o Fuentes de informacin o Particiones de datos o Reglas de extaccion , limpieza y tranformacion Desempeo del sistema: o Actualizaciones o Ciclos de replica Metadatos del negocio o Definiciones y terminos Modelo dimensional Tabla de hechos o Medidas numericas o Define que es lo que deseamos analizar en la relacion de todas las dimensiones o Contiene las llaves de cada una de las tablas de dimension Tablas de dimensiones o Son las perspectivas o entidades con lo cual la organizacin desea llevar sus registros o Estas tablas contienen informacin relevante de los atributos de una entidad
Tipos de modelos dimensionales Estrella o Una larga tabla de hechos o Algunas tablas de dimension, una por cada dimension. Copo de nieve o Las tablas de dimensiones puede tener su propia tabla de dimensiones Constelacion de hecho o Existen varias tablas de hechos que comparten dimensiones
Algunas definiciones Jerarquia: defines a sequence of mappings from a set of low-level concepts to higher-level, more general concepts Metrica o Distribuivas as count, min, max o Algebraicas as sum(), avg, desviacion estandar o Holisticas: mediana, moda, rango
Operaciones OLAP Rol-up Drilldown Slice-dice Pivote Drillacross Drill-througth Top N Bottom N Proceso Seleccin de datos Transformacin de datos Minera de datos Evaluacin de patrones Presentacin de conocimiento Limpieza de datos Integracin de datos
MDX SELECT { [Measures].[Sales Amount], [Measures].[Tax Amount] } ON 0, { [Date].[Fiscal].[Fiscal Year].&[2002], [Date].[Fiscal].[Fiscal Year].&[2003] } ON 1 FROM [Adventure Works] WHERE ( [Sales Territory].[Southwest] )