Professional Documents
Culture Documents
SEIT.
D.G.I.T.
CATEDRATICO:
Mara Cecilia Jimnez Aquino PRESENTA: Eric de Jess Felipe Martnez N DE CONTROL 09190158 ESPECIALIDAD: Licenciatura En Informtica SEMESTRE: 8 GRUPO: S
H Ciudad De Juchitn De Zaragoza Oax., 02 de Mayo del 2013
UNIDAD 3 "Bases De Datos Para El Soporte En La Toma De Decisiones" 3.1 Bodegas de datos (Data Warehouse). Es un conjunto de datos integrados u orientados a una materia, que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de la administracin y esta orientada al manejo de grandes volmenes de datos provenientes de diversas fuentes o diversos tipos. Estos datos cubren largos perodos de tiempo lo que trae consigo que se tengan diferentes esquemas de los datos fuentes, La concentracin de esta informacin esta orientada a su anlisis para apoyar la toma de decisiones oportunas y fundamentadas, Previo a su utilizacin se debe aplicar procesos de anlisis, seleccin y transferencia de datos seleccionados desde las fuentes. RIESGOS. - Desactualizacin de esquemas a nuevas necesidades del negocio. - Acceso no restringido a objetos de Data Warehouse. - Respaldo de los datos almacenados.
Un Data Warehouse Usa Una Representacin Multidimensional De Los Datos (Cubos). Por La Dimensin De Tiempo.
3.1.1 Definicin Y Objetivo De Bodegas De Datos Data Warehouse o bodega de datos es una coleccin de informacin corporativa derivada directamente de los sistemas operacionales (DB) y de algunos datos externos. Su propsito es soportar la toma de decisiones en un negocio (no las operaciones del negocio). Para construir una bodega de datos se necesitan herramientas para ayudar a la migracin y a la transformacin de los datos hacia la bodega de datos. Ya construida la bodega de datos necesitamos de herramientas para manejar grandes volmenes de informacin.
3.1.2 Funcionamiento Data Warehouse Un data Warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. La data extrada es transformada para eliminar inconsistencias y resumir si es necesario y luego, cargadas en el data Warehouse. El proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudan a crear el ambiente para el acceso a la informacin Institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad. La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehousing, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data Warehouse.
Almacn de datos operativos (ODS) Staging rea es la ubicacin temporal donde se copian los datos de los sistemas de origen.
3.1.4 Herramientas Para Extraer Transformar Y Cargar Fuentes De Datos Componentes: Sistema ETL (Extraction, Transformation, Load): realiza las funciones de extraccin de las fuentes de datos (transaccionales o externas), transformacin (limpieza, consolidacin, ) y la carga del AD, realizando: extraccin de los datos. Filtrado De Los Datos: limpieza, consolidacin, etc. Carga Inicial Del Almacn: ordenacin, agregaciones, etc. Refresco Del Almacn: operacin peridica que propaga los cambios de las fuentes externas al almacn de datos Repositorio Propio de Datos: informacin relevante, metadatos. Interfaces y Gestores de Consulta: permiten acceder a los datos y sobre ellos se conectan herramientas ms sofisticadas (OLAP, EIS, minera de datos). Sistemas de Integridad y Seguridad: se encargan de un mantenimiento global, copias de seguridad
Proceso ETL
Transformar.
La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos.
Cargar
Es el momento en el cual los datos de la fase anterior (transformar) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organizacin, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos. Los data Warehouse mantienen un historial de los registros de manera que se pueda hacer una auditora de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
3.2.1 Definiciones Y Conceptos OLAP El procesamiento analtico en lnea (OLAP) le permite obtener acceso a datos organizados y agregados de orgenes de datos empresariales, como por ejemplo almacenamientos de datos, en una estructura multidimensional denominada cubo. Microsoft SQL Server 2005 Analysis Services (SSAS) proporciona herramientas y caractersticas para OLAP que puede utilizar para disear, implementar y mantener cubos y otros objetos compatibles. Antes de empezar a integrar cubos y otras funciones OLAP en las soluciones de Business Intelligence, asegrese de que conoce los conceptos y decisiones siguientes. El usuario emite consultas en el UDM mediante diversas herramientas de cliente, como Microsoft Excel. La interfaz de diseo que se muestra en este ejemplo est disponible en las herramientas de desarrollo incluidas en Microsoft SQL Server 2005. Con todo, se podra usar cualquier interfaz compatible con el modelo UDM, incluidas herramientas cliente como Office Excel u Office Web Components (OWC), o una de las muchas herramientas de anlisis y creacin de informes.
Ejemplo De OLAP
3.2.4 Diseo De Consultas De Bases De Datos Multidimensionales El modelo UDM proporciona las siguientes ventajas: Mejora notablemente el modelo del usuario. Proporciona consultas de alto rendimiento que admiten un anlisis interactivo, incluso con grandes volmenes de datos. Captura las reglas de negocio del modelo para proporcionar un anlisis mejorado. Admite cerrar el ciclo, lo que permite que los usuarios acten segn los datos que ven. Modelo bsico del usuario final. Los datos de ventas se almacenan en la base de datos principal Sales and Inventory, que tambin contiene otras tablas. Incluso despus de identificar las tablas relevantes, puede que el usuario observe que los datos de una entidad nica, como Producto, se reparten en distintas tablas. Identificar las columnas que se deben utilizar para combinar las tablas. Seleccionar las columnas que contienen los detalles de inters, de muchas tablas con gran cantidad de detalles orientados al sistema. Por ejemplo, de las 11 columnas de las tablas que almacenan detalles sobre categoras de producto, slo dos columnas con nombre son relevantes para el usuario.
3.3.2.1 Anlisis
Data Mart es especfica para una necesidad de datos seleccionados, enfatizando el fcil acceso a una informacin relevante. Data Mart se destaca por una definicin de requerimientos ms fcil y rpida. Para crear el Datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio Data Warehouse, o sobre una base de datos OLAP.
Datamart OLAP: se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice. Datamart OLTP: Pueden basarse en un simple extracto del Data Warehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la hostilizacin de los datos
3.3.2.2 Construccin
La Fase de Construccin implica:
Construccin del Data Mart: Esta actividad tiene el objetivo de construir el modelo de datos, la Metadata de la herramienta de Explotacin y La Arquitectura del Modelo Multidimensional en la herramienta de explotacin. Construccin de los Procesos de Cargas: En sta actividad es cuando se debe desarrollar los procesos de carga de datos, las rutinas de limpieza, los flujos de cargas de datos, las interfaz de acceso, los importadores e integradores de datos, los programas de entrada de datos. Construccin de los reportes analticos: Consiste en construir los reportes, tableros de control, dashboard, scorecard. Construccin de los procesos de prueba: Se debe construir los programas, reportes, informes que permita probar los procesos de cargas y los reportes entregados.
El modelo Top Down: Est basado en la estructura de la Data Warehouse, la cual se construye a partir de los datos que se puedan obtener de los diferentes sistemas operacionales o externos (datos aislados) a travs de un proceso de extraccin, transformacin y transportacin (ETT).
Top Down: Tiene como base un sistema de Data Warehouse para toda la empresa y a partir de este se desarrollan los Data Marts para las divisiones o departamentos. Modelo Bottom up: En este modelo los Data Marts se construyen a partir de los datos dispersos y la Data Warehouse se construye a partir de los Data Marts existentes, esta construccin se realiza a travs de dos procesos diferentes de extraccin, transformacin y transportacin.
El Modelo Paralelo: El diseo del modelo paralelo se basa en dos alternativas, en la primera se tratan los Data Marts con entidades independientes de los Data Warehouse y en la segunda, esta independencia se trata de forma temporal.
Modelo Top Down con Retroalimentacin: Este modelo incluye la posibilidad de agregar datos que no estn presentes en la Data Warehouse y que se requieran para cumplir con los requerimientos de un anlisis especfico. Modelo Bottom Up con Retroalimentacin: Permitir que la integracin de los datos e informacin dada en los Data Marts se pueda implementar durante la construccin de la Data Warehouse. Modelo Paralelo con Retroalimentacin: El desarrollo principalmente trabaja con la retroalimentacin que tenga el Data Mart, ya que su inicio depende de un perodo de ajuste entre ste y el modelo de datos de la Data Warehouse. Mientras las entradas y salidas se estn dando en los Data Marts, en la Data Warehouse estos mismos se estn realizando, dado a las caractersticas de paralelismo que existe entre ellos. *
3.3.3 Tecnologas De Mercados De Datos TECNOLOGIAS DATAMART: Aspect Data Mart es una solucin completa de reportes para la empresa, que le proporciona un mayor entendimiento de las operaciones de sus negocios y reduce el tiempo que consumen estas tareas. Esta solucin consolida datos de mltiples fuentes para darle una perspectiva de las operaciones del centro de contacto de su empresa y as poder identificar rpidamente los procesos de cambio necesarios. Destacados Consolidacin y fcil anlisis de datos de mltiples sitios, canales y plataformas. Perspectiva a nivel empresarial de las operaciones del centro de contacto. Informe integral que ayuda a dar un servicio al cliente personalizado. Integracin de datos desde el almacn de datos corporativo actual para tener un panorama completo de sus negocios. Interfaces customizables para fuentes de datos comunes de centros de contacto.
3.3.3.1 Herramientas Front-End Tambin conocidas como herramientas de acceso a los datos o herramientas de presentacin. El Front-End es la parte del software que interacta con el o los usuarios Herramientas Front-End Herramientas de consulta: usan consultas predefinidas y las capacidades de informacin incorporadas para que los usuarios tenga accesos a los datos. Aplicaciones de usuarios: Muchos programas de aplicacin comunes como Microsoft Excel pueden proporcionar acceso Front-End a bases de datos de apoyo. Herramientas de desarrollos de programas: Muchas instalaciones cliente-servidor necesitan aplicaciones Front-End especiales personalizados para sus tareas de obtencin de datos. Son esenciales para acceder y analizar los datos en el Datamart.
El diseo de bases de datos es el proceso por el que se determina la organizacin de una base de datos, incluidos su estructura, contenido y las aplicaciones que se han de desarrollar. PALO es un motor orientado a celdas, multidimensional, que est especficamente diseado para mostrar informacin desde Excel, para todo tipo de anlisis.
La minera de datos (DM, Data Mining) consiste en la extraccin no trivial de informacin que reside de manera implcita en los datos. Dicha informacin era previamente desconocida y podr resultar til para algn proceso. En otras palabras, la minera de datos prepara, sondea y explora los datos para sacar la informacin oculta en ellos. Bajo el nombre de minera de datos se engloba todo un conjunto de tcnicas encaminadas a la extraccin de conocimiento procesable, implcito en las bases de datos. Est fuertemente ligado con la supervisin de procesos industriales ya que resulta muy til para aprovechar los datos almacenados en las bases de datos. Las bases de la minera de datos se encuentran en la inteligencia artificial y en el anlisis estadstico. Mediante los modelos extrados utilizando tcnicas de minera de datos se aborda la solucin a problemas de prediccin, clasificacin y segmentacin.
3.4.1 Definiciones Y Conceptos De Minera Datos Segn Fallad y sus coautores (1996): La minera de datos es un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos. Es una herramienta capaz de abarcar una amplia gama de dominios, desde aquellos de la recuperacin y extraccin de informacin, presentacin, resumen de multidocumentos, minera de datos aplicada a textos, etctera. Es un trmino que en dependencia del autor que lo emplee se restringen o se amplan sus esferas de aplicacin. Consiste en la bsqueda de regularidades o patrones que se encuentran en un texto, a partir de tcnicas de aprendizaje automtico; por tanto, se considera como una de las muchas ramas de la lingstica computacional. Como proceso se ocupa del descubrimiento del conocimiento que no existe en el texto, pero que surge al relacionar el contenido de varios textos y se divide en varias etapas.
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un conjunto de datos para obtener unos resultados. Las tcnicas ms representativas son: Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son: El Perceptrn. El Perceptrn multicapa. Los Mapas Auto organizados, tambin conocidos como redes de Kohonen.
3.4.6 Tendencias En Minera De Datos La Minera de Datos ha sufrido transformaciones en los ltimos aos de acuerdo con cambios tecnolgicos, de estrategias de marketing, la extensin de los modelos de compra en lnea, etc. Los ms importantes de ellos son: La importancia que han cobrado los datos no estructurados (texto, pginas de Internet, etc.) La necesidad de integrar los algoritmos y resultados obtenidos en sistemas operacionales, portales de Internet, etc. La exigencia de que los procesos funcionen prcticamente en lnea (por ejemplo, que frente a un fraude con una tarjeta de crdito). Los tiempos de respuesta. El gran volumen de datos que hay que procesar en muchos casos para obtener un modelo vlido es un inconveniente; esto implica grandes cantidades de tiempo de proceso y hay problemas que requieren una respuesta en tiempo real.