Professional Documents
Culture Documents
Introduccin
1.1 Evolucin de los Decision Support Systems (DSS)
La historia de los data warehouses comienza con la evolucin de los sistemas de informacin y sistemas para el soporte de toma de decisiones Los orgenes de data warehousing y los decision support systems (DSS) se remonta muy atrs a los comienzos de la computadora y los sistemas de informacin y contina evolucionando da a da
PC/4GL Technology
Para los 1980's, arriban nuevas tecnologas, tales como las PCs y lenguajes de cuarta generacion (4GLs). Un "Management Information System (MIS)", como fue llamado al principio, pudo ser implementado gracias a dichos avances.
Hoy conocido como DSS, el MIS era empleado para ayudar en la toma de decisiones
Diferentes metodologas y gurus del datawarehousing han dado a este componente distintos nombres, tales como: A staging area. Un variante de "back office" que es una etapa de poner todos los datos operativos juntos. The information warehouse. Un nombre utilizado en los inicio por IBM y algunos otros vendedores.
Quin es el usuario? El usuario del data warehouse, tambin llamado analista DSS, es una persona de negocio en primera instancia y tcnico en la segunda. El trabajo principal del analista DSS es definir y descubrir informacin utilizada en la toma de decisiones corporativas.
Estos componentes han sido separados en 2 grupos de componentes y procesos: Getting data in consiste de los procesos y bases de datos involucrados en adquirir datos desde los sistemas en operacin, integrarlos, limpiarlos y colocarlos en una base de datos de fcil uso. Los componentes de la CIF que se encuentran realizando esta funcin son: The operational system databases (source systems) que contienen datos utilizados en el correr del da a da del negocio de la compaa. Estos son todava la mayor fuente de datos para los ambientes de toma de decisiones. The data warehouse es una coleccin o repositorio de datos integrados, detallados e histricos para apoyar al proceso de toma de decisiones. The operational data store es una coleccin de datos integrados, detallados y actuales para apoyar al proceso de toma de decisiones. Data acquisition es un conjunto de procesos y programas que extraen datos para el data warehouse y el
operational data store desde los sistemas en operacin. Adems de incluir tareas de transformacin y limpieza, esta capa tambin incluye un conjunto de procesos de control para el aseguramiento de la integridad de los datos. Getting information out consiste de los procesos y bases de datos involucradas en entregar BI al cliente de negocio o analista. Los componentes de la CIF para esta funcin son: The data marts son derivados del data warehouse, utilizados para proveer a la comunidad de negocio el acceso a varios tipos de estrategias de anlisis. The oper marts son derivados del ODS y utilizados para proveer a la comunidad de negocio con acceso dimensional a los datos actuales de operacin. Data delivery es el proceso que mueve datos desde el data warehouse hacia los data y oper marts. Similar a la capa de adquisicin, manipulan datos mientras los mueven. 1.3.2.1 Operational Systems Son los sistemas que soportan las actividades da-a-da de la empresa. 1.3.2.2 Data Acquisition Muchas compaas son tentadas a saltarse el paso crucial de verdaderamente integrar sus datos, escogiendo en su lugar desplegar una serie de no coordinados, no integrados data marts. Esto provoca que terminen con informacin aisladas o especfica para un departamento especfico, los cuales no pueden combinarse para producir informacin vlida y obviamente no pueden ser compartidos a travs de la empresa.
1.3.2.3 Data Warehouse Actua como el punto central de integracin de datos, es el primer paso hacia la conversin de datos en informacin. Propsitos de Data Warehouse 1. Brinda una vista comn de todos los datos, sin importar como sern usados posteriormente por los clientes. 2. Dada la enorme necesidad de informacin histrica, el dw puede crecer a proporciones inmensas ( 20 o 100 terabytes o ms). 3. Finalmente, es el encargado de proveer de datos a cualquier tecnologa de anlisis dentro de la comunidad de negocio. Esto es, muchos data marts pueden ser creados a partir de los datos contenidos en el dw, NO cada data mart tiene sus propios mtodos de producir y consumir datos.
1.3.2.4 Operational Data Store El operational data store (ODS) es utilizado para decisiones tcticas, mientras que el dw soporta decisiones estratgicas Est orientado a un tema, como lo hace el data warehouse Sus datos estn completamente integrados, como en el data warehouse. Sus datos son actuales (tanto como sea posible). Sus datos son voltiles y actualizables (a diferencia de lo esttico del datawarehouse) Sus datos son detallados casi completamente con un mnimo de agregacin dinmica o sumarizacin. Contiene datos a nivel transaccin.
1.3.2.5 Data Delivery Est generalmente limitado a operaciones tales como agregacin de datos, filtros por dimensiones especficas, reformateo de datos para facilitar el acceso de usuarios o herramientas de BI y finalmente transmitir datos a travs de la organizacin.
1.3.2.6 Data Marts Son un subconjunto del dw y es donde la mayor parte de las actividades analticas de BI toman parte. Los datos en cada data mart son adaptados para una funcin particular, tales como anlisis de beneficios, anlisis demogrficos, etc. Cada data mart no es necesariamente vlido para otros usos.
1.3.2.7 Meta Data Management Es el conjunto de procesos que recolectan, administran y despliegan meta datos a travs de la CIF. Existen de 3 tipos: 1. Technical 2. Business 3. Administrative
1.3.2.8 Information Feedback Es el mecanismo de comparticin que permite al conocimiento y la inteligencia ser compartidos con otros data stores, segn sea apropiado. Aca se habla de una "Learning organization".
1.3.2.9 Information Workshop Es el conjunto de herramientas disponibles para los usuarios de negocio, para ayudarles en el uso de recursos de la Corporate Information Factory. Provee medios para organizar y categorizar los datos y otros recursos.
1.3.2.10 Operations and Administration Incluye el soporte crucial y las funciones de infraestructura necesarias para el crecimiento sostenible.
Debe ser diseado para cargar cantidades enormes y masivas de datos en corto tiempo. La base de datos del dw debe ser creada con un mnimo de redundancia o duplicados de atributos o entidades. Para ello se emplean tcnicas de paralelizacin, carga de datos por bloque y API's nativos. Debe ser diseado para el procesamiento ptimo de la extraccin por los programas de entrega (delivery programs). Esto es crucial ya que de aqu se alimentan los data marts. Debe estar en un formato que permita el anlisis de muchas o todas las tecnologas de BI.
El programa de extraccin es el ms simple de todos los programas. Recorre a travs de un archivo o base de datos, utiliza un criterio de seleccin de datos y, encontrando los datos calificados para dicho criterio, transporta los datos hacia otro archivo o base de datos.
Debido a que el proceso de extraccin mueve datos lejos del alto rendimiento del OLTP, no hay conflictos en trminos de velocidad al momento de ser analizados en masa. Cuando los datos son movidos fuera del OLTP, lejos del procesamiento de transacciones, un cambio en el control ocurre. El usuario final posee los datos una vez que ha tomado control de ellos.
La arquitectura evolutiva presenta muchos retos, tales como: Credibilidad de los datos (Data credibility) Productividad (Productivity) Problemas para transformar datos en informacin (Inability to transform data into information)
3. Los niveles de extraccin 4. El problema de datos externos 5. No hay una fuente comn de datos desde el principio
La siguiente tarea para producir el reporte es compilar los datos una vez localizados. El programa deber ser escrito de manera simple y debe obtener la informacin de distintas fuentes, esto es complicado por las siguientes razones: Muchos programas deben ser escritos. Cada programa deber modificado para requisitos particulares. Los programas atraviesan toda tecnologa que la compaa utiliza.
1.5.3 Problemas para transformar datos en informacin (Inability to transform data into information)
Poca integracin de datos
Cambio de estrategias
Datos primitivos son datos utilizados para correr las operaciones da-a-da de la compaa. Datos derivados han sido resumidos o calculados para cumplir con las necesidades administrativas de la compaa. Datos primitivos pueden ser actualizados. Datos derivados pueden ser recalculados pero nunca actualizados directamente. Datos primitivos son datos primariamente "actuales". Datos derivados son a menudo datos histricos. Datos primitivos son operados por procedimientos repetitivos. Datos derivados son operados por heursticas, programas y procedimientos no repetitivos. Datos operativos son primitivos, datos DSS son derivados. Datos primitivos soportan funciones administrativas. Datos derivados soportan funciones directivas.
El ambiente departamental - algunas veces llamado nivel de data mart, nivel de OLAP, o nivel multidimensional del DBMS contiene informacin til para los distintos departamentos fsicos de una compaa.
Existe una base de datos para el departamento de marketing, una para el de contabilidad, otra para el actuarial, etc. El data warehouse es la fuente de todos estos datos departamentales. Mientras que el data mart ciertamente relaciona los datos encontrados en el nivel operacional o el data warehouse, los datos encontrados en la departamental o data mart son fundamentalmente diferentes de los datos en el datawarehouse, porque los datos del data mart estn denormalizados, resumidos y formados por los requerimientos de operacin de un solo departamento.
El nivel final de datos es el nivel individual. Los datos individuales son usualmente temporales y pequeos. Muchos anlisis heursticos son realizados a este nivel. Como regla, los niveles individuales de datos son asistidos por la PC. Executive information systems (EIS) tpicamente estn a este nivel.
La necesidad de monitorear la actividad en el datawarehouse es ilustrada por las siguientes preguntas: Qu esta siendo accesado? Cundo? Por quin? Qu tan frecuente? En qu nivel de detalle? Cul es el tiempo de respuesta para la solicitud? En que punto del da es enviada la solicitud? Qu tan grande fue la solicitud? Fue terminada la solicitud o termin naturalmente?
Lectura: http://www.intelligententerprise.com/020726/512warehouse1_1.jhtml