You are on page 1of 23

1.

Introduccin
1.1 Evolucin de los Decision Support Systems (DSS)
La historia de los data warehouses comienza con la evolucin de los sistemas de informacin y sistemas para el soporte de toma de decisiones Los orgenes de data warehousing y los decision support systems (DSS) se remonta muy atrs a los comienzos de la computadora y los sistemas de informacin y contina evolucionando da a da

La llegada del DASD


En los 1970's surge el almacenamiento en disco, o "direct access storage device (DASD)". El almacenamiento en disco fue fundamentalmente diferente del almacenamiento en cinta, acceso directo vs acceso secuencial. Con los DASD lleg un nuevo tipo de software llamado "database management system (DBMS)". Para mediados de los 1970's, las operaciones de transacciones en lnea (online transaction processing (OLTP)) hicieron posible un acceso todava ms rpido a los datos, abriendo posibilidades a nuevas ideas de negocio y procesamiento.

PC/4GL Technology
Para los 1980's, arriban nuevas tecnologas, tales como las PCs y lenguajes de cuarta generacion (4GLs). Un "Management Information System (MIS)", como fue llamado al principio, pudo ser implementado gracias a dichos avances.

Hoy conocido como DSS, el MIS era empleado para ayudar en la toma de decisiones

1.2 Data Warehouse y Business Intelligence


1.2.1 Definicin
La definicin universal de un data warehouse fue desarrollada por Bill Inmon en los 1980's: "es una coleccin de datos, orientados a un tema, integrados, variantes en el tiempo y no-voltiles utilizados en las estrategias de toma de decisiones.

Diferentes metodologas y gurus del datawarehousing han dado a este componente distintos nombres, tales como: A staging area. Un variante de "back office" que es una etapa de poner todos los datos operativos juntos. The information warehouse. Un nombre utilizado en los inicio por IBM y algunos otros vendedores.

Quin es el usuario? El usuario del data warehouse, tambin llamado analista DSS, es una persona de negocio en primera instancia y tcnico en la segunda. El trabajo principal del analista DSS es definir y descubrir informacin utilizada en la toma de decisiones corporativas.

1.2.3 Business Intelligence


BI, en el contexto de data warehouse, es la habilidad de una empresa para estudiar comportamientos y acciones anteriores para entender dnde ha estado la organizacin, determinar su situacin, y predecir o cambiar que pasar en el futuro

1.3 Corporate Information Factory (lugar del dw en el BI)


1.3.1 Definicin
The Corporate Information Factory (CIF) es una arquitectura conceptual aceptada ampliamente que describe y categoriza los almacenes de informacin utilizados para operar y administrar infraestructuras robustas de BI. Estos almacenes presentan 3 procesos de organizacin de alto nivel: Business operations estn vinculadas con las operaciones del da-a-da. Business intelligence estn enfocados con la bsqueda de un mejor entendimiento de la compaa, sus productos y clientes. Mientras que los procesos de operacin de negocio son estticos, los de BI estn evolucionando constantemente (aunque tambin posee algunos estticos). Business management es la funcin en la cual el conocimiento y nuevas ideas desarrolladas en la BI son institucionalizadas e introducidas en las operaciones diarias de la empresa; es decir, las hace parte de sus estrategias.

1.3.2 Componentes de la CIF

Estos componentes han sido separados en 2 grupos de componentes y procesos: Getting data in consiste de los procesos y bases de datos involucrados en adquirir datos desde los sistemas en operacin, integrarlos, limpiarlos y colocarlos en una base de datos de fcil uso. Los componentes de la CIF que se encuentran realizando esta funcin son: The operational system databases (source systems) que contienen datos utilizados en el correr del da a da del negocio de la compaa. Estos son todava la mayor fuente de datos para los ambientes de toma de decisiones. The data warehouse es una coleccin o repositorio de datos integrados, detallados e histricos para apoyar al proceso de toma de decisiones. The operational data store es una coleccin de datos integrados, detallados y actuales para apoyar al proceso de toma de decisiones. Data acquisition es un conjunto de procesos y programas que extraen datos para el data warehouse y el

operational data store desde los sistemas en operacin. Adems de incluir tareas de transformacin y limpieza, esta capa tambin incluye un conjunto de procesos de control para el aseguramiento de la integridad de los datos. Getting information out consiste de los procesos y bases de datos involucradas en entregar BI al cliente de negocio o analista. Los componentes de la CIF para esta funcin son: The data marts son derivados del data warehouse, utilizados para proveer a la comunidad de negocio el acceso a varios tipos de estrategias de anlisis. The oper marts son derivados del ODS y utilizados para proveer a la comunidad de negocio con acceso dimensional a los datos actuales de operacin. Data delivery es el proceso que mueve datos desde el data warehouse hacia los data y oper marts. Similar a la capa de adquisicin, manipulan datos mientras los mueven. 1.3.2.1 Operational Systems Son los sistemas que soportan las actividades da-a-da de la empresa. 1.3.2.2 Data Acquisition Muchas compaas son tentadas a saltarse el paso crucial de verdaderamente integrar sus datos, escogiendo en su lugar desplegar una serie de no coordinados, no integrados data marts. Esto provoca que terminen con informacin aisladas o especfica para un departamento especfico, los cuales no pueden combinarse para producir informacin vlida y obviamente no pueden ser compartidos a travs de la empresa.

1.3.2.3 Data Warehouse Actua como el punto central de integracin de datos, es el primer paso hacia la conversin de datos en informacin. Propsitos de Data Warehouse 1. Brinda una vista comn de todos los datos, sin importar como sern usados posteriormente por los clientes. 2. Dada la enorme necesidad de informacin histrica, el dw puede crecer a proporciones inmensas ( 20 o 100 terabytes o ms). 3. Finalmente, es el encargado de proveer de datos a cualquier tecnologa de anlisis dentro de la comunidad de negocio. Esto es, muchos data marts pueden ser creados a partir de los datos contenidos en el dw, NO cada data mart tiene sus propios mtodos de producir y consumir datos.

1.3.2.4 Operational Data Store El operational data store (ODS) es utilizado para decisiones tcticas, mientras que el dw soporta decisiones estratgicas Est orientado a un tema, como lo hace el data warehouse Sus datos estn completamente integrados, como en el data warehouse. Sus datos son actuales (tanto como sea posible). Sus datos son voltiles y actualizables (a diferencia de lo esttico del datawarehouse) Sus datos son detallados casi completamente con un mnimo de agregacin dinmica o sumarizacin. Contiene datos a nivel transaccin.

1.3.2.5 Data Delivery Est generalmente limitado a operaciones tales como agregacin de datos, filtros por dimensiones especficas, reformateo de datos para facilitar el acceso de usuarios o herramientas de BI y finalmente transmitir datos a travs de la organizacin.

1.3.2.6 Data Marts Son un subconjunto del dw y es donde la mayor parte de las actividades analticas de BI toman parte. Los datos en cada data mart son adaptados para una funcin particular, tales como anlisis de beneficios, anlisis demogrficos, etc. Cada data mart no es necesariamente vlido para otros usos.

1.3.2.7 Meta Data Management Es el conjunto de procesos que recolectan, administran y despliegan meta datos a travs de la CIF. Existen de 3 tipos: 1. Technical 2. Business 3. Administrative

1.3.2.8 Information Feedback Es el mecanismo de comparticin que permite al conocimiento y la inteligencia ser compartidos con otros data stores, segn sea apropiado. Aca se habla de una "Learning organization".

1.3.2.9 Information Workshop Es el conjunto de herramientas disponibles para los usuarios de negocio, para ayudarles en el uso de recursos de la Corporate Information Factory. Provee medios para organizar y categorizar los datos y otros recursos.

1.3.2.10 Operations and Administration Incluye el soporte crucial y las funciones de infraestructura necesarias para el crecimiento sostenible.

1.4 Rol y propsito de un Data Warehouse


1.4.1 Rol
No sirve nicamente como punto de integracin, debe servir tambin como punto de distribucin.

1.4.2 Caractersticas de un data warehouse.


Debe estar enfocado a la empresa. Ser utilizado primeramente por mltiples departamentos o muchas compaas o subdivisiones. Su diseo debe ser resistente al cambio, tanto como sea posible. Dado que es utilizado para almacenar datos masivos a travs de los aos, es poco deseable tener que descargar datos, redisear la base de datos entonces volver a cargar los datos. Para evitarlo, hay que pensar en trminos de procesos independientes, aplicaciones independientes y modelos de datos independientes de la tecnologa de BI.

Debe ser diseado para cargar cantidades enormes y masivas de datos en corto tiempo. La base de datos del dw debe ser creada con un mnimo de redundancia o duplicados de atributos o entidades. Para ello se emplean tcnicas de paralelizacin, carga de datos por bloque y API's nativos. Debe ser diseado para el procesamiento ptimo de la extraccin por los programas de entrega (delivery programs). Esto es crucial ya que de aqu se alimentan los data marts. Debe estar en un formato que permita el anlisis de muchas o todas las tecnologas de BI.

1.4.3 Tipos de Data Marts soportados


OLAP data mart. Estn diseados para apoyar el anlisis multidimensional realizado por las herramientas de software de OLAP. Exploration warehouse. Mientras que el comn de los data marts son diseados para soportar tipos especficos de anlisis y reporteo, el almacn de exploracin es construido para proveer navegacin exploratoria "ad hoc" a travs de los datos. Data-mining o statistical warehouse. Es un data mart especializado en dar a investigadores y analistas la habilidad de profundizar en relaciones conocidas o desconocidas de datos y eventos, sin tener nociones preconcebidas de dichas relaciones. Customizable analytical applications. Estas nuevas adiciones permiten la refinacin de aplicaciones de manera efectiva y econmica.

1.4.4 Extract Program

El programa de extraccin es el ms simple de todos los programas. Recorre a travs de un archivo o base de datos, utiliza un criterio de seleccin de datos y, encontrando los datos calificados para dicho criterio, transporta los datos hacia otro archivo o base de datos.

Debido a que el proceso de extraccin mueve datos lejos del alto rendimiento del OLTP, no hay conflictos en trminos de velocidad al momento de ser analizados en masa. Cuando los datos son movidos fuera del OLTP, lejos del procesamiento de transacciones, un cambio en el control ocurre. El usuario final posee los datos una vez que ha tomado control de ellos.

1.5 Problemas con una arquitectura naturalmente evolutiva

La arquitectura evolutiva presenta muchos retos, tales como: Credibilidad de los datos (Data credibility) Productividad (Productivity) Problemas para transformar datos en informacin (Inability to transform data into information)

1.5.1 Credibilidad de los datos (Data credibility)


La crisis es extensa y predecible. Por qu ?, bsicamente por 5 razones: 1. Los datos no tienen base de tiempo 2. La diferencia algortmica de los datos

3. Los niveles de extraccin 4. El problema de datos externos 5. No hay una fuente comn de datos desde el principio

1.5.2 Productividad (Productivity)


Ej. El diseador asigna la tarea que propone 3 cosas a realizar para producir un reporte: 1. Localizar y analizar los datos para el reporte. 2. Compilar los datos para el reporte. 3. Conseguir un programador/analista para realizar estas 2 tareas.

La siguiente tarea para producir el reporte es compilar los datos una vez localizados. El programa deber ser escrito de manera simple y debe obtener la informacin de distintas fuentes, esto es complicado por las siguientes razones: Muchos programas deben ser escritos. Cada programa deber modificado para requisitos particulares. Los programas atraviesan toda tecnologa que la compaa utiliza.

1.5.3 Problemas para transformar datos en informacin (Inability to transform data into information)
Poca integracin de datos

No hay material histrico

Cambio de estrategias

Algunas de las diferencias entre las dos:

Datos primitivos son datos utilizados para correr las operaciones da-a-da de la compaa. Datos derivados han sido resumidos o calculados para cumplir con las necesidades administrativas de la compaa. Datos primitivos pueden ser actualizados. Datos derivados pueden ser recalculados pero nunca actualizados directamente. Datos primitivos son datos primariamente "actuales". Datos derivados son a menudo datos histricos. Datos primitivos son operados por procedimientos repetitivos. Datos derivados son operados por heursticas, programas y procedimientos no repetitivos. Datos operativos son primitivos, datos DSS son derivados. Datos primitivos soportan funciones administrativas. Datos derivados soportan funciones directivas.

1.6 El ambiente de la arquitectura


1.6.1 Niveles

El ambiente departamental - algunas veces llamado nivel de data mart, nivel de OLAP, o nivel multidimensional del DBMS contiene informacin til para los distintos departamentos fsicos de una compaa.

Existe una base de datos para el departamento de marketing, una para el de contabilidad, otra para el actuarial, etc. El data warehouse es la fuente de todos estos datos departamentales. Mientras que el data mart ciertamente relaciona los datos encontrados en el nivel operacional o el data warehouse, los datos encontrados en la departamental o data mart son fundamentalmente diferentes de los datos en el datawarehouse, porque los datos del data mart estn denormalizados, resumidos y formados por los requerimientos de operacin de un solo departamento.

El nivel final de datos es el nivel individual. Los datos individuales son usualmente temporales y pequeos. Muchos anlisis heursticos son realizados a este nivel. Como regla, los niveles individuales de datos son asistidos por la PC. Executive information systems (EIS) tpicamente estn a este nivel.

1.6.2 Integracin de datos en el contexto de la arquitectura


No hay un solo punto desde la extraccin de datos del ambiente de OLTP hacia el datawarehouse, que no lleve integracin. Si la informacin llega al dw en un estado no integrado, no puede ser utilizada para ayudar a la vista corporativa de los datos (vista global), lo cual es esencial.

1.6.3 Extract/transform/load (ETL)


Software puede automatizar muchos de estos procesos tediosos. Adems, este proceso de integracin tiene que ser realizado solo una vez; pero de cualquier forma es necesario que los datos fluyan hacia el datawarehouse de manera integrada, no solamente aventada.

1.7 The Development Life Cycle

1.8 Patterns of Hardware Utilization

1.9 Monitoring the Data Warehouse Environment


Una vez que el datawarehouse es construdo, debe ser mantenido. Un componente principal del mantenimiento de un data warehouse es la administracin del rendimiento, que comienza monitoreando el ambiente del data warehouse. Algunos de los resultados importantes que son obtenidos al realizar el monitoreo son: Identificar qu crecimiento esta ocurriendo, dnde esta ocurriendo el crecimiento y en que porcentaje Identificar qu datos estn siendo utilizados Calcular el tiempo de respuesta que est teniendo el usuario final Determinar quin realmente est utilizando el data warehouse Especificar que cantidad de datos estn siendo utilizados por los usuarios finales Localizacin de dnde estn siendo utilizados los datos Reconocer que tnto esta siendo usado el data warehouse Examinar el nivel de uso del data warehouse Los perfiles de datos que pueden ser creados durante el proceso de monitoreo de datos son los siguientes: Un Un Un Un Un catlogo de todas las tablas en el warehouse catlogo del contenido de esas tablas perfil del crecimiento de las tablas en el data warehouse catlogo de los ndices disponibles para una entrada en las tablas catlogo de las tablas resumidas y las fuentes para dicho resumen

La necesidad de monitorear la actividad en el datawarehouse es ilustrada por las siguientes preguntas: Qu esta siendo accesado? Cundo? Por quin? Qu tan frecuente? En qu nivel de detalle? Cul es el tiempo de respuesta para la solicitud? En que punto del da es enviada la solicitud? Qu tan grande fue la solicitud? Fue terminada la solicitud o termin naturalmente?

Lectura: http://www.intelligententerprise.com/020726/512warehouse1_1.jhtml

You might also like