You are on page 1of 71

LIC.

NOEM BRAVO PRADO

1.- DATOS DE LA ASIGNATURA

Nombre de la asignatura: Carrera: Horas teora-horas prctica-crditos

Almacenamiento de Datos Proceso Analtico en Lnea Licenciatura en Informtica 4-2-10

el

2.- HISTORIA DEL PROGRAMA


Lugar y fecha de elaboracin o revisin Participantes Observaciones (cambios y justificacin)
Emisin del documento de Propuesta de Mdulos de Especialidad, para ISC y LI. Definicin de las retculas y elaboracin de los contenidos temticos correspondientes a las asignaturas del mdulo de la especialidad.

Instituto Tecnolgico de Celaya, Comisin de la Academia de el 10 enero 2005. Ingeniera en Sistemas Computacionales y Licenciatura en Informtica Instituto Tecnolgico de Celaya Academia de Ingeniera en del 27 de octubre al 30 Sistemas Computacionales y noviembre 2006. Licenciatura en Informtica.

3.- UBICACIN DE LA ASIGNATURA

a). Relacin con otras asignaturas del plan de estudio


ANTERIORES Asignaturas Fundamentos de base de datos Taller de base de datos Todos Temas POSTERIORES Asignaturas Ninguna. Temas

Todos

4.- OBJETIVO(S) GENERAL(ES) DEL CURSO (competencia especfica a desarrollar en el curso)

Aprender cuestiones relativas a la planificacin, diseo, construccin, carga y mantenimiento de un Data Warehouse.

5. CRITERIOS DE EVALUACIN
La evaluacin debe ser continua cotidiana por lo que se debe considerar el desempeo en cada una de las actividades de aprendizaje, haciendo especial nfasis en: Examen Tareas Ejercicios en clase Exposicin en clase Trabajo final (proyecto) 60% 10% 10% 10% 10% ____ 100%

Nota: Para que el alumno tenga derecho a examen deber tener el 80% de asistencia a clases, es decir, de 10 asistencias solamente pueden faltar 2.

6.- TEMARIO
Unidad 1 Temas Introduccin. Subtemas

1.1 Introduccin al concepto Data Warehousing. 1.2 Sistemas de informacin.

1.3 Caractersticas DataWarehouse.


1.4 Estructura Warehouse. del

de

un
Data

Unidad

Temas

Subtemas

Arquitectura de un 2.1 Elementos constituyentes de una Data Arquitectura Data Warehouse. Warehouse. 2.2 Operaciones en un Data Warehouse. 2.3 Evolucin del Depsito. 2.4 Transformacin de Datos y Metadata. 2.5 Flujo de Datos
8

Unidad
3

Temas

Subtemas
3.1 Medios de Almacenamiento para Informacin Antigua.

Construccin de un data warehouse

3.2 Usos del Data Warehouse.


3.3 Consideraciones Adicionales. 3.4 Ejemplo Warehouse. 3.5 Excepciones Warehouse. de en un el Data Data

Unidad

Temas

Subtemas

Procesamientos de 4.1 Definiciones y conceptos. anlisis en lnea (OLAP). 4.2 Requerimientos funcionales de los sistemas OLAP. 4.3 Operadores para el manejo de cubos de datos. 4.4 Diseo de consultas a base de datos multidimencionales. 4.5 Utilizacin de herramientas para OLAP.

Unidad

Temas

Subtemas

Aplicaciones

5.1 Organizacin de un proyecto. 5.2 Desarrollo de un proyecto. 5.3 Confiabilidad de los Datos.

6.- APRENDIZAJES REQUERIDOS

Dominio de diseo de bases de datos relacionales.


Dominio del lenguaje SQL.

Habilidad de programacin en un lenguaje orientado a objetos.


Conocimiento de la arquitectura cliente-servidor.

Habilidades para utilizar software de sistemas.

7. FUENTES DE INFORMACIN (BIBLIOGRAFA)


1. Hoffer, Jeffrey A., et. al., (2003). Modern Databases Management 6a. ed. Ed. Prentice Hall, USA. 2. Date, C.J. Introduccin a las bases de datos, 7. ed. Ed. Addison Wesley. 3. Jarke, M. et.al. Fundamentals of data warehouses. Ed. Springer Verlag. 4.Lewis, William J. Data Warehousing and e-commerce. Ed. Prentice Hall.

8. REFERENCIA EN INTERNET
http://www.conricyt.mx

Usuario:esttecomatln1

Integradoras

Gale

Pasword:266ittecoit

UNIDAD I

Investigar y conocer las tecnologas de base de datos para el soporte en la toma de decisiones

INTRODUCCIN
Los seres humanos han usado una variedad asombrosa de materiales y medios para guardar informacin, tcnicamente llamados medios de grabacin o almacenamiento de datos cualquier substancia que pueda ser sistemticamente transformada se puede usar para grabar informacin. Piedras, vasijas y sogas anudadas son los ms antiguos, pero papel ha sido el medio de grabacin utilizado por dos milenios. No es sorprendente que las primeras formas de la mecanizacin de almacenamiento de datos se haya usado el papel. Se picaron agujeros en tarjetas del papel a las cuales se les llam punch cards. Se us tambin cintas de papel. Debido a que el papel era voluminoso y se deteriora rpidamente, se abandon en favor a medios de almacenamiento magnticos. Los medios de almacenamiento magnticos usan un metal o plstico, en forma de una tarjeta, disco, o cinta, a la cual se le ha aplicado un xido metlico. Existen ciertos problemas y limitaciones en el uso de medios de almacenamiento magnticos, y hoy en da existe una gran variedad de medios de almacenamiento de datos que utilizan otras tcnicas que estn basadas en la difraccin de las ondas de luz. Existen muchas variaciones de este sistema, las que hacen posible almacenar una gran cantidad de datos digitales en un muy pequeo y econmico formato.

1.1 INTRODUCCIN AL CONCEPTO DATA WAREHOUSING Almacenes de datos (Data warehouse) El nivel competitivo alcanzado en las empresas les ha exigido desarrollar nuevas estrategias de gestin. Esta necesidad de obtener informacin para una amplia variedad de individuos es la principal razn de negocios que conduce al concepto de Data warehouse. El DW (de ahora en adelante los trminos DataWarehouse, Data warehousing y DW sern utilizados en forma indistinta) convierte entonces los datos operacionales de una organizacin en una herramienta competitiva, por hacerlos disponibles a los empleados que lo necesiten para el anlisis y toma de decisiones.

1.1 INTRODUCCIN AL CONCEPTO DATA WAREHOUSING

Al manejar eficientemente la informacin de cada rea de la empresa, se pueden tomar mejores decisiones y as efectuar acciones apropiadas y finalmente conseguir un mejor control sobre la produccin empresarial.

El objetivo principal es satisfacer los requerimientos de informacin internos de la empresa para una mejor gestin, con eficiencia y facilidad de acceso.

1.1 INTRODUCCIN AL CONCEPTO DATA WAREHOUSING

Existen muchas definiciones para el DW, la ms conocida fue propuesta por Inmon[MicroSt96] (considerado el padre de las Bases de Datos) en 1992: Un DW es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales. En 1993, Susan Osterfeldt[MicroSt96] publica una definicin que sin duda acierta en la clave del DW: Yo considero al DW como algo que provee dos beneficios empresariales reales: Integracin y Acceso de datos. DW elimina una gran cantidad de datos intiles y no deseados, como tambin el procesamiento desde el ambiente operacional clsico.

1.2 SISTEMAS DE INFORMACIN Inicialmente la finalidad de los sistemas de informacin era recopilar informacin sobre una parcela del mundo para ayudar en la toma de decisiones: recuentos de cereales en Babilonia, de cacao por los pipiles, censos civiles y militares romanos o chinos, libros contables de rabes o sefardes, Actualmente, con la informatizacin de las organizaciones y la aparicin de aplicaciones de software operacionales sobre el sistema de informacin, la finalidad principal de los sistemas de informacin es dar soporte a los procesos bsicos de la organizacin (ventas, produccin, personal...).

Una vez satisfecha la necesidad de tener un soporte informtico para los procesos bsicos de la organizacin (sistemas de informacin para la gestin).

Las organizaciones exigen nuevas prestaciones de los sistemas de informacin (sistemas de informacin para la toma de decisiones).

El almacn de datos es ahora el sistema de informacin central en todo este proceso.

1.3 CARACTERSTICAS DE UN DATA WAREHOUSE

Un almacn de datos es una coleccin de datos:


orientada a un dominio integrada no voltil variante en el tiempo para ayudar en la toma de decisiones [Immon 1992, 1996]

UN AD (ALMACN DE DATOS) O DW EST ORIENTADO HACIA LA INFORMACIN RELEVANTE DE LA ORGANIZACIN:

SE DISEA: PARA CONSULTAR EFICIENTEMENTE INFORMACIN RELATIVA A LAS ACTIVIDADES BSICAS DE LA ORGANIZACIN: VENTAS, COMPRAS, PRODUCCIN, ETC.

UN AD (DW) ES INTEGRADO: INTEGRA DATOS RECOGIDOS DE: DIFERENTES SISTEMAS OPERACIONALES DE LA ORGANIZACIN. Y/O FUENTES EXTERNAS.

UN AD ES VARIABLE EN EL TIEMPO: LOS DATOS SON RELATIVOS A UN PERIODO DE TIEMPO Y DEBEN SER INCREMENTADOS PERIDICAMENTE.

UN AD ES NO VOLTIL:
LOS DATOS ALMACENADOS NO SON ACTUALIZADOS, SLO SON INCREMENTADOS.

UN AD ES NO VOLTIL:

ACTIVIDAD:

Definir el tema del proyecto, as como el lugar y reas de la organizacin.

UN AD PROVEE VENTAJAS PARA LAS ORGANIZACIONES:

RENTABILIDAD DE LAS INVERSIONES REALIZADAS PARA SU CREACIN.


AUMENTO DE LA COMPETITIVIDAD EN EL MERCADO.

AUMENTO DE LA PRODUCTIVIDAD DE LOS TCNICOS DE DIRECCIN.

UN AD GENERA PROBLEMAS PARA LAS ORGANIZACIONES:

INFRAVALORACIN DEL ESFUERZO NECESARIO PARA SU DISEO Y CREACIN.


INFRAVALORACIN DE LOS RECURSOS NECESARIOS PARA LA CAPTURA, CARGA Y ALMACENAMIENTO DE LOS DATOS. INCREMENTO CONTINUO DE LOS REQUISITOS DE LOS USUARIOS. PRIVACIDAD DE LOS DATOS.

1.4 ESTRUCTURA DEL DATA WAREHOUSE

Los data warehouse tienen una estructura distinta. Hay niveles diferentes de esquematizacin y detalle que delimitan el data warehouse. En la figura, se muestran los diferentes componentes del data warehouse y son:
Detalle de datos actuales Detalle de datos antiguos Datos ligeramente resumidos Datos completamente resumidos Meta data

Por ejemplo:

ACTIVIDAD:

Realizar un cuadro comparativo de las caractersticas, ventajas y desventajas de las bases de datos operacionales y de los almacenes de datos (data warehouse), e identifica las diferencias entre ellas.

Ejercicio:
Definir el tema para poder optimizar las tareas de una institucin, tienda, aeropuertos, etc., de modo que se logre resolver algn tipo de problema o tarea que se viene realizando manualmente. Entonces, para empezar el proyecto es necesario aterrizar en un tema del mundo real representndolo a travs del modelo conceptual y lgico. Por otro lado, observa la imagen, de manera que se vaya empezando a trabajar sobre un almacn de datos y documentando tu proyecto, porque al final como ya se mencione anteriormente t trabajo ser tu calificacin.

se entiende...?

Entonces, a trabajar se ha dicho jvenes ilustres.

Recuerden que de lo que ya han trabajado en cursos anteriores vayamos trabajando la primera parte para poder lograr un almacn de datos, como se nos esta indicando en la imagen

Ejemplo:

Piensen y vean

Diferencias entre el modelo lgico y el conceptual


El modelo conceptual es independiente del DBMS que se vaya a utilizar. El lgico depende de un tipo de SGBD en particular El modelo lgico est ms cerca del modelo fsico, el que utiliza internamente el ordenador El modelo conceptual es el ms cercano al usuario, el lgico es el encargado de establecer el paso entre el modelo conceptual y el modelo fsico del sistema. Algunos ejemplos de modelos conceptuales son: Modelo Entidad Relacin Modelo RM/T Modelos semnticos

Ejemplos de modelos lgicos son:


Modelo relacional Modelo Codasyl Modelo Jerrquico

MUCHAS GRACIAS

UNIDAD II

ACTIVIDAD DE ESTA UNIDAD:


DISEAR LA ARQUITECTURA DEL ALMACN DE DATOS DE SU PROYECTO
Almacn de Datos

Herramienta de Inteligencia de negocio para la ayuda a la toma de decisiones

INTRODUCCIN
Un almacn de Datos es un sistema que debe dar una respuesta a casi cada pregunta con respeto al funcionamiento de la empresa. Una Bodega de datos es una base de datos que almacena informacin, la cual se construye a partir de datos bsicos extraidos de otras bases de datos (operacionales). El motivo para producir informacin de una bodega de datos es ayudar a la toma de decisiones con la capacidad de realizar en tiempo real anlisis. Esta informacin tiene que ser accesible rpidamente, pero no es tan importante que sea lo mas actual posible y al nivel de detalle muy bajo. Normalmente un almacn de datos se carga diariamente durante la noche cuando los sistemas fuente no estn sobrecargados. El objeto mayor de la arquitectura de un almacn de datos es guardar datos histricos y agregados. Las instrucciones SQL ejecutadas con mayor frecuencia son SELECT .

Hay tres arquitecturas del diseo sistemas de almacenes de datos:

de

Esquema de estrella

Esquema copo de nieve


Esquema constelacin

Arquitectura de un Almacn de Datos

A fin de comprender cmo se relacionan todos los componentes involucrados en un almacn de datos, es esencial tener una Arquitectura Data Warehouse. Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA) es una forma de representar la estructura total de datos, comunicacin, procesamiento y presentacin, que existe para los usuarios finales que disponen de una computadora dentro de la empresa.

Arquitectura de un Almacn de Datos

La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo Nivel de acceso a la informacin Nivel de acceso a los datos Nivel de directorio de datos (Metadata) Nivel de gestin de proceso Nivel de mensaje de la aplicacin Nivel de data warehouse Nivel de organizacin de datos

2.2 OPERACIONES EN UN DATA WAREHOUSE


En la Figura , se muestran algunos de los tipos de operaciones que se efectan dentro de un ambiente data warehousing.

Funciones ETL (extraccin, transformacin y carga)

Los procesos de extraccin, transformacin y carga (ETL) son importantes ya que son la forma en que los datos se guardan en un almacn de datos. Implican las siguientes operaciones:
Extraccin. Accin de obtener la informacin deseada a partir de los datos almacenados en fuentes externas.

Transformacin. Cualquier operacin realizada sobre los datos para que puedan ser cargados en el data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacn de datos objetivo normal.

Por ejemplo:
Creacin. Escritura de todos sus registros. Es la primera operacin que sufrir el almacn de datos de datos. Implica la eleccin de un entorno descriptivo que permita un gil, rpido y eficaz tratamiento de los datos. Por lo tanto, la creacin exige organizacin, estructura, localizacin o reserva de espacio en el soporte de almacenamiento, transferencia del archivo o datos del soporte antiguo al nuevo.

Clasificacin. Reubicacin de los registros de tal forma que queden ordenados segn determinados criterios. Una operacin muy importante en los datos de un almacn es la clasificacin u ordenacin (sort, en ingls). Esta clasificacin se realizar de acuerdo con el valor de un campo especfico, pudiendo ser ascendente (creciente) o descendente (decreciente): alfabtica o numrica.

Reorganizacin de los datos. Las operaciones de los datos modifican la estructura inicial o la ptima de un almacn de datos.

Insercin de un registro nuevo en el almacn de datos.

Consulta. Lectura de todos sus registros. Es la operacin que permite al usuario acceder al archivo de datos para conocer el contenido de uno, varios o todos los registros.

Acceso de usuario final Los usuarios acceden al data warehouse por medio de herramientas de productividad basadas en GUI

Plataforma del data warehouse La plataforma para el data warehouse es casi siempre un servidor de base de datos relacional.

Datos Externos Dependiendo de la aplicacin, el alcance del data warehouse puede extenderse por la capacidad de acceder a la data externa. Por ejemplo, los datos accesibles por medio de servicios de computadora en lnea y/o va Internet, pueden estar disponibles a los usuarios del data warehouse.

ACTIVIDAD DE CLASE Y TAREA: CONTINUAR CON SU PROYECTO

2.3 EVOLUCIN DEL DEPSITO

Construir un data warehouse es una tarea grande. No es recomendable emprender el desarrollo del data warehouse de la empresa como un proyecto cualquiera. Ms bien, se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecutivos que permitan un proceso de implementacin ms gradual e iterativo.
No existe ninguna organizacin que haya triunfado en el desarrollo del data warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo han logrado luego de un desarrollo paso a paso. Los pasos previos evolucionan conjuntamente con la materia que est siendo agregada.

2.4 TRANSFORMACIN DE DATOS Y METADATA


La transformacin se encarga de las inconsistencias en los formatos de datos y la codificacin, que pueden existir dentro de una base de datos nica y que casi siempre existen cuando mltiples bases de datos contribuyen al data warehouse.

Se requiere una planificacin cuidadosa y detallada para transformar datos inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos en el data warehouse.

Metadata es la informacin sobre los datos que se alimenta, se transforma y existe en el data warehouse. Metadata es un concepto genrico, pero cada implementacin de la metadata usa tcnicas y mtodos especficos.

Estos mtodos y tcnicas son dependientes de los requerimientos de cada organizacin, de las capacidades existentes y de los requerimientos de interfaces de usuario. Hasta ahora, no hay normas para la metadata, por lo que la metadata debe definirse desde el punto de vista del software data warehousing, seleccionado para una implementacin especfica.

La metadata sirve, en un sentido, como el corazn del ambiente data warehousing.

2.5 FLUJO DE DATOS


Existe un flujo de datos normal y predecible dentro del data warehouse. Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se muestra. Se queda all y se usa hasta que ocurra uno de los tres eventos siguientes:

Sea eliminado Sea resumido

Sea archivado

MUCHAS GRACIAS

You might also like