You are on page 1of 120

CEC-EPN 2012

Instructor: Ing. Mauricio Murillo Rosero

Objetivos

Instrucciones SQL

Cronograma

Ejercicios

Conceptos

Comprender los conceptos generales de Data Warehousing (DWH) e Inteligencia de Negocios (BI) Comprender y aplicar la metodologa de Kimball para construir sistemas de DWH/BI Conocer la plataforma de BI Pentaho Construir procesos ETL (extraccin, transformacin y carga) usando la herramienta PDI (Pentaho Data Integration)

Realizar actividades de Inteligencia de Negocios usando las herramientas de la plataforma Pentaho Construir reportes usando PRD (Pentaho Report Designer) Construir cubos de anlisis usando PSW (Pentaho Schema Workbench)

Mdulo Mdulo I. Conceptos Generales

Contenido Inteligencia de Negocios (BI) Arquitecturas de BI Plataformas de BI Data Warehousing Arquitectura Flujo de Datos Anlisis y comprensin de la naturaleza de los datos Definicin de Requerimientos

Tiempo Aprox. (h) 2

Mdulo II. Caso de Estudio

Mdulo

Contenido

Tiempo Aprox. (h) 2

Mdulo III. Tcnicas de Dimensiones Modelamiento de Tablas de Hechos Datos Modelo Dimensional Mdulo IV. Diseo del Data Warehouse para el Caso de Estudio Mdulo V. Plataforma de BI Pentaho CE Modelo Lgico de Datos Modelo Fsico de Datos Arquitectura Instalacin y Configuracin Herramientas

Mdulo

Contenido

Tiempo Aprox. (h) 10

Mdulo VI. Actividades ETL Construccin del Data Uso de Spoon Warehouse usando PDI Creacin de Transformaciones Creacin de Trabajos Calendarizacin de Trabajos de Carga Mdulo VII. Construccin de reportes usando PRD (Pentaho Report Designer) Estructura de reportes Uso de parmetros Diseo y formato Agrupacin y agregacin de datos

Mdulo Mdulo VIII. Construccin de Cubos de Anlisis OLAP usando PSW (Pentaho Schema Workbench)

Contenido Arquitectura Pentaho Analysis Services Creacin de esquemas Mondrian Visualizacin de cubos Mondrian con JPivot

Tiempo Aprox. (h) 5

Inteligencia de Negocios = BI BI corresponde al conjunto de actividades de anlisis de datos histricos Permite comprender la situacin pasada, presente y futura de una compaa Apoya a la toma de decisiones estratgicas, tcticas y operativas de una compaa BI no es Data Warehousing

De acuerdo al nivel y a la complejidad de anlisis, las actividades de inteligencia de negocios pueden ser agrupadas en tres categoras:
1. Reporteo 2. Procesamiento analtico en lnea (OLAP) 3. Minera de datos

10

Anlisis Descriptivo
Reporteo (Reportes, Tableros) Anlisis OLAP (Cubos)

Anlisis Predictivo
Minera de Datos

Pasado

Presente

Futuro

tiempo (t)

Objetivo
Resolver rompecabezas del negocio

Objetivo
Resolver misterios

11

La principal fuente de datos para las actividades de anlisis de BI es la bodega de datos (DWH, Data Warehouse) El conjunto de procesos que se encargan de crear, recuperar y consolidar los datos de los sistemas fuente al DWH se conoce como Data Warehousing

12

Un DWH es un sistema que recupera y consolida datos peridicamente de los sistemas fuente a un almacn de datos dimensional o normalizado. Usualmente guarda aos de historia y es consultado para inteligencia de negocios u otras actividades analticas Un Data Mart (DM) es un DWH para un tema o aplicacin especfica (Ventas, Reclamos, etc.)

13

Datos de Entrada
Recupera Datos

Informacin de Salida

DWH
Consolida Datos Sistemas Fuente Bodega de Datos

MATERIA PRIMA

PROCESO

PRODUCTO

Inteligencia de Negocios y Actividades Analticas

14

Toda la informacin est un solo lugar (Una sla fuente de la verdad) Informacin actualizada Acceso rpido No hay lmites de espacio (Ej. Archivos XLS) Contiene toda la historia de la compaa Fcil de comprender (Modelada en trminos del negocio) Contiene definiciones claras y uniformes Datos estandarizados

15

Problemas de calidad de datos, entre ellos:


Datos Duplicados Datos Incompletos Datos Incorrectos Datos Conflictivos Datos Faltantes (Falla de Integridad Referencial) Valores nulos

Volumen de datos (1Pb) y rendimiento (Sol. ndices, ndices binarios, particiones, agregaciones, vistas materializadas)

16

Captura de Cambios de Datos (CDC)


Consiste en identificar qu datos han sido insertados, modificados o borrados Puede ser Intrusiva (Triggers) y No Intrusiva (PDI, Merge Rows)

Requerimientos cambiantes (Un DWH Evoluciona)

17

Arquitectura

Sistema de Software

Monoltica, Cliente/Servidor, 3 Capas, N Capas Java, MS .NET

Plataforma

Arquitectura

Flujo de Datos SAP BusinessObjects, Oracle Hyperion, IBM Cognos, Microsoft, Pentaho

Sistema DWH/BI

Plataforma

18

19

Control y Auditoria

Fbrica de Informacin Corporativa (CIF)

METADATOS

Aplicacin BI

Data Mart 1 Aplicacin BI Sistemas Fuente ETL + Calidad de Datos DWH Data Mart N ETL

Data Marts Dependientes

rea de Almacenamiento

ETL

Enfoque TOP - DOWN


20

Control y Auditoria

Arquitectura Multidimensional (MD)


METADATOS

Data Marts Independientes

Aplicacin BI Sistemas Fuente ETL rea de Almacenamiento (STAGE) ETL + Calidad de Datos Data Mart 1

Aplicacin BI Data Mart N

Enfoque BOTTOM - UP

Data Warehouse Bus


21

Sirve para copiar nicamente los datos que se requiere tal y como se encuentran en la fuente No afecta el rendimiento de la base de datos fuente Permite trabajar en un subconjunto de datos Permite ordenar e indexar los datos para optimizar los procesos ETL

22

Metadatos: datos sobre los datos Linaje de datos (Data Lineage): informacin sobre el origen y destino de los datos Tiempo de los datos (Data Timeliness): informacin sobre cundo cambi los datos y que viejos son Modelo de Datos

23

Caracterstica

Fbrica de Informacin Corporativa - Inmon

Arquitectura Multidimensional - Kimball

Tcnica de modelamiento de datos Enfoque Vista empresarial de datos Provee datos detallados Provee datos sumarizados Tiempo de implantacin Costo de implantacin

Relacional y Dimensional

Dimensional

TOP - DOWN Total S S Alto Alto

BOTTOM UP Parcial S S Bajo Bajo

24

Planeacin del Proyecto

Diseo Tcnico de la Arquitectura

Seleccin e Instalacin del Producto

Crecimiento

Definicin de Requerimientos del Negocio

Modelamiento Dimensional

Diseo Fsico

Diseo y Desarrollo ETL

Implantacin

Especificacin de Aplicaciones de BI

Desarrollo de Aplicaciones de BI

Mantenimiento

Gestin del Proyecto

25

Conocer las fuentes de datos, alcance, preguntas del negocio a responder, formatos de entrega de informacin, etc. Por lo menos en sta fase documentar lo siguiente:
Entrada Tema Audiencia Propietario Necesidad del Usuario Descripcin rea o proceso de negocio Para quin es la solucin Quin ser el propietario de la solucin Qu necesitan los usuarios y cmo usarn la solucin

26

Entrada Preguntas a responder Beneficios del negocio Mecanismo de entrega Fuentes de informacin Fuentes de datos Estimacin

Descripcin Preguntas que sern respondidas por la solucin Qu ganar el negocio construyendo el DWH Emails, Grficos, Reportes, Tableros de Mando, Cubos de Datos, etc. A qu personas se puede preguntar sobre el negocio De qu sistemas y qu bases de datos se obtendrn los datos Estimacin de tiempo para desarrollar la solucin

27

Modelo Estrella El centro de una estrella consiste de una tabla conocida como tabla de HECHOS y los puntos de la estrella se los conoce como tablas de DIMENSIONES

28

Modelo Estrella

29

Dimensiones Una dimensin representa informacin de una entidad del negocio (Ej. Cliente, Producto, Vendedor, Local) Cualitativas Hechos Un hecho representa un evento del negocio (Ej. Valor Vendido, Comisin, Valor Flete) Cuantitativos Las filas son almacenadas al nivel ms bajo de granularidad
30

Para poder consultar un modelo estrella se usa el siguiente SQL SELECT COL1, COL2,, COLN FROM HECHOS H JOIN DIM_1 D1 ON H.FK_DIM1 = D1.PK_DIM1 JOIN DIM_2 D2 ON H.FK_DIM2 = D2.PK_DIM2

31

Matriz de Hechos y Dimensiones Sirve para identificar dimensiones y hechos. Adems, para identificar Dimensiones Conformadas / Compartidas
Tiempo rdenes de compra Inventario rdenes de clientes Devoluciones X X X X X X Cliente Producto X X X X Distribuidor X X

32

Usar claves subrogadas (SK)


1 Dimensin, 1 Clave con tipo de dato numrico) Puede ser generada por una secuencia de la base de datos o por la herramienta ETL

Usar convenciones de nombres y de tipos


Prefijo STG_ HIS_ DIM_ FACT_ AGG_ Alcance Para tablas de almacenamiento temporal Para tablas de archivos histricos Para tablas de dimensiones Para tablas de hechos Para tablas de agregaciones

33

Granularidad y Agregacin
Granularidad corresponde al nivel de detalle almacenado en el DWH Almacenar los datos al nivel ms bajo de detalle posible Las agregaciones mejoran el rendimiento

Usar columnas de auditoria


Hora y fecha de insercin Proceso de insercin Hora y fecha de actualizacin Proceso de actualizacin

34

Las 5 funciones bsicas de agregacin de SQL son: Mximo: max() Mnimo: min() Conteo: count() Suma: sum() Promedio: avg()

35

Modelar una dimensin para el tiempo y otra para la fecha


Usar claves en el formato AAAAMMDD

Tener 1 registro de DESCONOCIDO (N/D) en cada dimensin en vez de NULL


SK 0 Nombre Desconocido Telfono Desconocido DIM_CLIENTE Fecha Nacimiento 01/01/1970

36

La tcnica de Slowly Changing Dimensions permite identificar y guardar qu registros cambiaron. Existen los siguientes tipos:
Tipo SCD Tipo 1 SCD Tipo 2 SCD Tipo 3 Descripcin Sobrescribe el registro. Soportada por PDI Agrega un registro con columnas que indican su validez. Soportada por PDI Consiste en agregar una columna por cada una que se quiera registrar el cambio

37

Sobrescribe el registro de una dimensin


Situacin Actual SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito

Nueva Situacin SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Cuenca

38

Agrega un registro a la dimensin y 3 columnas: vlido desde, vlido hasta y versin


Situacin Actual
SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito Vlido Desde 2012-01-01 Vlido Hasta 2099-12-31 1 Versin

Nueva Situacin
SK 1 2 Identificacin 1728192211 1728192211 Nombre Juan Prez Juan Prez Ciudad Quito Cuenca Vlido Desde 2012-01-01 2012-01-25 Vlido Hasta 2012-01-25 2099-12-31 0 1 Versin

39

Agrega una columna por cada cambio


Situacin Actual SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Quito Ciudad Antigua Quito

Nueva Situacin SK 1 Identificacin 1728192211 Nombre Juan Prez Ciudad Cuenca Ciudad Antigua Quito

40

Dimensiones Monstruo (Particionamiento) Dimensiones Degeneradas (Nmero pliza, nmero pedido, nmero de reclamo) Copos de Nieve (Snowflake) Tablas de Hechos Consolidadas (Presupuesto + Actual) Modelo Constelacin

41

PSW PRD CDF

PDI

WEKA

42

Plataforma de BI Open Source Provee de herramientas de apoyo para todo el proceso de construccin del sistema DWH/BI Existen dos ediciones de Pentaho: Community (CE) y Enterprise (EE) La versin CE es totalmente Open Source orientada al aprendizaje y PYMES Pentaho puede ser descargado del siguiente link: http://sourceforge.net/projects/pentaho/files/

43

Herramienta Pentaho BI Server

Versin 3.8.0

Descripcin Servidor Central de Inteligencia de Negocios, Portal Web de Entrega de Informacin Organizacin de soluciones, creacin de xaction (Acciones de Secuencias) Creacin y ejecucin de procesos ETL Creacin y publicacin de metadatos para reportes Creacin y publicacin de reportes Creacin y publicacin de cubos para anlisis OLAP

Pentaho Design Studio (PDS)

4.0.0

Pentaho Data Integration (PDI) Pentaho Metadata Editor (PME) Pentaho Report Designer (PRD) Pentaho Schema Workbench (PSW)

4.2.1 4.1.0 3.8.2 3.3.0

44

45

46

47

Integracin de Datos: conjunto de actividades para llenar el DWH La integracin de datos se descompone 3 actividades
Extraccin: Adquirir datos de 1 o ms fuentes Transformacin: Cambiar la forma y contenido de los datos Loading (Carga): cargar los datos en los repositorios y el DWH

48

Actividades de Extraccin Captura de cambio de datos (CDC) Almacenamiento temporal (Data Staging) Actividades de Transformacin Validacin de datos Limpieza de datos Decodificar y Renombrar (1->S, 0->No) Agregaciones Gestin y generacin de claves (SK)

49

Actividades de Carga (Loading) Carga de Tabla de Hechos Carga de tablas temporales Carga y mantenimiento de Tablas de Dimensiones

50

Las soluciones de PDI son construidas sobre 2 tipos diferentes de objetos:


Transformaciones Trabajos (Jobs)

El corazn de PDI es el motor de integracin de datos de Pentaho (Data Integration Engine) PDI contiene las siguientes herramientas
Spoon: GUI para crear transformaciones y trabajos Kitchen: Comandos para correr trabajos Pan: Comandos para correr transformaciones Karte: Ejecutar transformaciones y trabajos de forma remota
51

52

Herramienta grfica para crear, editar y publicar reportes al servidor de BI de Pentaho Puede usar como fuente modelos de metadatos Los reportes son almacenados usando el formato .prpt (Pentaho Report) Basado en bandas y muy similar a SAP Crystal Reports

53

Las secciones (bandas) de un reporte en PRD son: Page Header/Footer: Cualquier contenido de sta seccin ser visto en cada pgina del reporte (Logos, Fecha, Nro. Pgina, etc.) Report Header/Footer: Cualquier contenido de sta seccin se mostrar una sola vez (Parmetros, Ttulo, Totales) Group Header/Footer: Se tiene por lo menos 1 grupo (Etiquetas, Subtotales)
54

Details: Aqu van las filas individuales del resultado de una consulta. Tiene cabecera y pi de pgina No Data: Sirve para mostrar informacin cuando el resultado de la consulta est vaco Watermark: Marca de agua que ser impresa como fondo en cada pgina del reporte Para ocultar/mostrar bandas cambiar la propiedad hide-on-canvas que se encuentra en Attributes
55

Elemento label text-field number-field date-field

Descripcin Texto esttico, etiquetas de columna Valores de texto de un conjunto de datos Valores numricos de una conjunto de datos Valores de fecha de un conjunto de datos

message-field Puede combinar texto, campos y funciones (Cliente: ${nombre} ${apellido}) image-field image ... Muestra imgenes desde un conjunto de datos Muestra una imagen local o desde una URL El resto sirven para crear grficos, bandas, subreportes, etc.

56

PRD puede tener 1 o n Data Sets pero slo 1 Data Set activo Comnmente el Data Set es una consulta a la base de datos a travs de JDBC Es posible crear la consulta (Query) de forma grfica (SQLeonardo) o escribiendo el SQL El Data Set puede ser obtenido tambin a travs de una consulta a los metadatos

57

Para agregar un parmetro, en la seccin Data hacer clic en Add a New Master-report Parameters Los parmetros puede ser trados de la base de datos (JDBC) o creados manualmente (Table) Para valores simples en la condicin WHERE de una consulta colocar = ${nombreparam} Para valores mltiples colocar IN (${nombreparam})
58

El Row-Banding permite manejar 1 color diferente para las filas pares y otro para las impares Para habilitarlo ir a Format Row-Banding Seleccionar los colores y colocar el estado como Invisible
Invisible Color Visible Color

59

Grupos, cabeceras y resmenes Un Grupo permite organizar contenido en diferentes niveles En PRD siempre se crea un grupo por defecto Para editar grupos (Edit Groups) Es necesario ordenar los datos en las consultas (ORDER BY)

60

Para acceder a la funciones ir a Data Functions Las funciones de agregacin sirven para realizar funciones de agregacin sobre los datos de un grupo Las funciones son Globales (Summary, Grupos) y de Ejecucin (Running, Subgrupos) Deben tener un nombre nico Algunas funciones son Page of Pages, Sum, Count, Maximum, Minimum
61

Para publicar un reporte en el servidor de BI de Pentaho, se tiene que ir a File Publish URL: http://localhost:8080/pentaho Ingresar con el usuario Administrador Escoger la ubicacin dentro de la solucin Ingresar la clave de publicacin (Publish Password) En el portal web de Pentaho, refrescar los metadatos Herramientas Actualizar Actualizar Metadata de Reporte
62

Pentaho Analysis Services (PAS) provee las capacidades OLAP a la plataforma Pentaho PAS est compuesto por 4 componentes
1. JPivot: interfaz grfica para trabajar con cubos OLAP 2. Mondrian ROLAP Engine: motor ROLAP 3. Schema Workbench: Herramienta visual para disear y probar cubos 4. Aggregate Designer: Herramienta visual para generar tablas agregadas

63

Esquema: Archivo XML, describe 1 o ms cubos multidimensionales

64

Multi Dimensional eXpressions Lenguaje creado para consultar bases de datos OLAP Estndar de facto desarrollado por Microsoft MDX es al modelo dimensional como SQL es al modelo relacional

65

Cubo Un cubo es una coleccin de mltiples Dimensiones


Tupla (Interseccin Dim.)

MEDIDAS: Ventas Comisiones Etc.

Jos Quiroz Pedro Ponce

Cliente

Juan Prez

66

Analoga con el Modelo Estrella Dimensiones Cubo = Dimensiones Modelo Estrella Medidas Cubo = Hechos Modelo Estrella Visualizacin de un Cubo Se lo visualiza como una tabla cruzada (crosstab) o tabla pivot

67

Jos Quiroz Pedro Ponce

Cliente

Juan Prez

Cubo Representado como Tabla Cruzada

Nokia
2010 2011 2012 2010

LG
2011 2012 2010

Samsung
2011 2012

Juan Prez Jos Quiroz Pedro Ponce X

68

Jerarquas Las dimensiones de un cubo son organizadas en 1 o ms jerarquas (Hierarchy) Estructura tipo rbol Permite retraer datos del cubo de diferentes niveles de agregacin Se pueden tener mltiples jerarquas Ejemplo: Ao, Semestre, Mes (Dimensin Fecha)
69

NIVELES
TODOS

MIEMBROS

Todas Fechas Relacin Padre / Hijo

ANIO SEMESTRE MES

2010

2011

2012

S1

S2

S1

S2

S1

S2

10

11

12

[FECHA].[MES].[2] MDX
70

Conexin a la base de datos ir a Options Connection... A travs de File New JDBC Explorer se podr visualizar las tablas y columnas del DWH Para crear un nuevo esquema ir a File New Schema Colocar un nombre que no tenga espacios en blanco ni caracteres especiales y guardar En View View XML se podr visualizar la representacin XML del esquema Slo se permite 1 esquema por conexin

71

Las tareas para crear un cubo OLAP usando PSW pueden resumirse en las siguientes: Crear un esquema Crear un cubo
Escoger la tabla de hechos Agregar medidas

Crear dimensiones
Editar la jerarqua por defecto Definir niveles de jerarqua Opcionalmente, agregar ms dimensiones

72

Creacin de un cubo Para crear un cubo, clic derecho sobre Schema Add Cube Colocar el nombre (Name) y el ttulo (Caption, lo que se mostrar en el portal) Dejar seleccionado cache, enabled y visible A un cubo se le asocia una tabla de hechos. Clic derecho sobre el cubo, Add Table para seleccionar la tabla de hechos
73

Creacin de medidas (Measures) Sobre la tabla de hechos se agregan una o ms medidas, haciendo clic en el botn La primera medida, es la medida por defecto En la medida colocar el nombre (name), columna (column), aggregator (sum, max, min, avg, count, distinct count), tipo de datos (datatype) y ttulo (caption)

74

Creacin de dimensiones Clic derecho sobre el cubo, Add Dimension Para dimensiones fechas usar el tipo: TimeDimension para el resto usar StandardDimension Colocar el nombre (name) y la clave fornea (foreignKey)

75

Creacin de dimensiones En clave fornea seleccionar la clave fornea de la tabla de hechos (sk_fecha) Cuando se crea una dimensin, se crea una jerarqua por defecto

76

Edicin de la jerarqua por defecto Sobre la jerarqua, hacer clic derecho, Add Table, seleccionar la dimensin En la jerarqua colocar el nombre (name), marcar hasAll, nombre de todos los miembros (allMemberName), ttulo de todos los miembros (allMemberCaption) y la clave primaria de la dimensin (sk_fecha)

77

Definir niveles de jerarqua


Sobre la jerarqua, clic derecho, Add Level En el nivel definir el nombre (name), columna (column), tipo (type), tipo de nivel (levelType) Para niveles de fecha el tipo de nivel puede ser: TimeYears, TimeHalfYear, TimeHalfYears, TimeQuarters, TimeMonths, TimeWeeks, TimeDays Para el resto de niveles se usa Regular Crear las dimensiones, jerarquas y niveles que se requiera

78

Para probar que el esquema y cubo fueron creados correctamente, ir a File New MDX Query Colocar la siguiente consulta:
select NON EMPTY {[Measures].[nombre_medida]} ON COLUMNS, NON EMPTY Hierarchize({[dim_fecha.default].[todos_los_anios] }) ON ROWS from [cubo_olap]

79

Para publicar un esquema, seleccionar el esquema e ir a File Publish... Colocar lo siguiente:


URL = http://localhost:8080/pentaho Publish Password = pentaho User = joe Password = password

Seleccionar la solucin, colocar el nombre JNDI de la conexin Marcar Register XMLA Data Source para poder acceder desde el portal de Pentaho (New Analysis View)

80

Para visualizar un esquema de Mondrian creado desde PSW, en el portal de Pentaho, hacer clic sobre New Analysis View Las principales operaciones que se puede hacer sobre un cubo OLAP son:
Drill Down/Up (Excavar) Slice (Cortar / Filtrar) Pivot (Pivotear, Intercambiar Ejes)

81

82

1. 2. 3. 4.

Crear el directorio c:\pentaho Copiar biserver-ce-3.8.0.zip Descomprimir biserver-ce-3.8.0.zip Asegurarse tener la siguiente estructura: c:\pentaho\biserver-ce-3.8.0\ administration-console (PAC) c:\pentaho\biserver-ce-3.8.0\biserver-ce (Servidor BI)
PENTAHO_HOME = c:\pentaho\biserver-ce-3.8.0

83

5.

6. 7.

Ir al directorio c:\pentaho\biserver-ce3.8.0\biserver-ce Ejecutar el archivo start-pentaho.bat Abrir un navegador e ir al siguiente URL: http://localhost:8080/pentaho/

84

1. 2.

3.

4.

Abrir la consola de comandos (cmd) Ir al directorio %PENTAHO_HOME%\ biserver-ce\tomcat\bin Ejecutar el comando: service.bat install Pentaho Ir a services.msc para verificar que se instal el servicio Apache Tomcat Pentaho

85

1.

2.

Ir a %PENTAHO_HOME%\ biserverce\data\postgresql Copiar los scripts: create_repository_postgresql.sql, create_sample_datasource_postgresql.sql, create_quartz_postgresql.sql al directorio C:\Program Files\PostgreSQL\8.4\scripts\runpsql.bat

86

3. 4.

5.

6.

Ejecutar el programa runpsql.bat Ingresar las credenciales y ejecutar en la consola de comandos de Postgres el comando: \i create_repository_postgresql.sql Luego el comando \i create_sample_datasource_postgresql.sql Finalmente ejecutar los comandos: \connect postgres \i create_quartz_postgresql.sql
87

7.

8. 9.

Ir al directorio %PENTAHO_HOME%\biserverce\tomcat\webapps\pentaho\META-INF Editar el archivo context.xml Cambiar las cadenas de conexin para el nuevo repositorio driverClassName = org.postgresql.Driver url = jdbc:postgresql://127.0.0.1:5432/hibernate validationQuery = select version();

88

10.

Copiar el archivo postgresql-8.4703.jdbc3.jar a los directorios: %PENTAHO_HOME%\biserver-ce\tomcat\lib %PENTAHO_HOME%\ administrationconsole\jdbc Ir al directorio %PENTAHO_HOME%\biserverce\pentaho-solutions\system\hibernate

11.

89

12.

Editar el archivo hibernate-settings.xml y cambiar la etiqueta <config-file>


<configfile> system/hibernate/postgresql.hibernate.cfg.xml </config-file>

13.

Ir al directorio %PENTAHO_HOME%\biserverce\pentaho-solutions\system y editar los archivos applicationContext-spring-securityjdbc.xml y applicationContext-spring-securityhibernate.properties

90

14.

Para JDBC y Hibernate usar las siguientes configuraciones:


jdbc.driver=org.postgresql.Driver jdbc.url=jdbc:postgresql://127.0.0.1:5432/hibernate jdbc.username=hibuser jdbc.password=password hibernate.dialect=org.hibernate.dialect.PostgreSQLDialect

15.

Reiniciar Pentaho para aplicar la configuracin


91

1.

2. 3.

Ir al directorio %PENTAHO_HOME% \biserver-ce\pentaho-solutions\system Editar el archivo publisher_config.xml En la etiqueta <publisher-password> colocar:


<publisher-password>pentaho</publisher-password>

92

1.

2. 3.

4. 5. 6.

Ir al directorio %PENTAHO_HOME%\ biserver-ce\pentahosolutions\system\smtp-email Editar el archivo email_config_gmail.xml Asignar los valores para las etiquetas: <mail.from.default>, <mail.userid> y < mail.password> Renombrar el archivo a email_config.xml Reiniciar Pentaho Ir al reporte Burst Sales Report para probar (Usar IE)
93

1.

2. 3.

Ir al directorio %PENTAHO_HOME%\administrationconsole\resource\config Editar el archivo console.xml Asignar los siguientes valores a las etiquetas <solution-path> y <war-path>
<solution-path>../biserver-ce/pentahosolutions</solution-path> <war-path>../biserverce/tomcat/webapps/pentaho</war-path>

94

1.

2. 3.

Ir al directorio %PENTAHO_HOME%\administration-console Ejecutar el archivo start-pac.bat Abrir un navegador de internet e ir al siguiente URL http://localhost:8099

95

1.

2.

3. 4. 5. 6. 7. 8.

Crear base de datos pdi_repo, usuario pentaho_user (Todos los permisos) Copiar el archivo pdi-ce-4.2.1.zip al directorio c:\pentaho Descomprimir el archivo y ejecutar Spoon.bat Agregar un nuevo repositorio Seleccionar Kettle Database Repository Crear una nueva conexin de nombre pdi_repo Crear repositorio de metadatos (Dry Run? No) Usar usuario admin / admin

96

1. 2.

3. 4. 5. 6.

En el directorio c:\pentaho, crear la carpeta src Crear un hola_mundo.txt con los siguientes datos: Nombre Leonardo Henry lvaro Ir a File New Transformation Ir a Design/Input Arrastrar Text File Input Renombrar Text File Input a Agregar Archivo En File, Agregar el archivo hola_mundo.txt

97

7.

8.

9.

10.

11.

En Transform arrastrar Add Constants. Definir 2 Constantes: mensaje (String) = Bienvenido a Pentaho exclamacion (String) = !!! Ir a Output arrastrar Text File Output, renombrar a Escribir Archivo Salida En FileName colocar c:\pentaho\src\hola_mundo_salida Get Fields y ordenar (mensaje, nombre, exclamacin) Verificar, Guardar y Ejecutar
98

1.

2.

3.

4. 5.

Ir a Tools Repository Explore. En Connections agregar conexin a la base de datos stage. Usuario pentaho_user / password (Conexin Global) Crear nueva transformacin TRS_HOLA_MUNDO_BDD Ir a Design/Input arrastar Table Input y renombrar a Leer Tabla Entrada Insertar el SQL: SELECT * FROM alumno Arrastrar Add Constants y Crear 1 Constante saludo(String) = Bienvenido
99

6. 7.

8. 9. 10. 11.

Ir a Output y arrastrar Table Output Seleccionar la conexin stage, marcar Truncate Table y Specify Database Fields En Target Table colocar holamundo En Database Fields hacer clic en Get Fields Hacer clic en SQL y ejecutar Validar transformacin, guardar y ejecutar

100

1. 2.

3. 4.

5.

6.

Ir a File New Job Colocar el nombre JOB_EJECUCION_HOLA_MUNDO Ir a General, Arrastrar START Luego Arrastrar Transformaciones, Specify By Reference y Seleccionar TRS_HOLA_MUNDO Repetir el paso 4 para TRS_HOLA_MUNDO_BDD Arrastrar Success y Mail
101

7.

En Mail Configurar lo siguiente: SMTP Server = smtp.gmail.com Port = 587 Use Authentication = S Auth User = ingmmurillo.capacitacion Password = Use Secure Auth = S Secure Connection Type = TLS

102

1. 2.

3.

4.

Abrir una consola de comandos (cmd) Ir a c:\pentaho\pdi-ce-4.2.1\dataintegration Ejecutar el siguiente comando: Kitchen.bat /rep pdi_repo /user admin /pass admin /job JOB_EJECUCION_HOLA_MUNDO Finalmente, crear Tarea Calendarizada del SO (Ejecutar Kitchen con Argumentos Paso 3)
103

1. 2. 3.

4.

5.

En Input, arrastar Generate Rows En Limit colocar 3652 (10 aos) Crear un campo de tipo Date de nombre fecha_inicial, formato yyyyMMdd y valor 20090101 En Transform arrastrar Add Sequence para generar las SKs. Name of Value = secuencia_dias, Counter Name = SEQ_DIM_FECHA, Start at Value = 0 Ir a Transform arrastrar Calculator
104

7.

Crear los campos sk_fecha, anio, mes, da y fecha como se muestra en la siguiente tabla:

105

Campo v_fecha v_fecha_ str sk_fecha anio mes dia fecha

Calculation Date A + B Days Create a copy of field A Create a copy of field A Year of date A Month of date A Day of month of date A Create a copy of field A

Field A fecha_inicial v_fecha v_fecha_str v_fecha v_fecha v_fecha v_fecha

Field B secuencia_dias

Value Type Date String Integer Integer Integer Integer Date

Conversion Mask yyyyMMdd yyyyMMdd # # # # dd/MM/yyyy

106

8. 9.

10.

Ir a Output y arrastrar Table Output Seleccionar la tabla DIM_FECHA de la conexin al DWH, marcar Specify database fields para mapear los campos e ir a Enter Field Mapping Verificar y Ejecutar

107

1.

2.

3.

4.

Crear una nueva transformacin de nombre TRS_CARGA_DIM_SUCURSAL De Input, arrastrar Table Input. Usando la conexin stage, colocar el SQL: SELECT ID, NOMBRE, RESPONSABLE FROM STG_SUCURSAL_CIA Arrastrar de Data Warehouse, Combination lookup/update Usar la conexin dwh, y seleccionar Target Table = DIM_SUCURSAL
108

5.

6. 7. 8.

9.

Hacer clic en Get Fields. El campo pk_sucursal asociarlo a id. Deben quedar pk_sucursal, nombre y responsable En Technical Key Field ingresar sk_sucursal Dejar el resto por defecto y clic en OK Arrastrar un Table Input, y con la conexin al DWH colocar el siguiente SQL: SELECT SK_SUCURSAL FROM DIM_SUCURSAL WHERE SK_SUCURSAL = 0; Arrastrar un Filter Rows con la condicin SK_SUCURSAL IS NULL
109

10.

11. 12.

13.

14.

Arrastrar un SQL Script, usando la conexin al dwh, colocar el siguiente SQL: INSERT INTO DIM_SUCURSAL VALUES (0,'0','N/D','N/D'); Marcar Execute for each row y clic en OK Unir el filtro con el SQL Script para la condicin Result is TRUE Arrastrar un Dummy y unirlo con el filtro para la condicin Result is FALSE Guardar, validar y probar
110

111

1.

2.

3.

Crear una nueva transformacin de nombre TRS_CARGA_DIM_CLIENTE Arrastrar un Table Input, usando la conexin stage colocar el siguiente SQL: SELECT ID,IDENTIFICACION,NOMBRE,APELLIDO,DIRE CCION FROM STG_CLIENTE De Data Warehouse, arrastrar el componente Dimension lookup / update y unirlo con el Table Input

112

4.

5. 6.

7.

8.

9.

En Dimension lookup/update, usar la conexin dwh, Target Table = dim_cliente En Technical Key Field, colocar SK_CLIENTE En Date range start field colocar FECHA_DESDE Marcar Use an alternative start date? Y seleccionar System Date En Table daterange end colocar FECHA_HASTA Hacer clic en Get Fields, en la pestaa de Key dejar mapeado slo pk_cliente con id
113

10.

11.

12. 13. 14. 15.

Ir a la pestaa de Fields y hacer clic otra vez en Get Fields Para identificacion, nombre y apellido seleccionar Update en Type of dimension update Para direccion dejar Insert Hacer clic en SQL y ejecutar el script Arrastrar un Filter Rows y Validar, Guardar y Ejecutar

114

1.

2. 3.

4.

5.

Copiar el archivo prd-ce-3.8.2.zip al directorio c:\pentaho Descomprimir el archivo Ir a c:\pentaho\prd-ce-3.8.2\reportdesigner Copiar el archivo postgresql-8.4703.jdbc3.jar al directorio \lib\jdbc En \report-designer ejecutar reportdesigner.bat

115

1.

2. 3.

4.

5.

Copiar el archivo psw-ce-3.3.0.14703.zip al directorio c:\pentaho Descomprimir el archivo Ir a c:\pentaho\psw-ce3.3.0.14703\schema-workbench Copiar el archivo postgresql-8.4703.jdbc3.jar al directorio \drivers Ejecutar workbench.bat

116

1.

2. 3.

4. 5.

6.

Asegurarse que Pentaho BI Server est iniciado Abrir una consola de comandos (cmd) Ir a C:\pentaho\biserver-ce3.8.0\administration-console Ejecutar start-pac.bat Abrir un navegador e ir a http://localhost:8099 (admin/password) Ir a Administration / Database Connections

117

7.

Hacer clic en (+) Add Database Connection


Name = dwh Driver Class = org.postgresql.Driver User Name = dwh Password = pentaho_user URL = jdbc:postgresql://localhost:5432/dwh

8.

Finalmente hacer clic en Test

NOTA: el mismo nombre se tiene que usar en todas las aplicaciones de Pentaho

118

Wiki de Pentaho CE: http://wiki.pentaho.com/display/COM/Community+Wiki+Ho me [Adrin Sergio Pulvirenti, Mara Carina Roldn] Pentaho Data Integration 4 Cookbook. Packt Publishing Ltd. 2011 [Mara Carina Roldn] Pentaho 3.2 Data Integration Beginner's Guide. Packt Publishing Ltd. 2010

119

Ing. Mauricio Murillo Rosero


mauricio2k4@gmail.com

http://ingmmurillo.blogspot.com

@ingmmurillo

120

You might also like