You are on page 1of 19

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.

com

PENTAHO DATA INTEGRATION (KETTLE) PARTE 1 INTRODUCCIN ...............................................................................................................................................................3 PENTAHO DATA INTEGRATION (KETTLE) ....................................................................................................................4

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Spoon ..........................................................................................................................................................................4 Kitchen ........................................................................................................................................................................4 Pan ...............................................................................................................................................................................4 INSTALACION DE PENTAHO DATA INTEGRATION (KETTLE) .....................................................................................4 Requisitos para la instalacin de PDI Kettle .............................................................................................................4 Descarga de PDI Kettle ...............................................................................................................................................4 Instalacin de PDI Kettle ............................................................................................................................................5 Ejecucin de PDI Kettle ..............................................................................................................................................5 Transformations, Jobs, Steps y Hops .......................................................................................................................6 CREAR EL PRIMER EJEMPLO ETL ................................................................................................................................8 Objetivo .......................................................................................................................................................................8 Preparar el ambiente de trabajo.................................................................................................................................8 Crear la Transformation .............................................................................................................................................8 Identificando Steps .....................................................................................................................................................9 Disear la Transformation..........................................................................................................................................9 Configurar la funcionalidad de los steps ................................................................................................................10 Configurar Text File Input ...................................................................................................................................10 Configurar Modified Java Script Valu ..............................................................................................................12 Configurar XML Output .......................................................................................................................................14 Guardar la transformation ........................................................................................................................................15 Ejecutar la transformation........................................................................................................................................15 Ejecutar la transformation desde ventana de lnea de comandos ........................................................................16 INTRODUCCIN

Pgina 2 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

ETL. Son las siglas en ingls de Extraer, Transformar y Cargar (Extract, Transform and Load). permite mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en

Es elproceso

que

otra base dedatos,

data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio. Extraer. La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayora de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Por ejemplo la informacin del sistema de RRHH puede estar disponible en una base de datos SQL Server, mientras que la informacin de Ventas est disponible en hojas de clculo. Transformar. La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones: Seleccionar slo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). Traducir cdigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer). Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones, etc.). Generacin de campos clave en el destino.

Carga. La fase de carga es el momento en el cual los datos de la fase anterior (transformacin) son cargados en el sistema de destino. Este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos, en otras se agrega a la informacin ya existente. Todo depende del modelo y requerimientos del negocio. La fase de carga interacta directamente con la base de datos de destino. Al realizar esta operacin se aplicarn todas las restricciones y triggers que se hayan definido en sta (por ejemplo, valores nicos, integridad referencial, campos obligatorios) y si estn bien definidos contribuyen a que se garantice la calidad de los datos en el proceso ETL.

Pgina 3 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

PENTAHO DATA INTEGRATION (KETTLE)


Kettle es un proyecto Open Source de origen belga, que incluye un conjunto de herramientas para realizar ETL. Ahora forma parte de la suite de Inteligencia de Negocios Pentaho. PDI Kettle consiste principalmente de las siguientes aplicaciones:

Spoon
Es el componente ms utilizado. Es una herramienta grfica que permite disear Jobs y Transformations ETL. Con esta herramienta se podr conectar a diversos orgenes de datos y transformarlos para cargarlos dentro de su estructura del datawarehouse.

Kitchen
Es un programa que permite ejecutar "jobs" diseados en Spoon, permitiendo programarlos y ejecutarlos en modo batch.

Permite ejecutar "transformations" diseados en Spoon, permitiendo ejecutarlos desde lnea de comandos y ejecutarlos en modo batch.

INSTALACION DE PENTAHO DATA INTEGRATION (KETTLE) Requisitos para la instalacin de PDI Kettle.
Kettle requiere de Java Runtime Edition (JRE) versin 1.5 (denominado a veces Java 5) superior. Se puede obtener de la siguiente direccin: http://iava.com/en/download/index.isp

Descarga de PDI Kettle.


Se puede obtener la ltima versin estable de PDI Kettle y tambin las versiones anteriores de la siguiente direccin: http://sourceforge.net/proiects/pentaho/files/Data%20lntegration/ En el presente tutorial se utiliza la versin 4.2.1. Descargar el archivo pdi-ce-4.2.1-stable.zip (para Windows) o el archivo pdi-ce-4.2.1-stable.tar.gz (para Linux). Home / Data Integration / 4.2.1-stable Ji

ame *
^ Parent folder

Modified

Size *
2011-10-25
2011-10-25

pd i -c e 4.2.1 -sta ble.zip

247.3 MB
239.5 MB eA

pdi-ce4.2.1-stable.tar gz O^ pdi-ce-javadoc4.2.1-stable.zip
pd i-ce-s re-4.2.1 -stable-r15952.zip

2011-10-25 2011-10-25

12.0 MB 175.8 MB 674.5 MB

a_

Totals: 4 Items

Pgina 4 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Instalacin de PDI Kettle. Para la instalacin simplemente se debe descomprimir el archivo descargado en un directorio que usted elija. Por defecto se obtiene el directorio data-integration.
s (t) Software Pentaho PDI 4.2.1 >| data-integration Compartir con Grabar Nueva carpeta Nombre J4 samples Jf simple-jndi XJ uii 151 Carte _j carte.sh Q DEMO.DBF SI Ericr encr.sh _
i

>

Fecha de modifica 25/10/2011 03:40.. 25/10/2011 04:46.. 25/10/2011 04:46.. 25/10/2011 03:39.. 25/10/2011 03:39.. 22/07/2012 01:42.. 25/10/2011 03:39.. 25/10/2011 03:39.. 25/10/201103:39..

Tipo Carpeta de archivos Carpeta de archivos Carpeta de archivos Archivo por lotes... Archivo SH Archivo DBF Archivo por lotes... Archivo SH Archivo SH Archivo por lotes... Archivo SH Documento XML Archivo por lotes... Archivo SH Archivo por lotes... Archivo SH Documento de tex... Documento de tex... Documento de tex... Documento de tex... Archivo por lotes... Archivo SH Archivo por lotes... Archivo SH Archivo por lotes... Icono Imagen PNG Archivo SH

generateClusterSchema.sh S] Import

_ import.sh
ISj import-rules [>1 Kitchen kitchen.sh IOS Pan __ pan.sh c READMEJNFOBRIGHT READMEJJNUX i README.OSX

Q README_UNIX_AS400
run_kettle_cluster_example runSamples.sh SI set-pentah o-env set-pentah o-env.sh 1^1 Spoon spoon Jk spoon spoon.sh

.. 25/10/2011 03:39.. 25/10/201103:39.. 25/10/2011 03:39.. 25/10/2011 03:39.. 25/10/201103:39.. 25/10/2011 03:39.. 25/10/2011 03:39.. 25/10/201103:39.. 25/10/2011 03:39.. 25/10/2011 03:39.. 25/10/201103:39.. 25/10/2011 03:39.. 25/10/2011 03:39.. 25/10/201103:39.. 25/10/2011 03:39.. 25/10/2011 03:39..
25/10/2011 03:39 25/10/201103:39.. 25/10/2011 03:39..

Ejecucin de PDI Kettle. Como se mencion y como se puede observar en el directorio data-integration existen varias herramientas, para iniciar simplemente se debe ejecutar el archivo Spoon.bat. Si se estuviera trabajando en plataforma Linux, se debe ejecutar el archivo spoon.sh, pero previamente se debe asignar permiso de ejecucin a dicho archivo. Para eso, ejecutar el siguiente comando ubicndose en el directorio dataintegration: chmod+x *.sh La ventana de inicio permite conectarse a un repositorio predefinido o crear uno, En esta oportunidad no se trabajar con repositorio y se quitar el check en "Show this dialog at startup" para no volver a mostrar esta ventana, luego de lo cual se muestra la ventana principal de PDI Kettle.

Pgina 5 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)


O Repository Connection

User ame: admin Password:

[V. Show this dialog at startup

File Edit View Action Tools Help

i
Explorer

iaa
10
file:///E:/Software/Pentaho/P[}I%204,2,l/data-integration/docs/English/welcome/kettle_document_map,html

Perspective:

fQ View ^ D esigri

Transformations Jobs

1
| Getting started with Pentaho Data Integration Vj c S ampies -J0 s

What's New

etting tarted

Transformations, Jobs, Steps y Hops. Antes de continuar es importante entender el rol de las transformations, jobs, steps, hops y otras estructuras que sern utilizadas en los proyectos ETL Una transformation es una herramienta PDI que permite realizar una variedad de tareas con data movindolos de un lugar a otro. Su rol principal es extraer data de fuentes de datos, transformar la data de una representacin a otra y cargar data en fuentes de salida (output sources). Como se puede ver, realiza los pasos de extraccin (E), transformacin (T) y carga (L). Una transformation consiste de un nmero separado de acciones llamados steps cada uno diseado para una funcin especfica, La representacin grfica del flujo de datos entres los steps son llamados hops. Los hops son usados para transportar data de un step a otro. Un job es un componente que crea una secuencia de actividades que brinda un orden de ejecucin, por lo tanto los jobs son usados para un control de flujo y por lo general consiste de una serie de transformations. PDI Kettle usa hops para construir una secuencia de steps, tambin son usados para enlazar steps de transformations y jobs, en ambos casos enlazan stops, sin embargo en las transformations son usados para

Pgina 6 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

transportar data de un step a otro, mientras que en los jobs son usados para brindar control en el flujo de ejecucin. En la imagen a continuacin se muestra una Transformation donde se pueden identificar los steps y hops que lo componen.

La imagen siguiente muestra un Job, como se indic, en este caso los hops sirven para llevar el control del flujo de ejecucin, llamando a una Transformation, a otro Job (que a su vez puede contener una o ms transformations) y por ltimo a un script SQL.

Este es un-Job. EjecLts Lra trarsformatir y lluego ejecLta otro Job, por ltimo ejecLtc un script SQL.

Pgina 7 de 16

t
START Obtener Archivos

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Setear Variables y C a rg a r Update

Pgina 8 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

CREAR EL PRIMER EJEMPLO ETL Es momento de crear el primer ejemplo ETL, para eso se describir paso a paso la creacin de una transformation que leer un archivo de texto y generar un archivo XML realizando previamente un pequeo cambio en la informacin. Objetivo El origen es el archivo PROV.txt (lo pueden descargar del siguiente link

http://correo.rvrhermanos.com/home/iriveraPrvrhermanos.com/Publico/PROV.txt), con las columnas separadas por el c a r c t e r q u e contiene la lista de todas las provincias junto a los cdigos de departamento y provincia. El resultado que se obtendr es un archivo XML donde adems de mostrar los campos originales, tendr un campo adicional con el mensaje: El cdigo de la provincia Amazonas es OlOff. Cambiando el mensaje segn corresponda por cada provincia.
B PROV.txt - Bloc de notas
Archivo Edkin Formato Ver Ayuda

coddpto;codprov; nombre 00;AMAZONAS 01CHACHAPOYAS 02;BAGUA 03;BONGARA 04;CONDORCANQUI 05; LUYA 06;RODRIGUEZ DE MENDOZA 07;UTCUBAMBA 00;ANCASH 01;HUARAZ

<?xml versin ="1.0 encoding="UTF-8 ?> <Rows>


- <Row >

02;AI3A

03; ANTONIO RAYMONDI 04;ASUNCION OS: ROI OGNFST

<coddpto>01</coddpto> ccodprov >00 </codprov > <nombre >AM AZO AS </nombre > <mensaje>EI cdigo de la provincia AMAZONAS es 0100</mensaje> *<J Row > <Row> <coddpto>01</coddpto> <codprov >01 </codprov > <nombre>CH ACH APOYAS </nombre> <mensaje>El cdigo de la provincia CHACHAPOYAS es 0101</mensaje> <J Row>

Preparar el ambiente de trabajo Antes de empezar, y solo por un tema de orden, crear la siguiente estructura de carpetas que se muestra en la imagen siguiente. En la carpeta ETL se guardarn las Transformations y Jobs que se creen, en la carpeta Input estar el archivo de origen y en la carpeta Output se crear el archivo de salida. En la carpeta Input debe estar ubicado el archivo

PROV.txt
a&
() ETL _ I Input () Output Tutorial PDI

Crear la Transformation Si es que no ha iniciado la herramienta Spoon, ejecute Spoon.bat para iniciarla. Para crear una transformation puede seguir cualquiera de las siguientes opciones: Men File -> New -> Transformation (CTRL + N) En la barra de botones dar click en el icono New File y seleccionar Transformation. En el panel izquierdo, seleccionar la opcin View. Luego click derecho en Transformations y elegir New.

Pgina 9 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Identificando Steps A modo de aclaracin, un step es la unidad mnima dentro de una transformation, una variedad de steps est disponible dentro de categoras tales como Input, Output, Flow, Scripting y otros, todos ubicados en el Steps Pallete. Continuando con el ejemplo, identificamos que la transformation tiene que realizar lo siguiente: Leer el archivo de texto. Construir la concatenacin de campos Grabar los datos en un archivo XML

Para cada uno de los tems a seguir, se utilizarn diferentes Steps que en este caso estn en diferentes categoras. A continuacin se deben identificar los que deben ser utilizados: 1. 2. Leer el archivo de texto. Utilizar el step Text file input, ubicado en la categora Input. Construir la concatenacin de campos. Utilizar el step Modified Java Script Valu, ubicado en la categora Scripting. 3. Grabar los datos en un archivo XML. Utilizar el step XML Ouput, ubicado en la categora Output.
XML Output

Disear la Transformation Una vez identificados los steps, empezamos el diseo de la Transformation, seguir los siguientes pasos: Desde Steps Pallette, seleccionar la categora Input. Arrastrar el icono Text file input al rea de trabajo. Seleccionar la categora Scripting. Arrastrar el icono Modified Java Script Valu al rea de trabajo. Seleccionar la categora Output. Arrastrar el icono XML Ouput al rea de trabajo. El rea de trabajo debe quedar de manera muy similar a la imagen siguiente:

SSL

m
Text file input Modified Java Script Valu XML Output Ahora se debe enlazar Text file input con Modified Java Script Valu, para esto se debe crear un Hop siguiendo cualquiera de las siguientes opciones: Seleccionar el primer icono, mantener presionada la tecla SHIFT y arrastrar el cursor hasta el segundo icono. Ubicarse sobre el primer icono, manteniendo presionado el tercer botn del Mouse (la ruedita o track ball) arrastrar hasta el segundo icono. Seleccionar los dos iconos, click derecho sobre cualquiera de ellos y elegir New hop.

Pgina 10 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Utilizando cualquiera de los modos anteriores, enlazar Modified Java Script Valu con XML Output.

i 2_

Text file input

Modified Java Script Valu XML Output

Configurar la funcionalidad de los steps Cada step presenta una ventana de configuracin. Estas ventanas varan de acuerdo a la funcionalidad del step y la categora a la que pertenecen. Vamos a configurar cada uno de los steps que se estn utilizando: Configurar Text File Input Doble click sobre el icono Text file input para mostrar la ventana de configuracin. Aqu se indicarn la ubicacin, el formato y el contenido del archivo de texto. Reemplazar el nombre por defecto a Lista de Provincias. En el campo File or directory, ingresar la ruta completa de la ubicacin Click en el botn Add, para agregar el archivo al grid Selected files. Click en el botn Show file content, se puede ver el contenido del separados por el carcter;) archivo PROV.txt (los campos estn delarchivo PROV.txt.

Pgina 11 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)


Text file input Step ame |jsta de Provincias File Content Error Handling Filters Fields File or directory Content o first file Wildcard (RegExp) Required al\T utorial_PDI\Input\PROV. txt ^ [ Add | [ Browse..

01 01 01 01 01 01 01 01 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 02 03 03 03 03 03 <

00 01 02 03 04 05 06 07 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 00 01 02 03 04

AMAZONAS CHACHAPOYAS BAGUA BONGARA CONDORCANQUI LUYA RODRIGUEZ DE MENDOZA UTCUBAMBA ANCASH HUARAZ AIJA ANTONIO RAYMONDI ASUNCION BOIOGNESI CARHUAZ CARLOS FERMIN FITZCARRALD CASMA CORONGO HUARI HUARMEY HUAYIAS MARISCAL LUZURIAGA OCROS PALLASCA POMABAMBA RECUAY SANTA SIHUAS YUNGAY APURIMAC ABANCAY ANDAHUAYLAS ANTABAMBA AYMARAES

ps step step

Showfilenafne<s)... | [ Show fe content ] [ Show ontent from first data line

Ir a la solapa Content, aqu se especifica el tipo de archivo de texto (separado por comas, longitud fija), el carcter que indica la separacin de columnas, se indica si el archivo presenta encabezado, etc. Para este ejemplo, no se har ningn cambio.

Ir a la solapa Fields, dar click en el botn Get Fields, para agregar la lista de las columnas del archivo de texto al grid. Por defecto, los nombres se obtienen de los headers (encabezados)

Revisar los campos ame, Type, Length, Trim Type y eliminar los valores que aparezcan en los dems campos.

Pgina 12 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

El Text file input


Step ame |_sta de Provincias File Content Error Handling Filters Fields i ame Type Format 1 coddpto 5tring 2 codprov 5tring 3 nombre 5tring Position Length 2 2 25 Precisin Currency Decimal Group Nuil if Default Trim type none none right

1%. ifcl

,,,
I Get Fields 1

OK

Cancel

~]

Preview

rows ~|

Realizar una previsualizacin de los registros que se obtendrn, haciendo click en el botn Preview rows.
O Examine preview data
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 01 01 01 01 01 01 01 01 02 02 02 02 02 02 02 02 02 02 02 02 02 02 Rows of step: Lista de Provincias (220 rows) # coddpto codprov nombre 00 01 02 03 04 05 06 07 00 01 02 03 04 05 06 07 OS 09 10 11 12 13 AMAZONAS CHACHAPOYAS BAGUA BONGARA CONDORCANQUI LUYA RODRIGUEZ DE MENDOZA UTCUBAMBA ANCASH HUARAZ ADA ANTONIO RAYMONDI ASUNCION BOLOGNESI CARHUAZ CARLOS FERMIN FTTZCARRALD CASMA CORONGO HUARI HUARMEY HUAYLAS MARISCAL LUZURIAGA

Cerrar la ventana de preview y click en el botn OK para salir de la ventana de configuracin del step Text file input.

Configurar Modified Java Script Valu Doble click sobre el icono Modified Java Script Valu. Reemplazar el nombre por defecto a Concatenar campos. El rea principal de la ventana de configuracin es para ingresar cdigo JavaScript. Al lado izquierdo aparecen las funciones disponibles que se pueden utilizar. Ingresar el siguiente cdigo var mensaje;

Pgina 13 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

mensaje = 'El codigo de la provincia '+ nombre + ' es ' + coddpto + codprov; La variable creada pasar a ser un nuevo campo que debe pasar al archivo de salida. Para permitir esto dar click en el botn Get variables. La variable mensaje ser agregada al grid Fields.
Step ame Concatenar campos Java script functions ffl-Q Transform Scripts ffl Transform Constants ffi f j Transform Functions Input fields Java script: Script 1 '
I

//Script here var mensaje; mensaje 1 'El cdigo de la provincia '+ nombre + ' es ' + coddpto + codprov;

Click derecho en el icono Modified Java Script Valu y elegir la opcin Show output fields, se observa que los campos de salida son los mismos que ingresaron adems del nuevo campo mensaje.

Pgina 14 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

... coddpto ... codprov nombre 0 Output fields coddpto. setValue(var) codprov. setValue(var) nombre. setValue(var)

<
Fields

Position: 5, O ^ Compatibility mode? | |

Lenqth_MPrecision__MReplacevalue'Fieldname'or'Renameto' mensaje
String N

OK ] [ Cancel ||[ Get variables | [ Test script

Fieldname

RenametolTyD e

Pgina 15 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

Show Input Files

m
Step ame: Concatenar campos Fields: Fieldname Type Length * Precisin Step origin Lista de Provincias Lista de Provincias Lista de Provincias Storage normal normal normal Mask Decimal , Group Trim, none none none

# 1
2

coddpto codprov nombre

String String String

2 2 25

Show Output Files


Step fields and their origin Step ame: Concatenar campos Fields: # 1 2 3 4 Fieldname coddpto codprov nombre mensaje Type String String String String Length 2 2 25 Precisin Step origin Lista de Provincias Lista de Provincias Lista de Provincias Concatenar campos Storage normal normal normal normal Mask Decimal

fGroup Trim none none none none

Configurar XML Output Doble click sobre el icono XML Output. Cambiar el nombre por defecto a Provincias XML. En el campo Filename ingresar el nombre la ruta donde se crear el archivo Provincias.xml.
XML

output

lelMJH&Hr

Step ame Provincias XML File Content Fields _______________________________________________________________________________________________________________________________________ Filename C:\Tutorial_PDI\Output\Provincias ^ (Browse... ] Do not create file at start Q Pass output to servlet [~~l Extensin
xm

Include stepnr in filename? O Include date in filename? O Include time in filename? [ ] Specify Date time format Q Date time format | Show filename(s)... Add filenames to result Q QK | | ancel |

Pgina 16 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

XML output Stepname Provincias XML File Content Fields Fieldname coddpto codprov nombre mensaje Element ame Format Length Precisin Curren

Type String String String String

2 2

25
Minimal width

U[
Cancel OK

Click en el botn OK para cerrar la ventana de

configuracin.

Guardar la transformation Habiendo diseado y configurado cada uno de los steps y hops, solo queda grabar la transformation, guardarlo en la carpeta C:\Tutorial_PDI\ETL y poner como nombre trf_provincias. El archivo generado tendr la extensin .ktr, si se revisa el contenido del archivo en WordPad, Notepad++ (o el editor de texto que prefiera) se podr ver el formato XML del archivo. Ejecutar la transformation Una vez guardada la transformation, dar click en el botn Run de la barra de botones o simplemente presionar F9. Aparece la ventana para opciones de ejecucin, dejar las opciones por defecto y dar click en el botn Launch.

M
Lista de Provincias Concatenar campos Provincias XML

Execution Results

(jl Execution History fff Logging


# 1 2 3 Stepname Lista de Provincias Concatenar campos Provincias XML

0 Step MetricsX^B Performance Graph]


Read 0 220 220 Written 220 220 220 Input 221 0 0 Output 0 0 220 Updated 1 0 0 Rejected 0 0 0 Errors 0 0 0 Active Finished Finished Finished Time O.Os Os 0.2s Speed (r/s) 6.697 1.606 1.447 0 0 0

Copynr

En el momento de ejecucin aparece en la parte inferior la ventana Execution Results, esta ventana muestra logs y mtricas de la ejecucin actual. En la solapa Step Metrics, se presenta informacin por cada step de la transformation, segn los conceptos que se indican a continuacin: R: Read. Nmero de registros ledos en el flujo de entrada. W: Write. Nmero de registros escritos en el flujo de salida. I: Input. Nmero de registros ledos de un archivo o una base de datos. O: Ouput. Nmero de registros escritos en un archivo o en una base de datos. U: Update. Nmero de registros actualizados en una base de datos.

Pgina 17 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

E: Error. Nmero de registros errados.

En la solapa Logging, se muestra un log ms detallado, indicando la fecha y hora en que se ejecut cada step. Presenta tambin por cada step la cantidad de registros que ingresan, que salen, que se insertan, etc. El nivel de detalle que se muestre depender del tipo que se elija al momento de la ejecucin; Minimal, Basic, Detailed.

Execution Results
Execution History Logging

f t Step Metrics B Performance Graph

______________________________________________________

e t S
2012/07/23 00:25:06 - Spoon - Launching transformation [trf_provincias]. 2012/07/23 00:25:06 - Spoon - Started the transformation execution. 2012/07/23 00:25:06 - trf_provincias - Dispatching started for transformation [trf_provincias] 2012/07/23 00:25:06 - Transformation metadata - Natural sort of steps executed in 0 ms (3 time previous steps calculated) 2012/07/23 00:25:06 - Provincias XML.O - Opening output stream in encoding: UTF-8 2012/07/23 00:25:06 - Lista de Provincias.O - Qpenino file: C:\Tutorial PDI\Input\PROV.txt _______________________________________ 2012/07/23 00:25:06 - Lista de Provincias.O - Finished processing (1=221, 0=0, R=0, W=220, U=l, E=0) 2012/07/23 00:25:06 - Concatenar campos.O - Optimization level set to 9. 2012/07/23 00:25:06 - Concatenar campos.O - Finished processing 0=0, 0=0, R=220, W=220, U=0, E=0) 2012/07/23 00:25:06 - Provincias XML.O - Finished processing (1=0, 0=220, R=220, W=220, U=0, E=0) 2012/07/23 00:25:06 - Spoon - The transformation has finished!!

Ejecutar la transformation desde ventana de lnea de comandos Para ejecutar una transformation desde lnea de comandos se utilizar la aplicacin Pan. Entonces, desde una ventana de lnea de comandos ubicarse en la carpeta donde est instalado PDI Kettle e ingresar el siguiente comando:

C:\Windows\system32\cmd.exe
E:\Software\Pentalio\PDI 4.2.l\data -integration>Pan.bat /file "C:\Tutorial_PDI\ET LStrf_prouincias.ktr" /leuel:Minimal_

En este caso se tiene "instalada" la aplicacin en la siguiente ruta: E:\Software\Pentaho\PDI 4.2.1" Luego de la ejecucin se debe mostrar la siguiente imagen:

ra

C:\WindowsYsystem32\cmd.exe [

CJ

E:\SoftwareSPentalio\PDI 4.2.l\data-integration>Pan.bat /file "G:\Tutorial_PDISEI LStrf_prouincias.ktr" /leuel:Minimal DEBUG: Using JAUA_HOME DEBUG: _PENTAHO_JAUA_HOME=C:\Progran Files\Jaua\jdkl.6.0_13 DEBUG: _PENTAHO_JAUA=C:\Program Files\Java\jdkl.6.0_13\bin\java.exe INFO23-07 00:31:48,887 Pan - Logging is at level :Mininal logging INFO 23-07 00:31:48,890 - Pan - Start of run. INFO 23-07 00:31:50,007 - Pan - Finished* INFO 23-07 00:31:50,011 - Pan - Start=2012/07/2300:31:48.890, Stop=2012/07/23 00:31:50.009 INFO 23-07 00:31:50,012 - Pan - Processing ended after 1 seconds. E:\SoftwareSPentalio\PDI 4.2 .lSdata-integration>_

Click en el botn OK para cerrar la ventana de configuracin.

Pgina 18 de 16

Desarrollado por Jorge Rivera Ramos jlriveraramos@gmail.com http://mixelaneo.blogspot.com

Pentaho Data Integration (Kettle)

En este step se est agregando un campo, adicional a los tres que venan del step anterior. Aprovechando este punto vamos a revisar las opciones Input Fields y Output Fields. Los Input Fields son las columnas de data que recibe un step y los Output Fields son las columnas de data que salen de un step.

Click derecho en el icono Modified Java Script Valu y elegir la opcin Show input fields, se observa que los campos de entrada son coddpto, codprov y nombre los cuales provienen del step File text input. Ir a la solapa Fields y dar click en el botn Get Fields, esto agregar al grid los campos que sern grabados en el archivo xml. Se puede elegir qu campos se incluirn en la salida, para este ejemplo se dejan todos los campos.

Pgina 19 de 16

You might also like