You are on page 1of 22

HERRAMIENTAS DE BUSINESS INTELLIGENCE

SEMANA 7

Orígenes de datos, bodegas de


datos y Oracle Business
Intelligence 11g.
Parte II
ESTE DOCUMENTO CONTIENE LA SEMANA 7 2
ÍNDICE
OBJETIVOS ESPECÍFICOS ...................................................................................................................... 4
INTRODUCCIÓN ................................................................................................................................... 4
1. PROCESOS DE ETL EN BASE DE DATOS MULTIDIMENSIONALES ................................................. 5
1.1. EXTRACCIÓN ........................................................................................................................ 5
1.2. TRANSFORMACIÓN ............................................................................................................. 7
1.3. CARGA DE INFORMACIÓN ................................................................................................... 8
2. VISTAS MULTIDIMENSIONALES (HIPERCUBOS DE DATOS) EN BASE DE DATOS OLAP ................ 9
2.1. OPERACIONES A REALIZAR EN LOS CUBOS DE DATOS ...................................................... 10
2.2. DIMENSIONES DE UN CUBO .............................................................................................. 11
2.3. FILTRO Y PIVOTEO DE DATOS ............................................................................................ 12
3. IMPLEMENTACIÓN EN ORACLE BUSINESS INTELLIGENCE 11G ................................................. 13
3.1. CREACIÓN DE REPORTES ................................................................................................... 13
3.2. CREACIÓN DE FILTROS....................................................................................................... 18
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS ..................................................................................................................................... 21

ESTE DOCUMENTO CONTIENE LA SEMANA 7 3


ORÍGENES DE DATOS, BODEGAS DE DATOS Y ORACLE
BUSINESS INTELLIGENCE 11G. PARTE II

OBJETIVOS ESPECÍFICOS
 Caracterizar el proceso de extracción, transformación y carga de información en la base de
datos.

 Comprender la visualización de los datos desde distintas perspectivas utilizando vistas


multidimensionales.

 Construir reportes y filtros en la herramienta Oracle Business Intelligence 11g.

INTRODUCCIÓN
En esta semana se abordarán temas como el proceso de extracción, transformación y carga de
datos, se mostrará un ejemplo práctico del diseño y desarrollo de una ETL. Este proceso es muy
importante para entregar información de calidad para el análisis y permitirá al alumno tener una
visión completa de la preparación de los datos, para luego ser utilizados en los análisis.

Además, se mostrarán los distintos tipos de operaciones que se realizan en un cubo de datos,
entregando ejemplos claros de cada una de estas funcionalidades. Los contenidos de esta semana
profundizan aún más en las herramientas de business intelligence, entregando al alumno
conocimientos sobre productos que se utilizan hoy en día en las organizaciones.

Se incluye, asimismo, un ejemplo práctico de la creación de reportes y filtros con la herramienta


Oracle Business Intelligence. Ahondando cada vez más en las potencialidades que entrega la suite
de business intelligence de Oracle y cómo aporta en el mundo empresarial en tanto que es una
herramienta que entrega una solución integral para la toma de decisiones.

ESTE DOCUMENTO CONTIENE LA SEMANA 7 4


1. PROCESOS DE ETL EN BASE DE DATOS
MULTIDIMENSIONALES
El sistema de extracción, transformación y carga de datos (ETL o extract, transform and load) es la
base del almacén de datos.

Un sistema de ETL bien diseñado extrae datos de los sistemas de origen, hace cumplir las normas
de calidad de los datos y de consistencia, se ajusta de modo que los datos provenientes de fuentes
separadas puedan ser utilizados en conjunto y, finalmente, entregar datos en un formato de
presentación listos para que los desarrolladores puedan crear aplicaciones, permitiendo que los
usuarios finales puedan tomar decisiones (Kimball y Caserta, 2004).

El sistema de ETL añade un valor significativo a los datos. Es mucho más que obtener información
de los sistemas de origen y guardarlos en el almacén de datos. Específicamente, el sistema de ETL:

 Elimina errores y corrige los datos faltantes.

 Proporciona medidas de documentación para la confiabilidad de los datos.

 Captura el flujo transaccional de los datos para resguardar la integridad.

 Ajusta los datos de múltiples fuentes que serán utilizadas en la estructura de datos para ser
usadas por las herramientas de usuario final como Oracle Presentation Services (Oracle
Presentación de Servicios).

Fuente: Kimball y Caserta (2004, p. 56).

1.1. EXTRACCIÓN
Una vez que se pone en marcha el proyecto de almacenamiento de datos, la integración de los
distintos sistemas de la empresa se vuelve un verdadero reto para conseguir el almacenamiento
de datos, de forma tal que puedan ser utilizados para el análisis de información. Sin datos, el
almacenamiento es inútil. Es por eso que el primer paso de la integración es realizar exitosamente
la extracción de los datos desde los sistemas de origen.

ESTE DOCUMENTO CONTIENE LA SEMANA 7 5


A medida que las empresas evolucionan, adquieren o heredan diversos sistemas informáticos
como: puntos de venta, gestión de inventario, control de producción y sistemas de contabilidad,
entre otros, estos ayudan a la compañía a ejecutar sus negocios. Sin embargo, no solo son
sistemas separados y adquiridos en diferentes momentos, sino que con frecuencia son lógica y
físicamente incompatibles. Es por eso que el proceso ETL necesita integrar con eficacia los
sistemas que tienen diferentes (Kimball y Caserta, 2004):

 Sistemas de gestión de bases de datos.


 Sistemas operativos.
 Hardware.
 Protocolos de comunicaciones.

Antes de comenzar con el desarrollo de la extracción de información es necesario realizar un mapa


lógico de los datos, esto permite tener claridad en la relación a los campos que se encuentran
entre la fuente de origen y el destino de la información.

Ejemplo de mapeo lógico de datos

Fuente: Kimball y Caserta (2004, p. 60).

ESTE DOCUMENTO CONTIENE LA SEMANA 7 6


1.2. TRANSFORMACIÓN
El proceso de limpieza y transformación permite generar datos de calidad. Este proceso realiza
una búsqueda completa en las fuentes de origen, realizando un diagnóstico de aquella
información que se encuentra inconsistente (Kimball y Caserta, 2004).

Para realizar el proceso de limpieza y transformación se deben seguir cuatro pasos (Kimball y
Caserta, 2004):

1) DISEÑO DE OBJETIVOS

En esta parte se analizan y discuten los objetivos de las iniciativas de calidad de datos y las
prioridades que a veces ponen en conflicto a los desarrolladores de ETL, puesto que se debe lograr
un equilibrio. Se tienen que proponer algunos enfoques para lograr este equilibrio y entregar una
política de calidad de los datos, que cumpla con las necesidades de un grupo importante de
usuarios.

2) LIMPIEZA DE LOS ENTREGABLES

Una organización que desea mejorar la calidad de los datos debe basarse en una rigurosa
medición. Esto debe incluir el mantenimiento de registros precisos de los tipos de problemas de
calidad de los datos y responder a algunas preguntas como: qué se busca, cuándo son observados
y los resultados que se esperan. Además, tiene que ser capaz de responder a las preguntas del
administrador del almacén de datos, información para usuarios comunes y responder preguntas
del encargado de calidad de información, información acerca de su procesamiento y las
percepciones de calidad de datos descubiertos, tales como:

 ¿Es la calidad de datos cada vez mejor o peor?

 ¿Qué fuentes de los sistemas generan la menor o mayor parte de los problemas de calidad de
datos?

 ¿Hay patrones interesantes o tendencias reveladas en el control de los problemas con el


tiempo-calidad de los datos?

 ¿Hay alguna correlación observable entre los niveles de calidad de los datos y el desempeño de
la organización en su conjunto?

ESTE DOCUMENTO CONTIENE LA SEMANA 7 7


3) PANTALLAS Y SUS MEDICIONES

En este proceso se realiza un conjunto de controles y pruebas fundamentales que se generan en la


mayoría de los motores de limpieza de datos. Describe lo que hacen estas funciones, cómo lo
hacen y cómo se construyen unos sobre otros para entregar datos limpios para el almacén de
datos.

4) AJUSTAR LOS ENTREGABLES

La integración de datos significa la creación de ajustes para las dimensiones y tablas de hechos,
combinando la mejor información desde varias fuentes de datos en una visión más amplia. Para
ello, de alguna manera, es necesario que los datos se adapten para que sean estructuralmente
idénticos, filtrar aquellos registros inválidos, estandarizar el contenido, quitar datos duplicados y,
luego, una revisión de los nuevos datos.

1.3. CARGA DE INFORMACIÓN


Previo al proceso de carga, lo primero que se debe hacer es revisar el diseño de base de datos y
eliminar cualquier índice innecesario, constraints (restricciones) y triggers (disparadores).
Posterior a eso, es importante considerar las siguientes opciones para mejorar el rendimiento de
carga:

 Desactivar las foreign keys (referencias de integridad entre tablas de datos) previo a la carga
de datos. Cuando las restricciones de claves foráneas se encuentran habilitadas para cada fila
cargada, el sistema de base de datos compara los datos de las columnas de la llave foránea con
los valores de la clave principal de la tabla. El rendimiento puede mejorarse considerablemente
mediante la desactivación de restricciones de clave foránea en las tablas de hechos que tienen
varias restricciones de claves foráneas.

Recordar, sin embargo, que la base de datos valida cada fila de la tabla (no solo los nuevos
datos) al habilitar restricciones de clave foránea después de la carga. Por eso es importante
asegurar que las columnas de claves foráneas sean indexadas, para prevenir que al volver a
habilitar las restricciones no se produzca un cuello de botella y baje el rendimiento de la carga
de datos.

 Mantener estadísticas de base de datos al día. Se deben realizar estadísticas de base de datos
de gestión, realizando el seguimiento de los tamaños totales de las tablas, los tamaños y
número de valores únicos en índices y otros datos acerca de la eficiencia de cómo la
información se almacena en la base de datos. Cuando una instrucción SELECT de SQL se
presenta al sistema de gestión de base de datos, utiliza estas estadísticas para determinar la

ESTE DOCUMENTO CONTIENE LA SEMANA 7 8


ruta de acceso más rápida para suministrar los datos solicitados. De manera óptima, se deben
actualizar las estadísticas después de cada carga. Sin embargo, si el proceso de carga es
frecuente (diario) y el porcentaje de cambio periódico en el tamaño de la base de datos es
relativamente pequeño, la actualización de las estadísticas semanales o mensuales debería ser
suficiente para mantener altos niveles de rendimiento.

 Reorganizar datos fragmentados en la base de datos. Las tablas se convierten en fragmentos


cuando las filas se actualizan con frecuencia o se eliminan y baja el rendimiento del tiempo de
respuesta.

Cuando se trata de tablas de hechos de gran volumen de datos, una forma de minimizar la
ocurrencia de esta fragmentación es crear tablas con particiones.

Las tablas con particiones están organizadas normalmente por períodos de tiempo (por
ejemplo, una tabla de ventas con particiones separadas para cada año).

Ver video: Creación de ETL

2. VISTAS MULTIDIMENSIONALES (HIPERCUBOS DE DATOS) EN


BASE DE DATOS OLAP
Entre los principales objetivos de los sistemas OLAP se encuentra el agilizar los tiempos de
respuesta de las consultas de grandes volúmenes de datos. Para ello, utiliza los cubos OLAP que
contienen los datos resumidos de grandes bases de datos y permiten mostrar cualquier
correlación dentro de una gran cantidad de datos, útil para los usuarios del negocio (Moreno,
2012).

ESTE DOCUMENTO CONTIENE LA SEMANA 7 9


Fuente: https://www.assembla.com/spaces/tabd_olap/wiki/Trabajo_Te%C3%B3rico

Ver video: Diseño de un cubo OLAP con Oracle Warehouse Builder

2.1. OPERACIONES A REALIZAR EN LOS CUBOS DE DATOS


Para recordar cuáles son las operaciones que se realizan en los cubos de datos se indican las
siguientes definiciones:

ROLL-UP

Para comprender qué significa esta herramienta se muestra como ejemplo el siguiente esquema,
en donde se pueden observar las potencialidades de las jerarquías de la dimensión producto, es
decir, es posible explorar en los niveles mayores de agregación (Ponniah, 2001):

DRILL-DOWN

De acuerdo al mismo esquema se puede ejemplificar este concepto, ya que este implica acceder a
los niveles más bajos de agregación, es decir, explorar con mayor detalle (Ponniah, 2001).

ESTE DOCUMENTO CONTIENE LA SEMANA 7 10


Fuente: Drill-down y roll-up. En: http://www.edutecne.utn.edu.ar/sist-gestion-II/Apunte%20BI.pdf

SLICE AND DICE

En las siguientes imágenes se muestra un claro ejemplo de slice and dice: originalmente las tiendas
se encuentran en el eje Z, los productos se encuentran en el eje X y los meses en el eje Y, pero si se
rota el cubo que compone la información, ahora los productos están en el eje Z, los meses en el
eje X y las tiendas, en el Y. El segmento slice que se está considerando también gira. Por tanto, los
meses son ahora mostrados como columnas y las tiendas como filas.

Al volver a rotar, los meses están ahora en el eje Z, las tiendas en el X y los productos en el Y.
Desde luego, el segmento slice también gira. Entonces, en este caso, las tiendas aparecen ahora
como columnas y los productos como filas (Ponniah, 2001).

2.2. DIMENSIONES DE UN CUBO


La tabla de dimensiones contiene atributos que describen las medidas registradas en la tabla de
hechos. Algunos de esos atributos proporcionan información descriptiva de la dimensión, otros
son usados para especificar la forma en que los datos deben ser sumarizados para proporcionar

ESTE DOCUMENTO CONTIENE LA SEMANA 7 11


información útil para el análisis. Por lo tanto, la tabla de dimensiones provee un contexto a un
conjunto de medidas de la tabla de hechos (Moreno, 2012).

Ejemplo de dimensiones de un cubo

Fuente: https://www.assembla.com/spaces/tabd_olap/wiki/Trabajo_Te%C3%B3rico

2.3. FILTRO Y PIVOTEO DE DATOS


El proceso de filtrar permite realizar una selección sobre los datos de un cubo, utilizando alguna
constante. En cambio, el pivoteo permite ir desde una vista general del informe hacia un nivel
mayor de detalle. Por ejemplo, en las tablas que están a continuación se muestra el informe
general de ventas por producto y por sucursal de una cadena de retail y, luego, el detalle de la
tienda de Nueva York (Ponniah, 2001).

Fuente: Material basado en Ponniah (2001, p. 359).

ESTE DOCUMENTO CONTIENE LA SEMANA 7 12


3. IMPLEMENTACIÓN EN ORACLE BUSINESS INTELLIGENCE 11G

3.1. CREACIÓN DE REPORTES


A continuación se muestra la creación de reportes en Oracle Business Intelligence:

1) Ir al menú de inicio y hacer clic en New → Analysis:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 13


2) Seleccionar el área de negocio a utilizar. Un área de negocio contiene columnas que
representan la información sobre cada área de negocio de una organización:

3) Observar el editor de análisis. Este permite interactuar y explorar la información que será
visualizada y presentada en reportes, gráficos y tablas dinámicas:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 14


En este ejemplo:

 Se selecciona el área de negocio A – Sample Sales.

 Las cuatro pestañas son desplegadas en el menú superior: Criteria, Results, Prompts y
Advanced.

 Seleccionar las columnas del panel que serán utilizados en el análisis.

La imagen muestra las carpetas y columnas, y la selección del área de negocio A – Sample Sales.

ESTE DOCUMENTO CONTIENE LA SEMANA 7 15


a) Se seleccionan las siguientes columnas para el análisis:

b) A continuación se muestran las columnas seleccionadas en el análisis:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 16


4) Hacer clic en la pestaña Results. Esta muestra la previsualización del reporte:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 17


3.2. CREACIÓN DE FILTROS
Los filtros modifican el análisis y el resultado obtenido. Estos pueden ser aplicados directamente a
un atributo en particular y se encuentran asociados al análisis y no como objetos dentro del
catálogo de análisis y dashboard.

Para crear un filtro se realizan los siguientes pasos:

1) Hacer clic en la pestaña superior llamada Criteria, seleccionar la columna Cust Regions → C50
Region y crear un filtro:

2) Se puede también crear un filtro haciendo clic en el ícono Create a filter for the current Subject
Area en el panel de filtros y seleccionando la columna desde el menú de lista, como se muestra
en la siguiente imagen para la columna seleccionada Cust Regions → C50 Region:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 18


3) El nuevo filtro es desplegado. Aceptar el valor para el operador que es is equal to / is in y
aceptar los valores para la columna:

4) En el panel Filters se despliega el nuevo filtro:

ESTE DOCUMENTO CONTIENE LA SEMANA 7 19


COMENTARIO FINAL
En esta semana se mostraron distintos ejemplos, entre ellos un ejercicio práctico de creación de
ETL con Oracle Warehouse Builder. La creación de ETL es uno de los procesos más importantes
para obtener información de calidad. Una organización que implementa esta herramienta de
Oracle optimiza sus procesos para buscar información analítica de calidad, esto permitirá mejorar
las ventas y generar estrategias de mejora continua.

Asimismo, se presentó un tutorial para la creación de análisis de reportes y filtros con la


herramienta Oracle Business Intelligence. Dentro de las principales características que poseen los
reportes está el mostrar información de negocio de acuerdo a las necesidades de usuario,
incluyendo filtros por atributos y años específicos, entre otros.

ESTE DOCUMENTO CONTIENE LA SEMANA 7 20


REFERENCIAS
Kimball, R. y Caserta, J. (2004). The datawarehouse ETL toolkit. 1a edición. Canadá: John Wiley &

Sons.

Moreno, R. (2012). Guía metodológica para el estudio y utilización de la plataforma de inteligencia

de negocios Oracle Business Intelligence Standard Edition One. Disponible en:

http://repositorio.utp.edu.co/dspace/bitstream/11059/2689/1/0057565M843g.pdf

Oracle. (2007). Oracle Warehouse Builder 11g versión 1. Disponible en:

http://www.oracle.com/technetwork/es/documentation/317502-esa.pdf

Ponniah, P. (2001). Data warehousing fundamentals: A comprehensive guide for IT professionals.

EE. UU.: John Wiley & Sons, Inc. Disponible en:

https://anuradhasrinivas.files.wordpress.com/2013/03/data-warehousing-fundamentals-

by-paulraj-ponniah.pdf

PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:

IACC (2015). Orígenes de datos, bodegas de datos y Oracle Business Intelligence 11g. Parte II.

Herramientas de Business Intelligence. Semana 7.

ESTE DOCUMENTO CONTIENE LA SEMANA 7 21


ESTE DOCUMENTO CONTIENE LA SEMANA 7 22

You might also like