Professional Documents
Culture Documents
PRESENTADO A
VALLEDUPAR-CESAR
2018
1. INTRODUCCION
JUSTIFICACION
OBJETIVOS
IV. METODOLOGIA
X. DICCIONARIO DE DATOS
XI. VOLUMETRIA
XVII. CONCLUSION
1 Introducción
JUSTIFICACION
La importancia de contar con una guía general de implementación de una bodega de datos, radica
en los tiempos de implementación del modelo y en los estándares de documentación que se
generan como proceso para la construcción de los cubos multidimensionales que aporten valor
agregado a la empresa.
OBJETIVOS
Diseñar una guía general para la implementación de un Bodega de datos para el área de ventas de
una empresa.
OBJETIVOS ESPECIFICOS
Datawarehouse
Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar
información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde
infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un
datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista
técnico, para implantar una solución completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena
la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc.). Este
tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el
tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas
operacionales).
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente
como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió
el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos.
Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su
fiabilidad, forma de cálculo... etc.
2.1 Arquitectura de una bodega de datos
El sistema es bodega de datos consta de 3 niveles, el primero conformado por las bases de datos
fuente; el segundo una base de datos resumidos extraídos de las bases de producción (Data
Warehouse) y el ultimo construido por las interfaces orientadas a usuarios que extraen
información para la toma de decisiones (Reinosa, 2012, p.196).
Acceso a Fuentes: dentro de este grupo se incluye todos los procesos responsables o que
se van a aplicar en las bases transaccionales y planos donde se hará el trabajo de
transferencia, Vale resaltar, que incluye el mapeo de los datos que pueden ser replicados
para otros esquemas o para bases de datos físicas localizadas fuera de la organización. Es
el grupo en el que se destina un porcentaje bastante alto pues se debe hacer un trabajo
exhaustivo de mapeo , integración y muestreo de todos los datos, así como la verificación
de las aplicaciones que trabajan con dicha información.
Carga: dentro de este grupo se organizan y asocian todos los procesos de migración de los
datos, pero no solo de eso, la extracción , depuración , conversión y carga de estos datos;
de acá se desprenden pasos que se deben tener en cuenta al momento de la carga,
comenzando por la extracción de los datos o acceso a los datos, para ello se entablan
diferentes herramientas o formas de acceder, por un lado pueden ser consultados
mediante querys , vistas, aunque cuales quiera de las dos primeras formas es válida, existe
una recomendación en el uso de la extracción puesto que es importante tener en cuenta
que durante un query podemos obtener datos que queden desactualizados por estar en
transacción de actualización, por lo cual es recomendable el uso de vistas para el acceso a
esta información , aunque sacrifique el almacenamiento. Durante este proceso es
necesario la verificación de la integridad y calidad de la extracción, es necesario identificar
inconsistencias para no perder información al paso del datawarehouse. Como segundo
proceso importante dentro de la carga se encuentra la conversión que es el último paso
para la preparación de los datos que se van a cargar a la bodega, básicamente se trata de
los cálculos necesarios para transferir a la bodega o manipulación del dato original.
Almacenamiento: este grupo abarca la arquitectura necesaria para ingresas los datos al
datawarehouse, si bien es cierto que la bodega es un solo almacenamiento, se tiene que
tener estructurado la forma en la que se obtendrá dicha información.
Consultas: el acceso final de los datos procesados, convertidos en gráficos, estadísticas,
tendencias, permiten al usuario analizar y producir reportes que luego serán utilizados
para toma de decisiones.
3 Metodología Kimball
La Metodología Kimball, es una metodología empleada para la construcción de un almacén de
datos (data warehouse, DW) que no es más que, una colección de datos orientada a un
determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo,
que ayuda a la toma de decisiones en la entidad en la que se utiliza.
La metodología se basa en lo que Kimball denomina Ciclo de Vida Dimensional del Negocio
(Business Dimensional Lifecycle). Este ciclo de vida del proyecto de DW, está basado en cuatro
principios básicos:
Centrarse en el negocio
Construir una infraestructura de información adecuada
Realizar entregas en incrementos significativos (este principio consiste en crear el almacén
de datos (DW) en incrementos entregables en plazos de 6 a 12 meses, en este punto, la
metodología se parece a las metodologías ágiles de construcción de software)
Ofrecer la solución completa (En este se punto proporcionan todos los elementos
necesarios para entregar valor a los usuarios de negocios, para esto ya se debe tener un
almacén de datos bien diseñado, se deberán entregar herramientas de consulta ad hoc,
aplicaciones para informes y análisis avanzado, capacitación, soporte, sitio web y
documentación).
Además en esta parte definimos cómo realizar la administración o gestión de esta subfase que es
todo un proyecto en sí mismo, con las siguientes actividades:
Se sugiere entrevistar al personal que se encuentra en los cuatro grupos que se mencionan a
continuación:
Si avanzamos por el camino central del diagraman, encontramos las tareas asociadas al área de
Datos, en esta, diseñaremos e implementaremos el modelo dimensional, y desarrollaremos el
subsistema de Extracción, Transformación y Carga (Extract, Transformation, and Load - ETL) para
cargar el DW. Las tareas pertenecientes al área, se describen a continuación:
A. Elegir el proceso de negocio: que consiste en, elegir el área a modelizar. Esta es una
decisión de la dirección, y depende fundamentalmente del análisis de requerimientos y de
los temas analíticos anotados en la etapa anterior.
B. Establecer el nivel de granularidad: La granularidad significa especificar el nivel de detalle.
La elección de la granularidad depende de los requerimientos del negocio y lo que es
posible a partir de los datos actuales. La sugerencia general es comenzar a diseñar el DW
al mayor nivel de detalle posible, ya que se podrían realizar agrupamientos posteriores, al
nivel deseado.
C. Elegir las dimensiones: Las dimensiones surgen naturalmente de las discusiones del
equipo, y facilitadas por la elección del nivel de granularidad y de la matriz de
procesos/dimensiones (que se realiza en la tarea 4.2) Las tablas de dimensiones tienen un
conjunto de atributos (generalmente textuales) que brindan una perspectiva o forma de
análisis sobre una medida en una tabla hechos. Una forma de identificar las tablas de
dimensiones es que sus atributos son posibles candidatos para ser encabezado en los
informes, tablas pivot, cubos, o cualquier forma de visualización, unidimensional o
multidimensional.
D. Identificar medidas y las tablas de hechos: Este paso, consiste en identificar las medidas
que surgen de los procesos de negocios. Una medida es un atributo (campo) de una tabla
que se desea analizar, sumando o agrupando sus datos y usando los criterios de corte
conocidos como dimensiones. Las medidas habitualmente se vinculan con el nivel de
granularidad del punto 2, y se encuentran en tablas que denominamos tablas de hechos
(fact en inglés). Cada tabla de hechos tiene como atributos una o más medidas de un
proceso organizacional, de acuerdo a los requerimientos. Un registro contiene una medida
expresada en números, como ser cantidad, tiempo, dinero, etc., sobre la cual se desea
realizar una operación de agregación (promedio, conteo, suma, etc.) en función de una o
más dimensiones. La granularidad, en este punto, es el nivel de detalle que posee cada
registro de una tabla de hechos.
¿Cuáles son los factores de uso que llevarán a una configuración más grande y más compleja?
¿Qué necesitan instalar los diferentes miembros del equipo de DW/BI en sus estaciones de
trabajo?
¿Cómo convertir el modelo de datos lógico en un modelo de datos físicos en la base de datos
relacional?
3.6 Implementación
La implementación representa la convergencia de la tecnología, los datos y las aplicaciones de
usuarios finales accesible desde el escritorio del usuario del negocio. Existen varios factores extras
que aseguran el correcto funcionamiento de todas estas piezas, entre ellos se encuentran la
capacitación, el soporte técnico, la comunicación y las estrategias de feedback.
Si avanzamos por el camino inferior del diagraman, encontramos las tareas asociadas al área
Aplicaciones de Inteligencia de Negocios, en esta ruta se encuentran tareas en las que diseñamos y
desarrollamos las aplicaciones de negocios para los usuarios finales. Las tareas pertenecientes al
área, se describen a continuación:
3.8 Especificación de aplicaciones de BI
En esta tarea se proporciona, a una gran comunidad de usuarios una forma más estructurada y por
lo tanto, más fácil, de acceder al almacén de datos. Se proporciona este acceso estructurado a
través de lo que llamamos, aplicaciones de inteligencia de negocios (Business Intelligence
Aplications). Las aplicaciones de BI son la cara visible de la inteligencia de negocios: los informes y
aplicaciones de análisis proporcionan información útil a los usuarios. Las aplicaciones de BI
incluyen un amplio espectro de tipos de informes y herramientas de análisis, que van desde
informes simples de formato fijo, a sofisticadas aplicaciones analíticas que usan complejos
algoritmos e información del dominio. Kimball divide a estas aplicaciones en dos categorías
basadas en el nivel de sofisticación, y les llama:
Detección de fraudes
Por último, en el camino superior, encontramos las tareas asociadas al área Tecnología en esta
ruta, se encuentran las tareas relacionadas con software específico, por ejemplo, Microsoft SQL
Analysis Services, etc. Las tareas pertenecientes al área, se describen a continuación:
MODELADO DIMENSIONAL
El modelado dimensional es un diseño lógico que presenta la información de una manera
estándar, sencilla y sobre todo intuitiva para los usuarios del negocio. El modelo dimensional está
conformado por una tabla de hechos (Fact) y tablas de dimensión.
Nuestro proceso del negocio es el área de ventas y este procesos es el que vamos a modelar.
Vamos a usar el siguiente modelado:
Siguiendo con la guía y aplicando la metodología de Kimball iniciamos con Planificación del
Proyecto donde determinamos la construcción de la bodega de datos del área de ventas.
Se deben determinar unas acciones para la planificación del proyecto:
• El alcance, en nuestro caso nuestro alcance es el área de ventas de una empresa, la
construcción de la bodega de datos y el diseño de los cubos multidimensionales.
• Identificar las tareas que se van a desarrollar en la construcción de la bodega de datos.
Las tareas que identificamos en la guía son:
Especificar de manera clara y precisa de las funciones que se esperan obtener de la
bodega de datos.
. • El DATA MART debe usar nombres estandarizados para que la posterior generación de reportes
sea de manera intuitiva
Algunas empresas pueden necesitar más requerimientos, si es así, se deben identificar todos los
informes posibles del área de ventas; rastrear los documentos de estrategia interna; realizar
entrevistas a los encargados del área (ejecutivos, directivos, técnicos) y se deben conocer los
términos y la terminología del negocio para identificar los requerimientos específicos de la
empresa.
Requerimientos del sistema para una bodega de datos
1. ¿cuáles productos se venden con mayor periodicidad en el almacén:
2. Cuáles son los vendedores con mayor número y monto de venta de cada almacén, montar
información mes a mes.
3. ¿cuál es la categoría que represento más y menos ingresos por año, por mes y por
semestre?
4. ¿Cuál es la categoría favorita de los clientes con mayor cantidad de compras en un periodo
de tiempo?
5. ¿Cuál es el mejor cliente con respecto a las compras que se hace por monto?
Resuelto en talend
MES A MES
En este grafica se puede visualizar el monto de venta que efectuó el vendedor en el
almacén, este grafico se caracteriza por ir de mes a mes.
2. ¿cuál es la categoría que represento más y menos ingresos por año, por mes y por
semestre?
POR AÑO
POR MES
POR SEMESTRE
3. ¿Cuál es la categoría favorita de los clientes con mayor cantidad de compras en un periodo
de tiempo?
Resuelto en talend
PERIODO DE TIEMPO
4. ¿Cuál es el mejor cliente con respecto a las compras que se hace por monto?
Resuelto en talend
El mejor vendedor es Hugo flores bautista porque es el genera más dinero para la
empresa, ya que el mejor vendedor no es el que más genere factura si no el que más
genere plata.