You are on page 1of 8

PLAN DE MIGRACIN DE DATOS PARA SAN ANTONIO DEL SENA

CALLETANA LPEZ BALETA

INSTRUCTOR
JONATHAN QUICENO VARGAS
INGENIERO DE SISTEMAS Y COMPUTACIN

SERVICIO NACIONAL DE APRENDIZAJE


PROGRAMA
ESPECIALIZACIN TECNOLGICA EN GESTIN Y SEGURIDAD DE BASE
DE DATOS
MODALIDAD VIRTUAL
2017
INTRODUCCION

Para escoger la estrategia de migracin, se realiz un anlisis detallado, teniendo


en cuenta las directrices del sistema, especialmente en lo referente a mantener la
integracin de la funcionalidad y de los datos, as como las expectativas de los
usuarios respecto a la informacin activa e histrica, la facilidad de operacin y de
consulta, la viabilidad tcnica y las restricciones del Proyecto.

La estrategia tecnolgica escogida para el desarrollo de la migracin es la


implementacin de ambientes separados de diseo y ejecucin. Con esta opcin
existe un repositorio que almacena definiciones de metadatos para objetos como
fuentes, destinos, y procesos de extraccin, transformacin y carga a los cuales
tienen acceso los usuarios a travs del Centro de Diseo.
TCNICA Y ESTRATEGIA A UTILIZAR

La herramienta escogida para el proceso de migracin de datos determina la


arquitectura tecnolgica a implementar. A continuacin se describen los principales
componentes de la arquitectura y la opcin de implementacin escogida.

Pentaho Data Integration

Pentaho Data Integration proporciona un enfoque declarativo de ETL donde se

especifica qu hacer en lugar de como hacerlo. Incluye una biblioteca de

transformacin con ms de 70 objetos de mapeo. En incluye la capacidad de

almacenamiento de datos para cambiar lentamente y basura Dimensiones. Incluye

soporte para mltiples fuentes de datos, incluyendo ms de 25 plataformas de

cdigo abierto y de base de datos , archivos planos, documentos de Excel, y mucho

ms. La arquitectura es extensible con un mehcanism plug-in.

Integracin de datos

La plataforma ofrece, "anlisis listos" datos precisos a los usuarios finales de


cualquier fuente. Con las herramientas visuales para eliminar la codificacin y
complejidad, Pentaho pone de datos grandes y todas las fuentes de datos en las
yemas de los dedos de las empresas y los usuarios de TI.

El Centro de Diseo es la interfaz de usuario que se utiliza en el diseo,


administracin, programacin y despliegue de procesos para mover y transformar
los datos. Todos los metadatos asociados con el trabajo hecho en el Centro de
Diseo se almacenan en el repositorio.
CARACTERSTICAS DE LA HERRAMIENTA
INTEGRACIN DE DATOS GRANDE CON CERO CODIFICACIN
OBLIGATORIO

Herramientas intuitivas de Pentaho aceleran el tiempo que se necesita para disear,


desarrollar y desplegar anlisis de datos grandes en hasta 15x.

Grandes herramientas de integracin de datos visuales completas eliminan


la codificacin en SQL o escribir funciones MapReduce Java.

Amplia conectividad a cualquier tipo o fuente de datos con soporte nativo


para Hadoop, NoSQL y bases de datos analticos.

Motor de procesamiento paralelo para garantizar un alto rendimiento y


escalabilidad empresarial.

Extraer y combinar los datos existentes y diversos para producir uniformes


y de alta calidad listos para analizar los datos.

SIMPLE DISEADOR VISUAL DE ARRASTRAR Y DESARROLLO GOTA

Empoderar a los desarrolladores con herramientas visuales para minimizar la


codificacin y lograr una mayor productividad.

Extraccin, transformacin y carga grfica (ETL) herramienta para cargar y


fuentes de datos grandes de proceso en formas familiares.

Rich librera de componentes pre-construidos para acceder y transformar


datos de un amplio espectro de fuentes.

Interfaz visual para llamar a cdigo personalizado, analizar las imgenes y


archivos de vdeo para crear metadatos significativa.

Transformaciones dinmicas, utilizando las variables para determinar


asignaciones de campo, validacin y reglas de enriquecimiento.

Depurador integrado para pruebas y puesta a punto la ejecucin del trabajo.


SOPORTE NATIVO Y FLEXIBLE PARA TODAS LAS FUENTES DE BIG
DATA

Una combinacin de conexiones nativas de profundidad y una capa de datos de


datos de gran adaptativo aseguran el acceso acelerado a las distribuciones
principales de Hadoop, bases de datos NoSQL, y otras tiendas de grandes datos.

El apoyo a las distribuciones de Hadoop de Cloudera, Hortonworks y MapR.

Plugins a bases de datos NoSQL como Cassandra y MongoDB, as como las


conexiones a almacenes de datos especializados como Amazon Redshift y
Splunk.

Capa de datos grande adaptable ahorra empresas considerable el tiempo de


desarrollo, ya que aprovechan las nuevas versiones y capacidades.

Mayor flexibilidad, reduccin del riesgo, y el aislamiento de los cambios en el


gran ecosistema de datos.

Presentacin de informes y anlisis sobre las cantidades crecientes de


usuario y los datos de mquina generados, incluyendo contenido de la web,
documentos, medios de comunicacin social y los archivos de registro.

Integracin de las tareas de datos Hadoop en general de TI / ETL / soluciones


de BI con distribucin escalable en el clster.

El apoyo a los servicios pblicos para carga de datos a granel paralelos para
la carga de datos con el mximo rendimiento.

DESCRIPCIN DE LAS FASES

Anlisis y Diseo
Objetivo: Realizar un examen completo y establecer una lista de chequeo de los
elementos de datos del sistema que sern migrados. Del mismo modo se realiza el
mapeo de los elementos de datos de la fuente al destino.
ACTIVIDADES

En el esquema iterativo, las actividades de anlisis estn dirigidas a suplir los


requerimientos del sistema. Se deben hacer tres consideraciones.

- Descubrimiento inicial. Proceso que permite entender el valor de todos los


elementos de datos, rangos, etc. y poner en evidencia las relaciones entre ellos.
- Mapeo. Permite entender cules bases de datos, entidades y atributos
satisfacen los requerimientos de informacin del sistema destino. Se debe
evaluar qu relacin origen-destino satisface el requerimiento de manera ptima
y determinar los cambios requeridos (transformacin) en los esquemas de datos
incluyendo cules elementos no existen, y son necesarios, en la nueva
aplicacin.

El resultado de la fase de anlisis y diseo es la especificacin del mapeo entre los


sistemas fuente y el sistema destino. Entre mejor sea la especificacin inicial menos
iteraciones se tendrn que realizar.

Realizar el anlisis de la topologa y obtener estimados de desempeo. Es


necesario precisar la duracin de la migracin una vez se ejecuten las iteraciones
previas a la migracin final.

EXTRACCIN Y TRANSFORMACIN

Objetivo: Desarrollar los procedimientos transformacin y validacin

ACTIVIDADES:

Un anlisis preciso permitir un trabajo eficiente en las siguientes fases. Despus


de que se conoce que datos migrar, donde conseguirlos y como se mapean en el
destino, el siguiente paso es construir los procedimientos necesarios para extraer
los datos y transformarlos hacia el formato adecuado.
Durante la fase de desarrollo adems de construir los scripts y el cdigo especfico
de la migracin utilizando la herramienta de migracin seleccionada se deben
enfrentar dos situaciones:

VALIDACIN
Objetivo: Validacin de datos en de preparacin.

Actividades:

Una vez se tiene listo el mapeo el siguiente paso es chequear si los datos cumplen
las validaciones del sistema destino, incluyendo reglas de negocio, restricciones de
semntica o sintcticas. Estas actividades se pueden realizar con la misma
herramienta de desarrollo de tal manera que el resultado de esta fase es un conjunto
de procedimientos o scripts a travs de los cuales se realizarn las validaciones
mencionadas.

PRUEBAS Y CARGUE
Objetivo: Ejecutar los scripts o el cdigo generados en la fase de desarrollo de la
migracin, enmarcndolos en un contexto de semntica del negocio que permita
resolver los problemas lgicos as como los errores fsicos.

ACTIVIDADES

En la fase de pruebas del usuario se identifican y resuelven los errores lgicos. El


primer paso es ejecutar los mapas. As los mapas se ejecuten correctamente hay
que identificar:

- El nmero de registros que se espera que el script cree.


- Si efectivamente ese nmero de registros se crearon, si no explicar el por qu
no fue as.
- Si los datos fueron cargados en los campos correctos.
- Si el formato de los datos fue el adecuado.
- Si el sistema destino permite limpiar los datos cargados si la carga no fue
satisfactoria y existe el procedimiento para hacerlo, mediante el uso de la capa
intermedia de transformacin. El objeto es asegurar que la migracin est
correcta antes de poblar el sistema destino.

You might also like