You are on page 1of 2

Actividad 1: Describir una arquitectura Big Data

Describiendo una solucin Big Data basada en Hadoop:

Fuentes de datos: son todos aquellos datos que obtenemos de diferentes


fuentes que generan datos y que son de gran importancia para una
organizacin, compaa, empresa etc. Estos datos son clasificados de la
siguiente manera: Datos estructurados, son aquellos datos transaccionales
que provienen de la organizacin, la cual rene informacin acerca de sus
clientes, proveedores, operaciones, etc. Por otro lado tenemos los datos
Semi-estructurados que son todos aquellos datos que se refieren a una
informacin implcita, pero no tan regular como para ser gestiona como la
estructurada, algunos ejemplos de estos datos son: Emails, pginas web,
XML, JSON, y por ultimo tenemos los datos No-estructurados que son todos
aquellos que no poseen ningn tipo de estructura y estos podemos tomarlos
de redes sociales, youtube, sensores etc.
Coleccin e Integracin: en este bloque tal y como comenta el su nombre,
es el proceso mediante el cual se extrae toda la data que queremos procesar
en nuestra plataforma Hadoop. Algunas herramientas de integracin son:

Scoop, el cual recolecta informacin de diferentes bases de datos.


Flume, recolecta datos en tiempo real, como Logs, sensores, etc...

Algunas tecnologas
DataStage

comerciales:

Talend,

Pentaho,

Informtica,

IBM

rea de Staging, Agregacin: Cuando ya hemos extrado los datos, viene


el siguiente proceso de transformacin (conversin de datos, limpieza de
datos sucios, cambio de formatos) para luego ser cargados. Herramientas
para el proceso de transformacin son: Hive, Pig
Almacenamiento: en este bloque despus de ya transformados los datos
son comnmente cargados a la fuente de datos HDFS el cual se define
bsicamente como un sistema de ficheros distribuido en miles de nodos
optimizado para trabajar con petabytes de datos sin inconvenientes.
Algunas soluciones hibridas combinadas con el HDFS, denominadas NoSQL
(Not only SQL) son: Cassandra, CouchDB o MongoDB, H-BASE

Anlisis: en esta etapa existe un proceso de transformacin el cual se


transforma los datos almacenados en informacin. Aqu necesitaremos
diferentes tcnicas de anlisis de datos como las que se muestran a
continuacin:

Anlisis de texto
Anlisis predictivo
Minera de datos

Algunas tecnologas para el anlisis de datos son: Hadoop (libreras Mahout),


R, IBM SPSS, SAS
Presentacin/visualizacin: en este bloque de visualizacin tambin
denominado bloque de decisin, el cual permite la interaccin con los
analistas de negocio con los resultados del anlisis, representados por
graficas o mapas siendo mucho ms amigable para la visualizacin en vez
de reportes expresados tablas y conclusiones.
Algunas tecnologas de visualizacin son: Tableau Software, IBM Cognos,
Qlikview, MicroStrategy, etc

You might also like