Describiendo una solucin Big Data basada en Hadoop:
Fuentes de datos: son todos aquellos datos que obtenemos de diferentes
fuentes que generan datos y que son de gran importancia para una organizacin, compaa, empresa etc. Estos datos son clasificados de la siguiente manera: Datos estructurados, son aquellos datos transaccionales que provienen de la organizacin, la cual rene informacin acerca de sus clientes, proveedores, operaciones, etc. Por otro lado tenemos los datos Semi-estructurados que son todos aquellos datos que se refieren a una informacin implcita, pero no tan regular como para ser gestiona como la estructurada, algunos ejemplos de estos datos son: Emails, pginas web, XML, JSON, y por ultimo tenemos los datos No-estructurados que son todos aquellos que no poseen ningn tipo de estructura y estos podemos tomarlos de redes sociales, youtube, sensores etc. Coleccin e Integracin: en este bloque tal y como comenta el su nombre, es el proceso mediante el cual se extrae toda la data que queremos procesar en nuestra plataforma Hadoop. Algunas herramientas de integracin son:
Scoop, el cual recolecta informacin de diferentes bases de datos.
Flume, recolecta datos en tiempo real, como Logs, sensores, etc...
Algunas tecnologas DataStage
comerciales:
Talend,
Pentaho,
Informtica,
IBM
rea de Staging, Agregacin: Cuando ya hemos extrado los datos, viene
el siguiente proceso de transformacin (conversin de datos, limpieza de datos sucios, cambio de formatos) para luego ser cargados. Herramientas para el proceso de transformacin son: Hive, Pig Almacenamiento: en este bloque despus de ya transformados los datos son comnmente cargados a la fuente de datos HDFS el cual se define bsicamente como un sistema de ficheros distribuido en miles de nodos optimizado para trabajar con petabytes de datos sin inconvenientes. Algunas soluciones hibridas combinadas con el HDFS, denominadas NoSQL (Not only SQL) son: Cassandra, CouchDB o MongoDB, H-BASE
Anlisis: en esta etapa existe un proceso de transformacin el cual se
transforma los datos almacenados en informacin. Aqu necesitaremos diferentes tcnicas de anlisis de datos como las que se muestran a continuacin:
Anlisis de texto Anlisis predictivo Minera de datos
Algunas tecnologas para el anlisis de datos son: Hadoop (libreras Mahout),
R, IBM SPSS, SAS Presentacin/visualizacin: en este bloque de visualizacin tambin denominado bloque de decisin, el cual permite la interaccin con los analistas de negocio con los resultados del anlisis, representados por graficas o mapas siendo mucho ms amigable para la visualizacin en vez de reportes expresados tablas y conclusiones. Algunas tecnologas de visualizacin son: Tableau Software, IBM Cognos, Qlikview, MicroStrategy, etc