Professional Documents
Culture Documents
cuaderno
del Big Data
Una gua prctica para
emprender su primer
proyecto de Big Data.
ndice
Introduccin 3
ParteC. Su eficaz cadena
ParteA. Preparacin desuministro de datos 36
4
grande
elBig Data. tan nuevo, tanto ruido ha confundido
a mucha gente.
Claro que pocas tendencias Este cuaderno pretende disipar
tecnolgicas han ofrecido a las talconfusin.
empresas tanto potencial de
transformacin. Desde que, a finales Trata sobre la manera de blindar
de siglo, el software empez a suestrategia y ejecutarla con
envolver por completo los procesos pragmatismo. Tanto si empieza una
denegocio, ha estado claro: iniciativa tctica localizada como si
los datos cambian nuestra forma planea una iniciativa de cimentacin
detrabajar. que abarque toda la empresa, este
cuaderno le servir como gua
Cmo no, una gran fama conlleva prctica para la transicin.
unagran decepcin. En el caso del
Big Data, no cabe duda de que hemos Vamos al asunto.
presenciado tanto buenos consejos
como desinformacin repartidos a
partes iguales. Por desgracia, debido
imprescindible 12
2
Informacin
imprescindible
1
www.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/
7 | Informatica: El gran cuaderno del Big Data d-id/1108384
Informacin
imprescindible
Con toda la fama del Big Data, Cuando las expectativas del Si se tiene en cuenta lo En los casos en que se contrata a
hay quien llega a algunas impacto y de la informacin novedosaque es esta disciplina los escasos y bien remunerados
suposiciones muy arriesgadas sondemasiado elevadas, para la empresa, no sorprende desarrolladores de Java para
encuanto a lo que puede acababuscando petrleo en un que casi todos los proyectos de Hadoop, a quienes se les
ofrecerel proyecto. Aunque mar deterabytes de incgnitas. Big Data terminen costando o encomiendan titnicas
resulte tentador hacer promesas Silasexpectativas de la oferta tardando ms de lo previsto. implementaciones de
valientes para plazos breves, no son realistas, se encontrar Ellose suele deber a una codificacin manual, las
esimportante mantener una intentando cumplir plazos y mezclade expectativas irreales empresas no tardan en asumir
visin realista de lo que cabe presupuestos nada razonables. eincomprensin del que resulta imposible salir del
esperar del proyecto, el tiempo procedimiento para crear entorno de pruebas sin ningn
que va a necesitar y la cantidad unaarquitectura escalable. error. La consecuencia es que los
de esfuerzos que requiere. proyectos de Big Data terminan
como un experimento cientfico
que languidece en el laboratorio
y nunca llega a ver la luz.
Incapacidad de escalar
Si ya cuesta bastante trabajo Con demasiada frecuencia, Las cuatro causas del fracaso
encontrar cinco desarrolladores lasempresas se fijan ms en la delBig Data son preocupantes
buenos de Java para Hadoop, conveniencia a corto plazo que ydemasiado habituales.
en el momento en que los en la sostenibilidad a largo Acontinuacin, veremos cmo
proyectos aumentan de tamao plazo. Aunque no tendra sentido puede evitarlas y crear una
yhacen falta 30desarrolladores sugerir que se evite siempre esa implementacin duradera.
de Java en un mismo ao, el contrapartida, nunca nos
atasco puede ser monumental. cansaremos de insistir en la
Lopeor no es la oportunidad importancia de la visin a largo
perdida por no utilizar clsteres plazo. Para que los datos
Hadoop, sino la prdida de cuenten con la proteccin y la
tiempo y de empuje. gestin apropiadas, es
imprescindible supervisar las
implicaciones a largo plazo del
proyecto.
Evite la tentacin de codificar Ms importante si cabe es evitar y reserve para sus superestrellas
todo de forma manual y la trampa de malgastar el escaso de Java el trabajo en la lgica
directamente en Hadoop. y costoso talento en el desarrollo especfica, para la cual no hay
Recuerde que el objetivo no es de Java en aspectos que se herramientas disponibles.
crear de la nada y con sus pueden delegar en otros
propias manos una empleados. Su funcin consiste Adems, dado que las
implementacin que funcione, en tomar decisiones estratgicas tecnologas como Hadoop
sino suministrar el valor del Big sobre la implantacin de evolucionan da a da, vale la
Data a su organizacin. recursos limitados de tal manera pena perfilar una capa de
que se alcancen los objetivos. abstraccin que sirva como
En lugar de realizar la codificacin proteccin ante los constantes
manual de todas las integraciones, Decntese por herramientas que cambios en las especificaciones
limpiar todos los conjuntos de datos aumenten la productividad del de las tecnologas subyacentes.
y, luego, realizar la codificacin equipo de desarrollo
manual de todos los anlisis, aprovechando las competencias Ante todo, recuerde que las
busque herramientas y mtodos de y los conocimientos de sus competencias que necesita
automatizacin con los que actuales expertos en ETL, calidad escasean, pero siempre hay
acelerar estos procesos. de datos y business intelligence, herramientas disponibles.
El primer proyecto tctico tiene Una vez que demuestre el valor Como sealbamos en el ltimo As pues, prepare condiciones
una importancia estratgica vital. del Big Data al departamento de punto, el valor del primer de escalabilidad para poder
Aparte de demostrar ms all de marketing, por ejemplo, resultar proyecto le sirve para convencer ocuparse de ms proyectos en el
toda duda razonable que el Big ms sencillo recabar apoyos a otros departamentos de la futuro. No se trata solo de
Data resulta til para la unidad entre los equipos de logstica, empresa. Con ese fin, debe escalar el clster. Se trata de
de negocio en cuestin, debe loscuales se habran mostrado aprender las competencias, las escalar las competencias y las
asegurarse, asimismo, de que su reticentes en otro caso. capacidades y las lecciones operaciones. O bien tiene que
valor se comunica despus con apropiadas con el primer descubrir ms superestrellas de
facilidad al resto de la empresa. proyecto. Con ms exactitud, Java para Hadoop o bien halla
tiene que documentarlas de la manera de sacar ms partido
Por ello, a la hora de escoger el manera que pueda trasladarlas a los recursos de los que ya
primer proyecto, tenga en cuenta al siguiente proyecto. Recuerde dispone.
la estrategia. que, si pretende lograr el xito,
debe mirar a los proyectos
futuros.
Consideracin de
lasrepercusiones
A la hora de elegir el prximo 1
proyecto, tambin debe tener en
consideracin cmo va a Coste y trastorno
repercutir en su organizacin.
Hay tres aspectos generales En trminos muy bsicos, el coste En otras ocasiones, guarda ms
fundamentales para convencerse del proyecto depende del tiempo relacin con las competencias y
de que persigue el proyecto de y del dinero necesarios para las tecnologas, por ejemplo,
Big Data adecuado. ponerlo en funcionamiento. A la cuando es preciso integrar
hora de la verdad, tambin hay tecnologas nuevas en la
que sopesar la perturbacin que infraestructura existente y
puede provocar. reorganizar o actualizar las
competencias para hacerlo.
En ocasiones, solo se trastornan
los procedimientos: las unidades En cualquier caso, debe prever
de negocio acostumbradas a ser los posibles trastornos,
propietarias de sus datos no se reconocerlos y asegurarse de
sienten cmodas al ceder el minimizarlos o de comunicar su
control a una estructura vala.
centralizada de gobernanza de
datos.
Consideracin de
lasrepercusiones
2 3
Al estudiar varios proyectos Ms importante an: cundo Teniendo en cuenta el anlisis de La consecucin de ese objetivo
iniciales, es natural decantarse notarn los usuarios de negocio los dos factores anteriores, opera en ambos sentidos. Por un
por los que ofrecen ms mejoras dicho impacto? Por ejemplo, si piense en los recursos que hay a lado, pretende conseguir la
y el mximo efecto para el introduce la gestin de datos su disposicin. Trataremos este mxima repercusin en el
negocio. No obstante, tambin maestros en el data warehouse, tema a fondo ms adelante pero, negocio pero, por otro, debe
es relevante abundar en la mejorar de forma drstica la de momento, tenga en cuenta trazar una estrategia de
naturaleza del impacto en el eficiencia de su business que, como es natural, su inversin del presupuesto.
negocio: se apreciar la mayor intelligence, pero los analistas de intencin con el proyecto es Aunque le seduzca la idea de
parte del valor a corto o a largo negocio solo percibirn ese valor esquilmar cada euro invertido. formar un equipo de
plazo? cuando se den cuenta de que no especialistas en datos
tendrn que volver a limpiar comparable al de Google,
datos financieros nunca ms. acaso se lo puede permitir?
Tomar decisiones inteligentes en
lo referente a herramientas y
personal es esencial para lograr
el xito del proyecto.
2 3
Un lago de datos gestionado es Para ello, es preciso crear un Tiene que crear las tecnologas a quienes tienen ms
un lugar nico para gestionar lago de datos para perfeccionar, (anlisis, aplicaciones de gran probabilidades de descartar la
elsuministro y la demanda de gobernar y controlar los datos. capacidad o interfaces de empresa en las dos semanas
todos los datos. En este caso, el Sin embargo, hace falta mucha interaccin) que necesita su siguientes.
trmino operativo es "gestionar". previsin para conseguirlo pues personal para acceder a todos
El objetivo consiste en es imprescindible incorporar esos datos, analizarlos y
transformar el caos repartido en procesos y polticas de suministrarlos. Las aplicaciones
varias estructuras en informacin gobernanza de datos que cree han de ser fciles de
segura, fiable y especfica. estratgicos y rigurosos. Si no se usar y deben proporcionar la
implantan, el lago corre el riesgo informacin que necesitan los
de convertirse, ni ms ni menos, usuarios.
en una cinaga de datos.
Se puede tratar, por ejemplo,
dela interfaz con la que los
representantes del servicio de
atencin al cliente supervisan el
comportamiento de los clientes
en distintos canales e identifican
Optimizacin del data warehouse Lago de datos gestionado Anlisis en tiempo real
Definicin de
276 m.
70 mph.
sus objetivos
101 m.
75 mph.
501 m.
69 mph.
411 m.
67 mph.
136 m.
72 mph.
Definicin de sus
objetivos
Objetivos de negocio
Empezaremos por el Los objetivos que se planteen Cuanto ms claros sean los
conseguir para el negocio con el objetivos, ms cerca estar de
negocio porque, para proyecto deben ser lo ms alcanzarlos. Cinco objetivos muy
que el proyecto reciba especficos posibles. Recuerde restringidos valen ms que uno
una buena acogida, sus definir objetivos cuyos efectos se general.
objetivos han de tener puedan cuantificar.
Objetivos deTI
Objetivos deTI
Anote los plazos mnimo y mximo en que Ahora, por cada objetivo, escriba una medida de
se debe alcanzar cada objetivo. xito que sirva para determinar si se ha alcanzado.
Ejemplo: De dos a cuatro meses. Lo idneo es que aporte mtricas o clculos.
Ejemplo: Porcentaje exacto de prediccin
derotacin delX%
Datos necesarios
Antes de nada, fijmonos en la Para alcanzar los objetivos de negocio antes Qu datos sirven para aportar esos
finalidad ms bsica de su descritos, segn los usuarios de negocio, qu conocimientos?
proyecto de Big Data: la deben saber para tomar decisiones fundadas? Ejemplo: Historial de compras del cliente, crticas,
informacin que desea Ejemplo: Qu clientes ms valorados tienen porcentaje de compras, porcentaje de abandono,
proporcionar a su organizacin. probabilidades de descartar la empresa y qu porcentaje de rechazo y calidad del servicio de
Responda a las preguntas comportamientos se relacionan con la rotacin. atencin al cliente.
siguientes con tanta
minuciosidad como pueda.
Datos necesarios
Qu sistemas de origen contienen esos conjuntos Aparte de los datos ya sealados, existe alguna
de datos? otra informacin que aporte contexto o ms valor
Ejemplo: Registros del servicio de atencin al alos anlisis?
cliente, mtricas de rendimiento de productos, Ejemplo: Encuestas del servicio de atencin al
base de datos de actividad del cliente y gestin de cliente, anlisis de la competencia, datos
datos maestros de clientes. meteorolgicos y datos de redes sociales.
Datos necesarios
2
itio web de Gartner: www.gartner.com/technology/topics/
S
big-data.jsp
32 | Informatica: El gran cuaderno del Big Data
Definicin de sus
necesidades de datos
El aspecto ms complicado del La codificacin manual de cada Por lo general, al combinar la En efecto, casi todos los anlisis
Big Data radica en la multitud de integracin precisa resulta tan transmisin de datos en tiempo en tiempo real se tienen que
formatos y estructuras que debe engorrosa que puede consumir real con los datos histricos, basar en transmisiones de datos
conciliar en sus anlisis. Tiene todo el tiempo y todos los aumenta el potencial predictivo que, a menudo, proceden de
que integrar varias fuentes si recursos de que dispone. de los anlisis. Por ello, algunos fuentes diferentes y tienen
desea incluir estructuras y tipos Aproveche al mximo las de los datos que le interesan solo distintos formatos. Integre en el
de datos nuevos (sociales, herramientas disponibles de tienen valor si fluyen de manera proyecto alguna tecnologa de
de sensores o de vdeos) con integracin y calidad de datos constante hacia sus sistemas. anlisis de transmisiones y una
las fuentes a las que estn para agilizar el proceso y infraestructura lgica que le
acostumbrados (relacionales o dedicarse a tareas ms tiles. permitan gestionar todos los
mainframes heredados). datos.
Da igual lo relevantes que sean Para que los datos sirvan a un fin Los distintos conjuntos de datos Adems de archivar de forma
sus anlisis: no valen nada si los determinado, tiene que conocer que va a manejar tienen segura e inteligente los datos
usuarios no pueden tener una dicho fin. Si un especialista en diferentes requisitos y sensibles, enmascrelos con
confianza razonable en los datos datos busca patrones en datos condiciones de seguridad. reglas predefinidas cada vez que
que incluyen. Cuantos ms datos agregados de clientes, la Encada conjunto de datos, se los migre o los introduzca en los
analice, ms importante es que preparacin necesaria es mnima. debe plantear qu hace falta entornos de desarrollo y prueba.
mantenga la mxima calidad Sin embargo, los datos de los para mantener el anonimato de
dedatos. informes financieros y de la los datos conforme a las polticas Aplique estas cinco
cadena de suministro exigen un deseguridad. consideraciones a todos los
elevado grado de conservacin, conjuntos de datos que maneje
limpieza y certificacin de Montones de datos proliferarn yno tendr problemas para
precisin y cumplimiento. en centenares de almacenes por superar de forma ms realista los
toda la empresa. Entrese de retos que plantea el Big Data.
Cree categoras basadas en la dnde residen los datos
preparacin indispensable que sensibles, protjalos en la fuente
vayan desde datos sin procesar mediante cifrado y,
hasta almacenes conservados y acontinuacin, controle
controlados de datos limpios, quinestienen acceso a ellos.
fiables y fidedignos.
35 | Informatica: El gran cuaderno del Big Data
ParteC.
Su eficaz cadena
de suministro de
datos
Los mtodos tradicionales de business intelligence y data
warehouse no se escalan para cubrir las necesidades de las
iniciativas de Big Data. Por eso, a continuacin, veremos la
manera de escalar su equipo, sus procesos y su
infraestructura.
3
InfoWorld: "Hadoop, Python, and NoSQL lead the pack for big
data jobs", 5 de mayo de2014 (www.infoworld.com/t/it-jobs/
38 | Informatica: El gran cuaderno del Big Data hadoop-python-and-nosql-lead-the-pack-big-data-jobs-241884)
Su equipo
Uno de los mayores errores que Concentre las competencias que Si todo sale como es debido, infinitamente ms difciles de
cometen las empresas cuando escasean en las tareas que de crecern tanto el mbito como los encontrar, formar y contratar
4
contratan especialistas en datos verdad las necesitan. No le recursos del proyecto. Piense quelos desarrolladores .
y analistas cuantitativos consiste interesa que esas personas ahora en la estrategia para
en obligarlos a hacer el trabajo abandonen el barco, y mucho ahorrarse la dura realidad de no El equilibrio del equipo es
sucio. Si sus recursos ms menos que pierdan el tiempo en poder escalar ciertos procesos crucial. Ha de buscar la mezcla
competentes invierten su tiempo trabajos que podra acometer con la suficiente rapidez porque perfecta de la experiencia en
en la codificacin manual de las con cualquier herramienta. solo hay un nmero limitado de gestin de datos adquirida con
integraciones de datos y en la personal con las competencias tesn y el entusiasmo por
limpieza de los datos, no solo precisas, incluso en Silicon Valley. aprender herramientas nuevas.
consigue que se sientan Adems, debe lograr el
frustrados sino que, adems, Si se ampla el mbito de equilibrio entre el personal con
desaprovecha las competencias aplicacin del proyecto, qu conocimientos tcnicos y el
que le han resultado tan difciles posibilidades reales hay de personal con la experiencia en el
de hallar. encontrar a tiempo las campo precisa para crear los
competencias que cubran esas modelos adecuados.
necesidades? Por ejemplo, los
especialistas en datos son
4
all Street Journal: "Big Datas High-Priests of Algorithms",
W
8 de agosto de2014 (http://online.wsj.com/articles/
39 | Informatica: El gran cuaderno del Big Data academic-researchers-find-lucrative-work-as-big-data-
scientists-1407543088)
Su equipo
Establecimiento de la
gobernanza de datos
Si (y, esperemos, cuando) En esencia, la comisin de
emprende una iniciativa de Big gobernanza de datos es el
Data ms bsica, debe implantar organismo formal de ejecutivos
la estructura de procedimientos que tiene el cometido de
para la gobernanza de datos. supervisar el enfoque de los
De hecho, aunque el proyecto de datos de la empresa,
Big Data tenga como objetivo pero tambin debe incluir
ofrecer valor a un solo administradores de datos, esto
departamento, puede ser es, personal funcional o de un
interesante crear una comisin departamento determinado que
reducida de gobernanza de se encarga de gestionar los
datos para aprender a superar datos procedentes de una unidad
los retos nicos que tal de negocio concreta.
organismo presenta.
(De hecho, algunos de nuestros
clientes asignan funciones de
administracin de datos segn el
dominio de datos. Eso significa
que una persona tiene a su cargo
los datos de los productos, otra
se ocupa de los datos de los
clientes, y as sucesivamente.)
Establecimiento de la
gobernanza de datos
Se debe proponer crear procesos 1 2
que garanticen que la estructura
de gobernanza de datos resulte Transversal Comunicativa
ms positiva que negativa.
Trabaje de forma activa para Una comisin de gobernanza de Sin una comunicacin fluida
que no se convierta en una carga datos cuyos miembros tengan entre las funciones, los
burocrtica asegurndose de funciones parecidas es del todo departamentos y los dominios, es
que todos los implicados se ineficaz. El objetivo consiste en probable que el proyecto quede
comprometen a alcanzar los crear un organismo donde estn enterrado en burocracia y
mismos objetivos en los mismos representadas las visiones y las malentendidos. Esto sucede con
plazos. necesidades exclusivas de cada demasiada frecuencia.
una de las unidades de negocio Asegrese de que todas las
La estructura de gobernanza de a las que est dirigido el inquietudes se calman o reciben
datos debe poseer las cinco proyecto de Big Data. una respuesta apropiada.
caractersticas siguientes.
Establecimiento de la
gobernanza de datos
3 4 5
Especialista en datos o o
Otro
98276
Sus 41523
herramientas 60303
10392
45623
18456
63002
Sus herramientas
A partir de la experiencia, 1 2
estamos en condiciones de
afirmar que las metodologas Acceso a los datos Integracin de los datos
giles constituyen un enfoque
excelente para los proyectos de El primer reto consiste en adquirir El reto ms complejo del Big
Big Data. Garantizan que todos los datos necesarios. En Data guarda relacin con la
contenga las expectativas, algunos casos, eso implica diversidad de estructuras y
aprenda de los errores e itere el capturar transmisiones de datos formatos de datos.
camino hacia procesos ptimos. y, en otros, extraerlos de una Para lograr una ejecucin
Dicho lo cual, el enfoque de su base de datos. Configure sostenible de los anlisis, debe
proyecto depende por completo procesos repetibles y manejables configurar un proceso para
de su situacin y de sus para garantizar que dichos datos integrar y normalizar todos estos
preferencias. se puedan almacenar, a datos. Lo ideal es que requiera el
continuacin, conforme a los mnimo procesamiento manual
En todo caso, los ocho pasos mtodos previstos. posible.
siguientes resultan cruciales para
la cadena de suministro del Big
Data. Sea cual sea el mtodo
elegido, asegrese de establecer
junto con su equipo procesos
eficaces para seguir estos pasos.
3 4 5
Para que los anlisis sean Una forma de mantener una Ha de establecer dos procesos
fiables, es imprescindible limpiar fuente fiable de datos limpios e bsicos. El primero consiste en
los datos a fin de eliminar integrados consiste en establecer definir las normas y las prcticas
duplicados, errores y datos un proceso para controlar los de seguridad que exija cada
imprecisos o incompletos. El datos. La finalidad es crear una conjunto de datos; el segundo,
proceso ha de garantizar que los nutrida recopilacin de datos en detectar los datos sensibles y
analistas y los especialistas ms consolidados, organizados por enmascararlos de forma
cualificados no pierden su dominios (productos, clientes, persistente o dinmica para
tiempo en "hacer la colada". etc.) y enriquecidos con garantizar la aplicacin uniforme
informacin del Big Data que se de esas normas y mejores
pueda suministrar a todos los prcticas.
dems sistemas.
6 7 8
El proceso de anlisis depende Se trata de un paso que, a pesar Como ya hemos destacado antes Si domina estos ocho pasos, su
de los analistas, las herramientas de ser fundamental, casi siempre en el cuaderno, es indispensable proyecto de Big Data marchar en
la direccin correcta. El objetivo
analticas y los requisitos se obvia. Establezca un proceso que se perciba el impacto en el consiste en establecer procesos
relacionados con los objetivos. claro para el anlisis de las negocio del proyecto de Big claros, repetibles y escalables en
Resulta esencial mantener una necesidades de negocio incluso Data. Cree procesos permanente mejora. Con ese fin,
la documentacin de dichos
mentalidad que priorice la mientras se analizan los datos. automatizados para suministrar procesos y las consiguientes
deteccin iterativa y la mejora Es fundamental porque, si no las respuestas halladas a los mejoras resultan vitales para el
continua ya que conviene que mantiene el pulso al negocio, se usuarios de negocio que ms las equipo.
este proceso sea mejor, ms arriesga a dividir los esfuerzos y necesitan. Por ejemplo, es Las competencias, las
rpido, ms barato y ms a minimizar la repercusin en el preciso poner los datos sobre los capacidades y las lecciones del
escalable con el tiempo y la negocio. clientes con ms probabilidad de proyecto de Big Data han de ser
trasladables y se tienen que
experiencia. rotacin a disposicin de los comunicar con frecuencia.
agentes del servicio de atencin
al cliente mediante un cuadro de
mando. No olvide incorporar
tambin un bucle de comentarios
para saber cmo se recibe
lainformacin.
93
362
Su
40
264
654
arquitectura
Para que la cadena187 de suministro del Big Data 468
78
sea eficaz y efectiva, es imprescindible
garantizar que la arquitectura es slida y est 157
concebida de forma estratgica. En esta
seccin, veremos el aspecto de la arquitectura
de Big Data idnea y la manera de implantar
lasuya por fases.
62
61
50
Su arquitectura
recomendaciones
siguientes.
Arquitectura idnea
delBigData
En el diagrama siguiente, se
representa el modo en que
recomendamos crear la
arquitectura idnea de tecnologas
y procesos de Big Data.
Plan de su proyecto
detalles y los diversos Definir las medidas del xito Identificar los datos y las fuentes para
elementos de su suministrarlos
proyecto de Big Data.
Luego, srvase del
documento compilado
como medio para
conseguir el respaldo
preciso del resto de la
organizacin.
Tambin le resultar de
utilidad para convencer
a socios externos.
Plan de su proyecto
competencias necesarias (por ejemplo, Hadoop) Automatizar procesos para la entrega de datos
oo Evaluacin de las oo Calidad de datos
oo Enmascaramiento de
Proceso datos
oo Acceso a los datos oo Visualizacin
oo Anlisis de las
necesidades de negocio
Si es desarrollador de Informatica,
puede ser desarrollador de Hadoop.
Con nuestros servicios, nuestros
conectores y nuestras pruebas de
software de Big Data, tomar la senda
correcta.
Hablemos.
IN18-1014-2730