You are on page 1of 7

QU ES BIG DATA?

LAS ENTRAAS DE LOS DATOS


Lo ms importante de Big Data es que supone un nuevo
paradigma para el conocimiento. Una concepcin sobre el uso
de datos que nos debe interesar, ya que hoy en da todos
somos fbricas de informacin. Informacin que, recogida en
cantidad, puede ser reveladora de cuestiones que nos ayuden
en el da a da, o puede despojar al navegante de todo tipo de
privacidad. Incluso la privacidad a un futuro libre.

Autor: Oriol Calabuig


http://www.portalcomunicacion.com/mono
graficos_det.asp?id=261&lng=esp

En 2004, Walmart ech un vistazo al contenido de sus gigantescas


bases de datos de antiguas transacciones: qu artculo haba
comprado cada cliente y su coste total, qu ms haba en el carrito de
la compra, la hora del da, e incluso el tiempo que haca. As, observ
que antes de un huracn no slo aumentaban las ventas de linternas,
sino tambin las de Pop-Tarts, un dulce para el desayuno (MAYERSCHNBERGE; CUKIER 2013: 37). Existen dinmicas que difcilmente
se pueden explicar mediante la va de la causalidad. Correlaciones
poco evidentes, o extraas, que quiz su razn sea tan compleja que
deba ser obviada. Esto an choca en una sociedad cientfica como la
nuestra, pero el caso es que de mano de las grandes empresas de
comunicacin y datos se va abriendo la cscara de est nuevo mundo
basado en la probabilidad.
Las personas nos hemos convertido en un rastro continuo de datos. El
banco conoce las transacciones de la cuenta con que operamos, el
supermercado registra nuestros hbitos de consumo, cada web que
visitamos tiene a mano los clics que hacemos o los tiempos de visita,
exponemos la cotidianidad en las redes sociales, las telefnicas saben
dnde nos encontramos en cada momento y qu hacemos con el
mvil Estamos registrados. Generamos una cantidad astronmica
de datos que siendo efmeros, tambin son almacenables. Slo en
Internet, este mes se engendrarn unos 70 exabytes de informacin.
Unos 110 mil millones de cds llenos de documentos, msica y vdeo.
Slo en Internet. Cabra sumar los datos creados en intranets, por
particulares, por empresas, etc. Bien podramos compararlo con el
mercado de la arena. Somos poco conscientes de que una materia
que est por todas partes, de valor muy relativo desde nuestra
humilde existencia, es una materia bsica en el mundo para la
construccin. As que quien tiene capacidad para transportar

grandes cantidades de tierra, puede obtener enormes beneficios. Un


saco de informacin tiene una utilidad relativa. Ms bien de uso
personal. Pero cuando traficamos con petabytes o exabytes de datos,
y los podemos cruzar entre ellos, aparece un valor incalculable.

El significado de Big Data


Dar un significado terico a Big Data es complejo porqu ms all de
lo que propiamente es, se debe a diferentes contextos actuales que
permiten su aparicin y tiene de trasfondo un cambio de mentalidad
en el conocimiento. Empecemos por una definicin simple: Big Data
es en el sector de las TIC una referencia a los sistemas que manipulan
grandes conjuntos de datos (Wikipedia). Esta frase tan llana lleva
asociadas muchas ideas que hay que apuntar. Las primeras son las
famosas tres Vs, usadas para definir las caractersticas clave de Big
Data: Volumen, Velocidad y Variedad. A las cuales ya han incluido
otras como valor, veracidad, variabilidad, visualizacin o viralidad
aunque estas ltimas se deben matizar y las dejaremos de lado. Por
volumen debemos entender tanto la cantidad de datos que se
producen, como la posibilidad de guardarlos y aumentarlos. La
velocidad hace referencia a todo el proceso, rapidez en el registro,
captacin, anlisis de los datos, visualizacin y toma de decisiones. Es
importante entender que el objetivo final es, normalmente, la toma
de decisiones. As que es importante llegar al punto final. Y la
variedad, la cual nos indica que no se trabaja en una base de datos
cuadriculada y ejemplar. Sino que pueden existir documentos
diversos, informacin que deba ser digitalizada, datos de

geolocalizacin, archivos de voz e imgenes No hay lmite.


Debemos ser conscientes que existe software capaz de digitalizar
fcilmente textos escritos y programas de reconocimiento facial o de
voz que pueden llegar a analizar actitudes o transcribir un dialogo. Ya
hay empresas que se dedican a extraer sentimientos o conductas de
los usuarios en las redes sociales. Eso s, an con mrgenes de
acierto relativos (50% - 70%).
En resumen, el anlisis de datos masivos es un trinomio entre el
almacenamiento de magnitudes ingentes de informacin, tecnologa
capaz de trabajar con diversidad de datos y el anlisis en tiempo
real del conjunto. Y los resultados se acostumbran a mostrar
grficamente para facilitar la comprensin. Pero todo ello, se debe a
un contexto donde la tecnologa hardware y software es capaz de
almacenar, analizar y escudriar gran diversidad de documentos en
poco tiempo y encontrar dinmicas, tendencias o comportamientos.
Eso a un coste cada vez ms bajo que, de hecho, democratiza su uso
como veremos, no es nuevo. Seguramente, el tiempo nos lleve a
entender Big Data como respuestas intrnsecas en grandes bases de
informacin catica, pero en la actualidad el punto tecnolgico es
importante. Ya que tanto el hardware como el software se encuentran
a las puertas de esta realidad.
De la causalidad a la probabilidad
Bajo esta capa terica subyace una idea de ms calado.
Histricamente, nuestra sociedad ha trabajado con escasez de datos.
Donde el positivismo dependiente de mtodos cientficos, de
muestras siempre limitadas, ha llevado la humanidad al
descubrimiento de innumerables respuestas a partir de una pregunta.
La metodologa tradicional: formular una hiptesis y experimentar
empricamente con pocos datos, pero muy exactos para
confirmarla.
Por su lado, la estadstica vea relegado su campo a una segunda
divisin. La abrumadora cuanta de datos que requera la datificacin
de relaciones en muchos campos o el propio anlisis lo haca inviable.
Adems, en los casos que se lograba, las herramientas de
contabilizacin y estudio eran tan bsicas que era imposible un
trabajo correcto sin un gran despliegue econmico, humano y
tecnolgico. As, a mediados del siglo XX se descubri las ventajas y
caractersticas de un buen muestreo: Los estadsticos han
demostrado que la precisin de la muestra mejora acusadamente con
la aleatoriedad, no con el mayor tamao (MAYER-SCHNBERGE;

CUKIER 2013: 37). Pero existan ciertos lmites, como una copia
fotogrfica analgica. A cierta distancia, se ve muy bien, pero cuando
se mira ms de cerca, se vuelve borrosa (MAYER-SCHNBERGE;
CUKIER 2013: 39). Y es que las preguntas que dan forma a un
muestreo son sus propios lmites. Big Data puede relegar esto al
pasado, hacer que la muestra sea el todo mismo. Una probabilidad
absoluta avalada por el peso de trabajar con todos los datos
posibles que puede dar respuestas de cierto valor.
En 2006, Google se lanz a traducir [] En lugar de pginas de texto
bien traducidas en dos idiomas, utiliz un conjunto de datos ms
basto, pero tambin mucho ms confuso: todo el contenido global de
internet (MAYER-SCHNBERGE; CUKIER 2013: 55). La idea era usar la
probabilidad para extraer correlaciones de esta enorme base de datos
y obtener un traductor. Y el resultado fue revelador: ni mejores
algoritmos, ni el aumento de la calidad de la muestra, llegan a los
buenos resultados obtenidos de aumentar el campo ingentemente.
As, cuando se trabajan datos masivos, los errores o inexactitudes de
la muestra se diluyen parcialmente. Ms que aspirar a erradicar todo
atisbo de inexactitud a un coste cada vez ms elevado, calculamos
con la confusin en mente (MAYER-SCHNBERGE; CUKIER 2013: 58).
En medicina, se pueden comparar todas las secuencias genmicas
disponibles con el historial completo de las mismas personas. Las
redes sociales pueden mostrar qu tipologa de persona es ms
favorable a una marca. Una empresa de coches puede recoger todos
los datos sobre un modelo y descubrir los quilmetros a los que
acostumbra a fallar una pieza defectuosa. O un ayuntamiento podra
relacionar el uso del metro con el tiempo, la poca del ao o las
noticias del da anterior. Siempre desde la bsqueda de correlaciones,
no partiendo de una hiptesis. Como avanzamos al inicio: algunas
correlaciones pueden ser tan complejas que debemos obviar su
razn. Y es que en el mundo de la probabilidad, ni hace falta una
pregunta concreta, ni tiene porque importar la razn de la respuesta.
Un choque directo con nuestra concepcin cientfica del universo.
Slo falta hablar de uno de los aspectos subyacentes ms
importantes que la estadstica permite trabajar: los futuribles. Las
encuestas a pie de urna tienen un crdito relativo. Pero la oportunidad
de trabajar con muestras tan contundentes, permite aplicar la
probabilidad sobre eventos futuros. Como hacen los hombres del
tiempo desde hace aos. Pero en cualquier rea. Y debemos estar
alerta, porqu es posible que a ms exactitud, ms credibilidad
obtenga un resultado estadstico.

Los espas ya no llevan prismticos


El smil para comprender los peligros que entraa la gestin de
grandes cantidades de datos son dos libros muy conocidos: 1984 y
The Minority Report. Existe la falta de consciencia sobre lo
reveladores que pueden ser los datos. Sin ir ms lejos: los nuevos
contadores digitales de la luz, que registran informacin a intervalos
de 6 segundos, pueden detectar los aparatos en funcionamiento, ya
que los electrodomsticos tienen formas de consumo diferenciadas:
el consumo de energa de una familia revela informacin privada, ya
sea acerca de las actividades diarias de los residentes, su estado de
salud o sus actividades ilegales (MAYER-SCHNBERGE; CUKIER 2013:
190). Cedemos los datos sin demasiada preocupacin y hay pocas
leyes que protejan el uso adecuado o la eliminacin de datos tras
ciertos periodos. Es ms, los datos ya son una mercanca. Muchas
empresas cobran por los derechos de explotacin, algunas los ceden
o, directamente, los venden. Tenemos el caso reciente de WhatsApp.
Facebook tambin pago por la base de datos chats, imgenes,
vdeos que la empresa de mensajera haba acumulado. Donde,
muy importante, el nmero de telfono vincula al usuario con la
cuenta.
Quiz, el aspecto ms peligroso del anlisis de datos sean las
predicciones probabilistas. Del mismo modo que podemos buscar
correlaciones para mejorar la venta de un producto, podemos cruzar
informaciones para detectar zonas y horarios de mayor criminalidad,
hacer evaluaciones psquicas con el contexto informativo de alguien
o, directamente, buscar al precriminal o la preenfermedad. Y aunque
seguramente el uso de datos privados acente el peligro, no siempre
necesitamos datos personales para poder llevar a cabo praxis muy
cuestionables, que dan rienda suelta para que la probabilidad ahogue
la libertad. Debemos tener muy presente que los datos no caducan y,
muchas veces, sus usos secundarios han sido los ms productivos. Es
ms, las bases de datos son tan ingentes que ni una anonimidad en
ellos garantiza no ser descubierto: En agosto de 2006, AOL hizo
pblicas un montn de antiguas bsquedas en internet [] Se haban
borrado las informaciones personales como nombre de usuario y
direccin IP [] en cuestin de das, The New York Times cas
bsquedas como solteros 60, t saludable y paisajista en Lilburn
(Georgia) para lograr identificar al usuario nmero 4417749 como
Thelma Arnold (MAYER-SCHNBERGE; CUKIER 2013: 192). Este,
obviamente, no es un caso nico.

Con todo lo dicho, podramos empezar a vislumbrar a qu se dedica la


NSA. Este inters repentino en recolectar datos a nivel mundial,
inconexos y sin objetivo aparente. Tambin la agencia de inteligencia
britnica. Hasta el CNI hace lo que puede. Este puede ser el nuevo
espionaje: recolectar grandes bases de informacin, obtenidas con o
sin motivo aparente, y usadas secundariamente para rastrear y/o
reconocer a alguien. A alguien o a su posible conducta, yendo ms
all de los propios datos. En cualquier caso, seamos prudentes.
Google tiene mucha ms informacin que cualquier agencia estatal. Y
Facebook tambin. Twitter, Amazon, Yahoo, Microsoft Son estas
empresas las que, por ahora, sustentan un nuevo poder: los datos.
Bibliografa
MAYER-SCHNBERGER, Viktor; CUKIER, Kenneth. Big data: La
revolucin de los datos masivos. Edicin en castellano: Turner
Publicaciones S.L., 2013.
Material de consulta
GARCA CAMPOS, Juan Manuel. El tesoro de los datos masivos.
Magazine - La Vanguardia [en lnea], 8 noviembre 2013. [Consulta: 10
marzo 2014]. Disponible en:
http://www.lavanguardia.com/magazine/20131108/54392775355/bigdata-datos-masivos-reportaje-en-portada-magazine-10-noviembre2013.html
Big data. Wikipedia, la enciclopedia libre [Wiki en Internet] St.
Petersburg (FL): Wikimedia Foundation, Inc. 2001. [Consulta: 18
marzo 2014]. Disponible en:
http://es.wikipedia.org/wiki/Big_data
FOTHERGILL, John (Director). The Age of Big Data [vdeo documental]. BBC Productions: LAVERTY, Aidan; VAN DER POOL,
James (editores). Londres, 2013. Disponible en:
http://www.youtube.com/watch?v=CO2mGny6fFs
[Grfico] Cisco VNI. The Zettabyte Era - Trends and Analysis [en
lnea] 29 mayo, 2013. Disponible en:
http://www.revistalatinacs.org/068/paper/991_Somosaguas/RLCS_pap
er991.pdf

You might also like