You are on page 1of 2

El análisis de datos.

¿Puede convertirse en
una competición?
por Francisco Morante Quirantes | Ene 26, 2016 | Estadística, Matemática
Aplicada, Matemáticas, Uncategorized | 0 Comentarios

La competición de analizar datos.


Uno de los principales problemas con los que se encuentran las empresas que manejan muchos
datos es cómo analizarlos, es decir cómo conseguir el mejor modelo de predicción y clasificación
de los datos.

Análisis de datos. Big data

Cuando se disponen de muestras muy grandes, y se necesita realizar un modelo de predicción


y clasificación lo habitual es realizar ese modelo utilizando una parte de la muestra y reservar
otra parte de la muestra para comprobar la bondad que tiene el modelo, es decir para estudiar
su capacidad de predicción. Evidentemente no se puede estudiar la viabilidad del modelo sobre
la misma muestra trabajada.
Los expertos que trabajan con este tipo de datos tratan de diseñar el modelo con la mayor
puntuación posible, y es ahí donde recae la dificultad de esta tarea, pero ¿Y si lo convertimos
en una competición?
Esta es la feliz idea que ha tenido Kaggle, convertir el análisis de datos en un juego. Kaggle ha
creado la comunidad de Data Science más grande y activa del mundo. Una plataforma en la
que actualmente se encuentran cerca de 200.000 científicos de todo el mundo para competir en
este juego consistente en realizar un modelo de predicción y clasificación con la mayor bondad
posible con una muestra determinada por la plataforma.
Se trata de una plataforma de crowdsourcing creada por el australiano Anthony Goldbloom en
2010.
Su creador se quedó maravillado con la idea que tuvo la plataforma Netflix quien organizó un
concurso con un premio de un millón de dólares para la persona que fuera capaz de mejorar su
software de recomendación de títulos. Así Anthony pensó, ¿y por qué no aplicar este tipo de
concursos al análisis de datos?, y con esa idea surgió la actual comunidad Kaggle.
Kaggle, hasta el momento ha creado más de 200 desafíos con más de 1,2 millones de dólares
en premios.
El funcionamiento de la plataforma es muy sencillo, un promotor contacta con el equipo de
Kaggle y prepara un conjunto de datos de su negocio o investigación. Una parte de estos datos
son publicados en la web para que los concursantes desarrollen sus modelos predictivos. Esos
datos contienen la variable respuesta que se necesita modelar, y para valorar la bondad de las
predicciones se publica también una métrica, es decir una fórmula del error. Ahora sólo queda
comparar las predicciones sobre la otra parte de la muestra obteniendo así el poder del modelo
realizado, y por tanto estableciendo un ranking en función del valor obtenido.
Kaggle actualmente ofrece una versión académica denominada “kaggle in class”, donde permite
introducir las técnicas de machine learning a los alumnos mediante competiciones, convirtiendo
la resolución de ejercicios en una competición.
Actualmente en España la plataforma Kaggle se ha vuelto muy conocida gracias a los medios
de comunicación, ya que un matemático andaluz, José Antonio Guerrero ocupa la primera
posición en el ranking de la comunidad.
Este matemático trabaja en el Hospital Universitario Vírgen del Rocío como técnico de bases
de datos, y es un desconocido fuera de los círculos especializados.
Actualmente vivimos en una sociedad muy competitiva en la que las empresas necesitan
conocer con exactitud sus compradores potenciales, para recomendar contenido y ampliar su
catálogo. Es por ello que el análisis de datos se convierte en fundamental para la sociedad
moderna. Conscientes de ello, televisiones como Canal +, o Antena 3 empiezan adentrarse en
el mundo del big data.
Autor: Francisco Morante Quirantes. @fdetsocial
Co-fundador del blog divulgativo de FdeT

You might also like