You are on page 1of 23

1

Cientfico de datos con


Software Libre
Ing. Mauricio Arancibia

Datos, el nuevo petrleo.

En los ltimos 10 minutos se generan


ms datos que desde la prehistoria
hasta el 2003.

Todo el tiempo estamos generando


informacin

BIG DATA

Trmino que hace referencia a una cantidad de datos tal que supera la
capacidad del software habitual para ser capturados, gestionados y
procesados en un tiempo razonable. Deben garantizarse las 3 Vs
(volumen, variedad y velocidad)

Cientfico de datos (Data Scientist)

Data Scientist: El trabajo ms sexy


del siglo 21

Que es Data Science

Habilidades para resolver problemas

Habilidades de comunicacin

Mente abierta

Otras cualidades:

Es escptico y curioso.

Conocimientos sobre machine learning

Estadsticas y probabilidad

Aplica el mtodo cientfico.

Ejecuta experimentos.

Es bueno codificando y hackeando.

Capaz de hacer frente a la ingeniera de datos de TI.

Capaz de encontrar respuestas a las incgnitas.

Tiene conocimiento del dominio

10

11

Que hacen los Data Scientists

Disea y personaliza sistemas y herramientas

Trabaja con datos estructurados y no estructurados

Crea flujos de procesos de datos

Analiza grandes volmenes de datos (TB, PB)

Construye modelos predictivos

Crea visualizaciones

Disea productos de datos

Usa Hadoop, MapReduce, Hive, Python, R

12

BI vs Data Science

13

14

Flujo del proceso de un Data Scientist

15

Aplicaciones

16

Data Science y el Open Source


Sistemas operativos:
Linux + Shell tools
Instrumentos Big data:
Hadoop (MapReduce) + hadoop tools
Hive, Pig
NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
Bases de datos
SQL

17

Data Science y el Open Source


Programacin:
Python
Java
R
Machine Learning:
Matlab
Python libraries (NumPy, SciPy, Nltk)
Java Libraries (Mahout)

18

Programacin en R

Here are just a few examples:

Google uses R to calculate the ROI on advertising campaigns.

Ford uses R to improve the design of its vehicles.

Twitter uses R to monitor user experience.

The US National Weather Service uses R to predict severe flooding.

The Rockefeller Institute of Government uses R to develop models for


simulating the finances of public pension funds.

The Human Rights Data Analysis Group uses R to quantify the impact of war.

R is used frequently by The New York Times to create infographics and


interactive data journalism applications.

19

PROGRAMACIN CON R
Que es R?
R es un lenguaje de programacin estadstico con licencia
GPL.
Est basado en el leguaje S desarrollado en los laboratorios
Bell.
Es un lenguaje muy poderoso para escribir programas y es
multiplataforma (MacOS, Linux, Windows)
Posee muchas funciones estadsticas.
Existen muchsimos paquetes que extienden su funcionalidad

20

Introduccin con R
Donde lo obtenemos: http://www.r-project.org
Descargas: CRAN
Seleccionar un mirror
Seleccionar el sistema operativo.
Seleccionar la base, ultima versin: R 3.2.0

21

Introduccin con R

La GUI de R

22

R Studio

RStudio es un entorno de desarrollo integrado (IDE) para R que funciona


con la versin estndar de R disponible en CRAN.

Al igual que R, RStudio es software libre.

El objetivo de sus creadores es desarrollar una herramienta potente que


soporte los procedimientos y tcnicas requeridas para realizar anlisis
de alta calidad y dignos de confianza.

Al mismo tiempo, pretenden que RStudio sea tan sencillo e intuitivo


como sea posible para proporcionar un entorno amigable, tanto para los
ya experimentados como para los nuevos usuarios de R.

23

You might also like