You are on page 1of 41

Análisis Exploratorio

Análisis Exploratorio
Tipo de datos

Cualitativos o categóricos:
Dicotómicos o binarios.
Politómicos
Nominales
Ordinales o semicuantitativos.
Cuantitativos
Discretos
Continuos

Análisis Exploratorio
Matriz de datos

Los datos consisten en observaciones de n individuos en los que se miden p variables,


las mismas en todos. Los datos se disponen ordenadamente en la matriz de datos X nxp

···
x x12 x1p

11

x21 x22 ··· x2p 


X = . .. .. ..  =
.. . . .
xn1 xn2 ··· xnp
donde xij es el valor de la variable j para el individuo i.

Análisis Exploratorio
Estadísticos descriptivos: Centramiento

La media
es el promedio de los datos.
P
i
xi
x̄ = .
n

La mediana
es el valor que divide a las observaciones en dos grupos de igual número de individuos

X n + 1  , si n es impar




  2 
Med =
1  
 2 X n + X n +1


    , si n es par.
2 2

La moda
es el o los valores donde la distribución de frecuencia alcanza un máximo.

Análisis Exploratorio
Estadísticos descriptivos: Dispersión

El cuantil (percentil) de orden α


es el valor de la variable por debajo del cual se encuentra el α% de los datos.

Por ejemplo, el primer cuartil es el cuantil 25%.

El rango intercuartil
es la diferencia entre el tercer y primer cuartil.

RIC = Q3 − Q1 .

Análisis Exploratorio
El máximo
es x(n) , el mínimo es x(1) . El rango es R = x(n) − x(1) .

La varianza
es:
n
1 X
s2 = (xi − x̄ )2 .
n
i=1

La desviación estándar
es la raíz cuadrada positiva de la varianza, s.

Análisis Exploratorio
Kurtosis y heterogeneidad

Una característica importante en un conjunto de datos es la homogeneidad. Si dij son


las deviaciones, y estás son muy distintas, sugiere que hay datos muy separados de la
media, y por lo tanto los datos no son homogeneos. Una posible medida es
n
1 X
(dij − sj2 )2
n
i=1

donde
n n
X X
dij (xij − x̄j )2
i=1 i=1
sj2 = = .
n n

Análisis Exploratorio
Kurtosis y heterogeneidad

Se define el coeficiente de heterogeneidad es


n
1 X
(dij − sj2 )2
n
i=1
Hj =
sj4
cuyo valor es siempre no negativo.

Análisis Exploratorio
Kurtosis y heterogeneidad

Puede demostrarse que


P
1 (xij − x̄j )4
Hj = − 1 = Kj − 1
n sj4
El primer miembro de esa expresión, Kj , se conoce como el coeficiente de kurtosis, y
siempre toma un valor mayor o igual que 1.

Análisis Exploratorio
Kurtosis y heterogeneidad

Ambos coeficientes miden la relación entre la variabilidad de las desviaciones y la


desviación media. Se puede comprobar que:
1 Si hay pocos datos atípicos muy aleajados del resto, la variabilidad será grande, y
los coeficientes altos.
2 Si los datos se separan en dos mitades de dos distribuciones muy alejadas, es decir,
dos conjuntos de datos distintos separados; la media de los datos estará
equidistante de los dos grupos de datos y las desviaciones de todos los datos serán
similares, con lo que el coeficiente Hj será muy pequeño.

Análisis Exploratorio
En R: Ejemplo con summary

vida = read.table("vidaquin1.txt",header=T)
attach(vida)

summary(vida[,2:6])

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil TasaFecundidad


## Min. :13.00 Min. : 4.000 Min. : 7.50 Min. :1.500
## 1st Qu.:18.90 1st Qu.: 5.400 1st Qu.:15.53 1st Qu.:2.400
## Median :23.75 Median : 6.600 Median :28.85 Median :2.750
## Mean :23.50 Mean : 6.681 Mean :28.24 Mean :2.888
## 3rd Qu.:26.57 3rd Qu.: 7.175 3rd Qu.:35.00 3rd Qu.:3.200
## Max. :37.30 Max. :10.800 Max. :66.70 Max. :5.000
## EsperanzadeVida
## Min. :57.20
## 1st Qu.:68.58
## Median :71.25
## Mean :70.70
## 3rd Qu.:73.88
## Max. :77.30

Análisis Exploratorio
En R: cuantiles

quantile(vida$TasaNatalidad,c(.25,.50,.75))

## 25% 50% 75%


## 18.900 23.750 26.575

quantile(vida$TasaMortalidad,c(.25,.50,.75))

## 25% 50% 75%


## 5.400 6.600 7.175

quantile(vida$TasaMortalidadInfantil,c(.25,.50,.75))

## 25% 50% 75%


## 15.525 28.850 35.000

quantile(vida$TasaFecundidad,c(.25,.50,.75))

## 25% 50% 75%


## 2.40 2.75 3.20

quantile(vida$EsperanzadeVida,c(.25,.50,.75))

## 25% 50% 75%


## 68.575 71.250 73.875
Análisis Exploratorio
En R: Rango, varianza, desviación estándar

v = vida[,2:6]
apply(v, 2, range)

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil TasaFecundidad


## [1,] 13.0 4.0 7.5 1.5
## [2,] 37.3 10.8 66.7 5.0
## EsperanzadeVida
## [1,] 57.2
## [2,] 77.3

apply(v, MARGIN=2, var)

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil


## 39.9183770 2.5712500 241.6831351
## TasaFecundidad EsperanzadeVida
## 0.7366129 21.1583770

apply(v, 2, sd)

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil


## 6.3180992 1.6035118 15.5461614
## TasaFecundidad EsperanzadeVida
## 0.8582616 4.5998236
Análisis Exploratorio
En R: Covarianzas

(mcv=cov(vida[,2:6]))

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil


## TasaNatalidad 39.918377 -1.37812500 75.990131
## TasaMortalidad -1.378125 2.57125000 8.251754
## TasaMortalidadInfantil 75.990131 8.25175403 241.683135
## TasaFecundidad 5.271250 -0.09314516 10.024073
## EsperanzadeVida -17.995171 -3.97038306 -63.870837
## TasaFecundidad EsperanzadeVida
## TasaNatalidad 5.27125000 -17.995171
## TasaMortalidad -0.09314516 -3.970383
## TasaMortalidadInfantil 10.02407258 -63.870837
## TasaFecundidad 0.73661290 -2.315524
## EsperanzadeVida -2.31552419 21.158377

Análisis Exploratorio
En R: Medias

(mmed=colMeans(vida[,2:6]))

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil


## 23.49687 6.68125 28.24063
## TasaFecundidad EsperanzadeVida
## 2.88750 70.69688

Análisis Exploratorio
Preguntas de intéres

cor(vida[,2:6])

## TasaNatalidad TasaMortalidad TasaMortalidadInfantil


## TasaNatalidad 1.0000000 -0.13602854 0.7736554
## TasaMortalidad -0.1360285 1.00000000 0.3310175
## TasaMortalidadInfantil 0.7736554 0.33101750 1.0000000
## TasaFecundidad 0.9720923 -0.06768127 0.7512792
## EsperanzadeVida -0.6191963 -0.53829343 -0.8931785
## TasaFecundidad EsperanzadeVida
## TasaNatalidad 0.97209233 -0.6191963
## TasaMortalidad -0.06768127 -0.5382934
## TasaMortalidadInfantil 0.75127921 -0.8931785
## TasaFecundidad 1.00000000 -0.5865276
## EsperanzadeVida -0.58652764 1.0000000

Análisis Exploratorio
dist = mahalanobis(vida[,2:6],mmed,mcv)

Pais[dist>10]

## [1] Bahamas Guyana Haiti


## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela

Pais[which(dist==min(dist))]

## [1] SanVicenteGranadinas
## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela

Pais[which(dist==max(dist))]

## [1] Haiti
## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela

Pais[dist<2]

## [1] AntillasNeerlandesas Chile Colombia


## [4] Peru SanVicenteGranadinas Suriname
## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela

Análisis Exploratorio
En R: gráficos

plot(TasaNatalidad,TasaMortalidad,xlim=c(10,40))
text(TasaNatalidad,TasaMortalidad,Pais, pos=4,cex=0.5)
11
Haiti
10

Guyana

Uruguay
9

Barbados
Bolivia
TasaMortalidad

PuertoRico Argentina

Bahamas
Cuba Jamaica
7

SantaLucia Suriname
TrinidadTobago Guatemala
SanVicenteGranadinas
AntillasNeerlandesas
Brasil Peru

ElSalvador
6

RepublicaDominicana
Colombia

Chile Paraguay
Nicaragua
Honduras
Ecuador
IslasVirgenes Panama
Mexico
5

Venezuela Belice
4

CostaRica

10 15 20 25 30 35 40

TasaNatalidad
Análisis Exploratorio
plot(TasaNatalidad,TasaMortalidad,pch='.')
text(TasaNatalidad,TasaMortalidad,Pais, pos=4,cex=0.5)

11
10 Haiti

Guyana

Uruguay
9

Barbados
Bolivia
TasaMortalidad

PuertoRico Argentina

Bahamas
Cuba Jamaica
7

SantaLucia Suriname
TrinidadTobago Guatemala
SanVicenteGranadinas
AntillasNeerlandesas
Brasil Peru

ElSalvador
6

RepublicaDominicana
Colombia

Chile Paraguay
Nicaragua
Honduras
Ecuador
IslasVirgenes Panama
Mexico
5

Venezuela Belice
4

CostaRica

15 20 25 30 35

TasaNatalidad

Análisis Exploratorio
En R: histogramas de frecuencias

hist(TasaNatalidad,xlab="Tasa de Natalidad", ylab ="Número de paises",


main="Histograma de Tasa de Natalidad",col=c("red","purple"))
Histograma de Tasa de Natalidad
12
10
Número de paises

8
6
4
2
0

10 15 20 25 30 35 40

Tasa de Natalidad
Análisis Exploratorio
En R: gráficos cuántil-cuántil

qqnorm(TasaNatalidad)
qqline(TasaNatalidad)
Normal Q−Q Plot
35
30
Sample Quantiles

25
20
15

−2 −1 0 1 2

Theoretical Quantiles
Análisis Exploratorio
En R: Diagramas de cajas

boxplot(vida[2:6], col = c("orange","blue","pink","yellow","brown"))


80
60
40
20
0

TasaNatalidad TasaMortalidadInfantil EsperanzadeVida


Análisis Exploratorio
11
35

50
9
30

8
25

30
20

6
5
15

10
4
Tasa de Nacimiento Tasa de mortalidad Tasa de mortalidad infantil

75
4.5

70
3.5

65
2.5

60
1.5

Tasa de Fecundidad Esperanza de vida

Análisis Exploratorio
En R: Diagramas de dispersión

pairs(vida[2:6])
4 6 8 10 1.5 3.0 4.5

35
25
TasaNatalidad

15
11
8

TasaMortalidad
6
4

40
TasaMortalidadInfantil

10
1.5 3.0 4.5

TasaFecundidad

70
EsperanzadeVida

60
15 25 35 10 30 50 60 70
Análisis Exploratorio
En R: Diagramas de estrellas

stars(vida[2:6],labels=dimnames(vida)[[1]],col.lines="red")

1 2 3 4 5 6

7 8 9 10 11 12

13 14 15 16 17 18

19 20 21 22 23 24

25 26 27 28 29 30

31 32
Análisis Exploratorio
Boxplot por ubicación

boxplot(split(EsperanzadeVida,Ubicacion))
75
70
65
60

Ce Cr Sr
Análisis Exploratorio
boxplot(split(TasaMortalidad,Ubicacion))
11
10
9
8
7
6
5
4

Ce Cr Sr

Análisis Exploratorio
boxplot(split(TasaMortalidadInfantil,Ubicacion))
60
50
40
30
20
10

Ce Cr Sr

Análisis Exploratorio
boxplot(split(TasaFecundidad,Ubicacion))
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5

Ce Cr Sr

Análisis Exploratorio
boxplot(split(TasaNatalidad,Ubicacion))
35
30
25
20
15

Ce Cr Sr

Análisis Exploratorio
pairs(vida[2:6])

4 6 8 10 1.5 3.0 4.5

35
25
TasaNatalidad

15
11
8

TasaMortalidad
6
4

40
TasaMortalidadInfantil

10
1.5 3.0 4.5

TasaFecundidad

70
EsperanzadeVida

60
15 25 35 10 30 50 60 70

Análisis Exploratorio
pairs(vida[2:6],pch=21,bg = c("red", "green3", "blue")[unclass(Ubicacion)])

4 6 8 10 1.5 3.0 4.5

35
25
TasaNatalidad

15
11
8

TasaMortalidad
6
4

40
TasaMortalidadInfantil

10
1.5 3.0 4.5

TasaFecundidad

70
EsperanzadeVida

60
15 25 35 10 30 50 60 70

Análisis Exploratorio
pairs(vida[2:6], text.panel = NULL, upper.panel = NULL)

15 25 35
35
25
11 15
8
6
4
40
10
1.5 3.0 4.5
70

70
60

60
15 25 35 4 6 8 10 10 30 50 1.5 3.0 4.5 60 70

Análisis Exploratorio
panel.hist <- function(x, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "blue", ...)
}
pairs(vida[2:6], panel = panel.smooth,
cex = 1.5, pch ='.', bg = "blue",
diag.panel = panel.hist, cex.labels = 0.5, font.labels = 2)

Análisis Exploratorio
4 6 8 10 1.5 3.0 4.5

35
TasaNatalidad

25
15
11

TasaMortalidad
8
6
4

TasaMortalidadInfantil

40
10
1.5 3.0 4.5

TasaFecundidad

EsperanzadeVida

70
60
15 25 35 10 30 50 60 70

Análisis Exploratorio
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
text(0.5, 0.5, txt, cex = cex.cor)
}
pairs(vida[2:6], lower.panel = panel.smooth, upper.panel = panel.cor, pch=21,
diag.panel=panel.hist,bg = c("red", "green3", "blue")[unclass(vida$Ubicacion)])

Análisis Exploratorio
4 6 8 10 1.5 3.0 4.5

35
TasaNatalidad

0.14 0.77 0.97 0.62

25
15
11

TasaMortalidad

0.33 0.068 0.54


8
6
4

TasaMortalidadInfantil

0.75 0.89

40
10
1.5 3.0 4.5

TasaFecundidad

0.59
EsperanzadeVida

70
60
15 25 35 10 30 50 60 70

Análisis Exploratorio
aggregate(TasaNatalidad~Ubicacion,FUN=summary)

## Ubicacion TasaNatalidad.Min. TasaNatalidad.1st Qu. TasaNatalidad.Median


## 1 Ce 21.50 24.48 29.15
## 2 Cr 13.00 15.08 18.25
## 3 Sr 17.70 21.13 24.15
## TasaNatalidad.Mean TasaNatalidad.3rd Qu. TasaNatalidad.Max.
## 1 28.98 32.75 37.30
## 2 19.23 21.78 31.80
## 3 24.11 25.75 32.70

aggregate(TasaMortalidad~Ubicacion,FUN=summary)

## Ubicacion TasaMortalidad.Min. TasaMortalidad.1st Qu.


## 1 Ce 4.000 5.050
## 2 Cr 5.200 6.775
## 3 Sr 4.900 5.400
## TasaMortalidad.Median TasaMortalidad.Mean TasaMortalidad.3rd Qu.
## 1 5.300 5.375 5.575
## 2 7.050 7.325 7.525
## 3 6.500 6.908 8.150
## TasaMortalidad.Max.
## 1 6.900
## 2 10.800
## 3 9.900

Análisis Exploratorio
aggregate(TasaMortalidadInfantil~Ubicacion,FUN=summary)

## Ubicacion TasaMortalidadInfantil.Min. TasaMortalidadInfantil.1st Qu.


## 1 Ce 11.80 29.18
## 2 Cr 7.50 12.10
## 3 Sr 11.50 21.52
## TasaMortalidadInfantil.Median TasaMortalidadInfantil.Mean
## 1 32.40 30.85
## 2 15.35 21.20
## 3 31.65 33.54
## TasaMortalidadInfantil.3rd Qu. TasaMortalidadInfantil.Max.
## 1 35.00 45.50
## 2 19.58 66.10
## 3 39.93 66.70

Análisis Exploratorio
aggregate(TasaFecundidad~Ubicacion,FUN=summary)

## Ubicacion TasaFecundidad.Min. TasaFecundidad.1st Qu.


## 1 Ce 2.600 2.800
## 2 Cr 1.500 1.925
## 3 Sr 2.200 2.500
## TasaFecundidad.Median TasaFecundidad.Mean TasaFecundidad.3rd Qu.
## 1 3.450 3.538 4.000
## 2 2.400 2.383 2.475
## 3 2.800 2.958 3.125
## TasaFecundidad.Max.
## 1 5.000
## 2 4.400
## 3 4.300

Análisis Exploratorio
aggregate(EsperanzadeVida~Ubicacion,FUN=summary)

## Ubicacion EsperanzadeVida.Min. EsperanzadeVida.1st Qu.


## 1 Ce 66.30 69.05
## 2 Cr 57.20 69.80
## 3 Sr 60.40 68.45
## EsperanzadeVida.Median EsperanzadeVida.Mean EsperanzadeVida.3rd Qu.
## 1 71.10 71.20 72.90
## 2 71.55 71.35 75.05
## 3 70.20 69.71 72.52
## EsperanzadeVida.Max.
## 1 77.30
## 2 77.30
## 3 75.70

Análisis Exploratorio

You might also like