Professional Documents
Culture Documents
Análisis Exploratorio
Tipo de datos
Cualitativos o categóricos:
Dicotómicos o binarios.
Politómicos
Nominales
Ordinales o semicuantitativos.
Cuantitativos
Discretos
Continuos
Análisis Exploratorio
Matriz de datos
···
x x12 x1p
11
Análisis Exploratorio
Estadísticos descriptivos: Centramiento
La media
es el promedio de los datos.
P
i
xi
x̄ = .
n
La mediana
es el valor que divide a las observaciones en dos grupos de igual número de individuos
X n + 1 , si n es impar
2
Med =
1
2 X n + X n +1
, si n es par.
2 2
La moda
es el o los valores donde la distribución de frecuencia alcanza un máximo.
Análisis Exploratorio
Estadísticos descriptivos: Dispersión
El rango intercuartil
es la diferencia entre el tercer y primer cuartil.
RIC = Q3 − Q1 .
Análisis Exploratorio
El máximo
es x(n) , el mínimo es x(1) . El rango es R = x(n) − x(1) .
La varianza
es:
n
1 X
s2 = (xi − x̄ )2 .
n
i=1
La desviación estándar
es la raíz cuadrada positiva de la varianza, s.
Análisis Exploratorio
Kurtosis y heterogeneidad
donde
n n
X X
dij (xij − x̄j )2
i=1 i=1
sj2 = = .
n n
Análisis Exploratorio
Kurtosis y heterogeneidad
Análisis Exploratorio
Kurtosis y heterogeneidad
Análisis Exploratorio
Kurtosis y heterogeneidad
Análisis Exploratorio
En R: Ejemplo con summary
vida = read.table("vidaquin1.txt",header=T)
attach(vida)
summary(vida[,2:6])
Análisis Exploratorio
En R: cuantiles
quantile(vida$TasaNatalidad,c(.25,.50,.75))
quantile(vida$TasaMortalidad,c(.25,.50,.75))
quantile(vida$TasaMortalidadInfantil,c(.25,.50,.75))
quantile(vida$TasaFecundidad,c(.25,.50,.75))
quantile(vida$EsperanzadeVida,c(.25,.50,.75))
v = vida[,2:6]
apply(v, 2, range)
apply(v, 2, sd)
(mcv=cov(vida[,2:6]))
Análisis Exploratorio
En R: Medias
(mmed=colMeans(vida[,2:6]))
Análisis Exploratorio
Preguntas de intéres
cor(vida[,2:6])
Análisis Exploratorio
dist = mahalanobis(vida[,2:6],mmed,mcv)
Pais[dist>10]
Pais[which(dist==min(dist))]
## [1] SanVicenteGranadinas
## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela
Pais[which(dist==max(dist))]
## [1] Haiti
## 32 Levels: AntillasNeerlandesas Argentina Bahamas Barbados ... Venezuela
Pais[dist<2]
Análisis Exploratorio
En R: gráficos
plot(TasaNatalidad,TasaMortalidad,xlim=c(10,40))
text(TasaNatalidad,TasaMortalidad,Pais, pos=4,cex=0.5)
11
Haiti
10
Guyana
Uruguay
9
Barbados
Bolivia
TasaMortalidad
PuertoRico Argentina
Bahamas
Cuba Jamaica
7
SantaLucia Suriname
TrinidadTobago Guatemala
SanVicenteGranadinas
AntillasNeerlandesas
Brasil Peru
ElSalvador
6
RepublicaDominicana
Colombia
Chile Paraguay
Nicaragua
Honduras
Ecuador
IslasVirgenes Panama
Mexico
5
Venezuela Belice
4
CostaRica
10 15 20 25 30 35 40
TasaNatalidad
Análisis Exploratorio
plot(TasaNatalidad,TasaMortalidad,pch='.')
text(TasaNatalidad,TasaMortalidad,Pais, pos=4,cex=0.5)
11
10 Haiti
Guyana
Uruguay
9
Barbados
Bolivia
TasaMortalidad
PuertoRico Argentina
Bahamas
Cuba Jamaica
7
SantaLucia Suriname
TrinidadTobago Guatemala
SanVicenteGranadinas
AntillasNeerlandesas
Brasil Peru
ElSalvador
6
RepublicaDominicana
Colombia
Chile Paraguay
Nicaragua
Honduras
Ecuador
IslasVirgenes Panama
Mexico
5
Venezuela Belice
4
CostaRica
15 20 25 30 35
TasaNatalidad
Análisis Exploratorio
En R: histogramas de frecuencias
8
6
4
2
0
10 15 20 25 30 35 40
Tasa de Natalidad
Análisis Exploratorio
En R: gráficos cuántil-cuántil
qqnorm(TasaNatalidad)
qqline(TasaNatalidad)
Normal Q−Q Plot
35
30
Sample Quantiles
25
20
15
−2 −1 0 1 2
Theoretical Quantiles
Análisis Exploratorio
En R: Diagramas de cajas
50
9
30
8
25
30
20
6
5
15
10
4
Tasa de Nacimiento Tasa de mortalidad Tasa de mortalidad infantil
75
4.5
70
3.5
65
2.5
60
1.5
Análisis Exploratorio
En R: Diagramas de dispersión
pairs(vida[2:6])
4 6 8 10 1.5 3.0 4.5
35
25
TasaNatalidad
15
11
8
TasaMortalidad
6
4
40
TasaMortalidadInfantil
10
1.5 3.0 4.5
TasaFecundidad
70
EsperanzadeVida
60
15 25 35 10 30 50 60 70
Análisis Exploratorio
En R: Diagramas de estrellas
stars(vida[2:6],labels=dimnames(vida)[[1]],col.lines="red")
1 2 3 4 5 6
7 8 9 10 11 12
13 14 15 16 17 18
19 20 21 22 23 24
25 26 27 28 29 30
31 32
Análisis Exploratorio
Boxplot por ubicación
boxplot(split(EsperanzadeVida,Ubicacion))
75
70
65
60
Ce Cr Sr
Análisis Exploratorio
boxplot(split(TasaMortalidad,Ubicacion))
11
10
9
8
7
6
5
4
Ce Cr Sr
Análisis Exploratorio
boxplot(split(TasaMortalidadInfantil,Ubicacion))
60
50
40
30
20
10
Ce Cr Sr
Análisis Exploratorio
boxplot(split(TasaFecundidad,Ubicacion))
5.0
4.5
4.0
3.5
3.0
2.5
2.0
1.5
Ce Cr Sr
Análisis Exploratorio
boxplot(split(TasaNatalidad,Ubicacion))
35
30
25
20
15
Ce Cr Sr
Análisis Exploratorio
pairs(vida[2:6])
35
25
TasaNatalidad
15
11
8
TasaMortalidad
6
4
40
TasaMortalidadInfantil
10
1.5 3.0 4.5
TasaFecundidad
70
EsperanzadeVida
60
15 25 35 10 30 50 60 70
Análisis Exploratorio
pairs(vida[2:6],pch=21,bg = c("red", "green3", "blue")[unclass(Ubicacion)])
35
25
TasaNatalidad
15
11
8
TasaMortalidad
6
4
40
TasaMortalidadInfantil
10
1.5 3.0 4.5
TasaFecundidad
70
EsperanzadeVida
60
15 25 35 10 30 50 60 70
Análisis Exploratorio
pairs(vida[2:6], text.panel = NULL, upper.panel = NULL)
15 25 35
35
25
11 15
8
6
4
40
10
1.5 3.0 4.5
70
70
60
60
15 25 35 4 6 8 10 10 30 50 1.5 3.0 4.5 60 70
Análisis Exploratorio
panel.hist <- function(x, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(usr[1:2], 0, 1.5) )
h <- hist(x, plot = FALSE)
breaks <- h$breaks; nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col = "blue", ...)
}
pairs(vida[2:6], panel = panel.smooth,
cex = 1.5, pch ='.', bg = "blue",
diag.panel = panel.hist, cex.labels = 0.5, font.labels = 2)
Análisis Exploratorio
4 6 8 10 1.5 3.0 4.5
35
TasaNatalidad
25
15
11
TasaMortalidad
8
6
4
TasaMortalidadInfantil
40
10
1.5 3.0 4.5
TasaFecundidad
EsperanzadeVida
70
60
15 25 35 10 30 50 60 70
Análisis Exploratorio
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
text(0.5, 0.5, txt, cex = cex.cor)
}
pairs(vida[2:6], lower.panel = panel.smooth, upper.panel = panel.cor, pch=21,
diag.panel=panel.hist,bg = c("red", "green3", "blue")[unclass(vida$Ubicacion)])
Análisis Exploratorio
4 6 8 10 1.5 3.0 4.5
35
TasaNatalidad
25
15
11
TasaMortalidad
TasaMortalidadInfantil
0.75 0.89
40
10
1.5 3.0 4.5
TasaFecundidad
0.59
EsperanzadeVida
70
60
15 25 35 10 30 50 60 70
Análisis Exploratorio
aggregate(TasaNatalidad~Ubicacion,FUN=summary)
aggregate(TasaMortalidad~Ubicacion,FUN=summary)
Análisis Exploratorio
aggregate(TasaMortalidadInfantil~Ubicacion,FUN=summary)
Análisis Exploratorio
aggregate(TasaFecundidad~Ubicacion,FUN=summary)
Análisis Exploratorio
aggregate(EsperanzadeVida~Ubicacion,FUN=summary)
Análisis Exploratorio