Professional Documents
Culture Documents
FCEyN UBA
Estadstica Descriptiva
Observamos datos provenientes de una o varias muestras de la poblacin bajo estudio.
El objetivo es obtener conclusiones sobre toda la poblacin a partir de la muestra observada.
Poblacin: todos los individuos que poseen la(s) caracterstica(s) de inters.
Muestra: subconjunto de la poblacin
Poblacin -----------> Muestra
<----------Inferencia
Factores necesarios para un buen anlisis estadstico:
Diseo del Experimento o Investigacin
Calidad de los Datos
Las tcnicas del anlisis exploratorio nos ayudan a organizar la informacin que nos dan los
datos, de manera de detectar algn patrn de comportamiento as como tambin apartamientos
importantes al modelo subyacente. Nos guan a la estructura subyacente en los datos de manera
rpida y simple.
Qu observamos?
Cualquier caracterstica de un individuo u objeto que nos resulte de inters y la expresaremos
numricamente
VARIABLE
Variable -----------> Dato
sujeto
Ejemplo:
Sexo:
Edad:
Peso
Hombre
Mujer
(0)
(1)
Sexo es una variable categrica, mientras que Edad y Peso son cuantitativas.
Comenzaremos por tratar las variables de tipo cuantitativas.
8
3
3
1
0
2
2
5
9
4
3
2
0
4
3
5
4
4
2
4
5
8
6
5
6
3
5
6
6
7
3
5
8
6
8
7
5
9
7
7 8 9
7 7
9
93
94
155
135
119
103
88
148
155
132
97
113
117
156
103
111
89
124
127
139
112
125
118
138
95
142
127
104
136
113
94
117
106
125
96
107
120
139
143
94
104
113
125
136
155
94
106
117
125
138
156
95
107
117
125
139
96
108
118
127
139
96
111
119
127
142
89
103
112
120
134
148
93
103
113
124
135
155
8 9
TALLO
HOJA
4. Elegimos cuantos dgitos a la derecha de cada nmero que correspondern a las hojas: 1 en
este caso.
5. Separamos esos dgitos, que constituirn los tallos. En este caso obtendremos 8 tallos, de 8 a
15.
8
9
10
11
12
13
14
15
89
3445667
334678
122337789
00455577
2456899
238
556
kevlar<- read.table("C:\\Users\\Ana\\estadisticaQ\\2012\\kevlar.txt",header=T)
names(kevlar)
[1] "per90" "per80" "per70"
attach(kevlar)
stem(per90)
Ejemplo:
Concentracin de Inmunoglobulina en 298 nios sanos entre 6 meses y 6 aos de edad.
Veamos, como ejemplo, el esquema de tallo y hoja que construye el paquete SX.
0
0
0
0
0
1
1
1
1
1
2
2
2
2
2
3
3
3
3
3
4
4
4
111
22222223333333333333333333
4444444444444444444444444445555555555555555555555555*
6666666666666666666666666666666666677777777777777777*
8888888888888888888888888888888888888899999999999999*
00000000000000001111111111111111
2222223333333
444444444555555
66777
888
00011
2
5
7
Hay reglas heursticas para elegir el nmero de tallos. En general, estos van entre 8 y 20.
Cuando el volumen de datos es muy grande conviene usar otro tipo de grficos que tambin son
de fcil interpretacin.
Histogramas
Dividimos el rango donde yacen los n datos en intervalos o clases, que no se
superponen. Las clases deben ser excluyentes y exhaustivas.
Contamos la cantidad de datos en cada intervalo o clase, es decir la frecuencia. Tambin
podemos usar para cada intervalo la frecuencia relativa
fri
fi
n
Obs.:
No existen criterios ptimos para elegir la cantidad de intervalos. En general, entre 8 y 15
intervalos deberan ser suficientes. Muchos o muy pocos intervalos puede ser poco
informativo.
Se busca un equilibrio entre un histograma muy irregular y uno demasiado suavizado.
No es necesario que todos los intervalos tengan la misma longitud, pero es recomendable
que as sea. Esto facilita la lectura.
El histograma representa la frecuencia o la frecuencia relativa a travs del rea y no a
travs de la altura.
Es recomendable tomar
frecuencia relativa
Long. del intervalo
Frecuenci
a fi
1
4
9
14
9
4
1
42
Frecuencia
relativa fri
0.02380952
0.09523810
0.21428571
0.33333333
0.21428571
0.09523810
0.02380952
1
Escala Densidad
0.0
0.05
0.10
0.15
8 10 12 14
Escala Frecuencia
84
86
88
90
92
octanos
94
96
98
84
86
88
90
92
octanos
94
96
98
Longitud de Clase=1g/l
Simtrica
Asimtrica a Izquierda
Medidas de Resumen
Resumiremos la informacin de los datos mediante medidas de fcil interpretacin que reflejen
sus caractersticas ms relevantes.
La mediada a elegir depender de cada problema.
Medidas de Posicin o Centrado
Cul es el valor central o que mejor representa a los datos?
Buscamos un valor tpico que represente a los datos.
Si la distribucin es simtrica diferentes medidas darn resultados similares y hay un claro valor
de centrado. Si es asimtrica no existe un centro evidente y diferentes criterios para resumir los
datos pueden diferir considerablemente, en tanto tratan de captar diferentes aspectos de los
mismos.
x
i 1
45
5350
118.89
45
Xs: 1, 2, 2, 3
Xs: 1, 2, 2, 7
Mediana Muestral
Es una medida del centro de los datos en tanto divide a la muestra ordenada en dos partes de
igual tamao. Deja la mitad de los datos a cada lado.
Sean los estadsticos de orden muestrales:
x( k 1)
~
x
x( k ) x( k 1)
2
si
n 2k 1
si
n 2k
Si tenemos:
Xs: 1,2,2,3
x2
~
x 2
Xs: 1,2,2,7
x 3
~
x 2
x 18.75
~
x 2
Si tenemos una muestra de salarios de una poblacin dada, sera ms adecuado tomar la media
o la mediana muestral para representarlos?
Medias -Podadas
Es un promedio calculado sobre los datos una vez que se han eliminado % de los datos ms
pequeos y un % de los datos ms grandes. Formalmente podemos definirla como:
x ([ n ]1) ... x ( n [ n ])
n 2[n ]
10
14 17
21 25 28 40
x 0.10
5 8 10 14 17 21 25 28 128
16
8
8
Cmo elegimos ?
Depende de cuantos outliers se pretende excluir y de cun robusta queremos que sea la medida
de posicin.
Cuando seleccionamos = 0 tenemos la media, si elegimos el mximo valor posible para (lo
ms cercano posible a 0.5) tenemos la mediana. Cualquier poda intermedia representa un
compromiso entre ambas. Una eleccin bastante comn es = 0.10, que excluye un 20% de los
datos.
~
x 143
X Y 5
~ ~
X Y 6
Cmo medir la diferencia que se observa entre ambas
muestras?
Rango Muestral
Se define como la diferencia entre el valor ms grande y el pequeo de los datos:
Rango = mx(Xi) mn(Xi)
Ejemplo: en nuestros conjuntos de datos:
Rango (X) = 10
Rango(Y)= 6
X Y
~ ~
X Y
Rango ( X ) Rango (Y )
Varianza Muestral
Es una medida de la variabilidad de los datos alrededor de la media muestral.
n
Varianza muestral :
S2
(x
i 1
2
Desvo estndar muestral : S S
Sx= 4.258
S2y= 12.5
Sy= 3.536
x)2
n 1
El desvo estndar tiene las mismas unidades que los datos, mientras que la varianza no.
Al basarse en promedios, estas medidas son sensibles a la presencia de datos atpicos. Por
ejemplo, si en la muestra de los Ys cambiamos el 10 por un 15 obtenemos S2Y= 30 y SY=
5.477, mientras que si lo cambiamos por un 20 obtenemos S2Y= 57.5 y SY= 7.583.
Distancia Intercuartil
Es una medida basada en el rango de los datos centrales de la muestra y ms resistente que el
desvo estndar.
Comenzaremos por definir los percentiles. El percentil 100 % de la muestra es el valor por
debajo del cual se encuentra el 100 % de los datos en la muestra ordenada.
Para calcularlo:
Ordenamos la muestra de menor a mayor
Buscamos el dato que ocupa la posicin ( n 1) en la muestra ordenada. Si este nmero no
es entero se interpolan los dos adyacentes.
0.10 (19+1) = 2
0.25 (19+1) = 5
0.50 (19+1) = 10
0.75(19+1) = 15
0.95(19+1) = 19
Valor
1
3
6
9
11
Cuartil Inferior
Mediana
Cuartil Superior
Notemos que el percentil 50% (o segundo cuartil) coincide con la mediana. Llamaremos cuartil
inferior (o primer cuartil) al percentil 25% y cuartil superior (o tercer cuartil) al percentil 75%.
Los cuartiles y la mediana dividen a la muestra ordenada en cuatro partes igualmente pobladas
(aproximadamente un 25 % de los datos en cada una de ellas). Entre los cuartiles se hallan
aproximadamente el 50% central de los datos y el rango de stos es:
dI =distancia intercuartil= cuartil superior - cuartil inferior
2 3 5 6 8 9
Cuarto superior=8
Cuarto inferior=4
2 3 5 6 7 8 9
Cuarto superior=7.5
MAD mediana xi ~
x
MAD
0.675
dI
1.35
5 Nmeros de Resumen
Los 5 nmeros de resumen de la distribucin de un conjunto de datos consisten en:
el mnimo, el cuartil inferior, la mediana, el cuartil superior y el mximo.
Ejemplo: Los siguientes datos corresponden a tiempos de CPU (en segundos) de 25 trabajos
enviados a un server tomados al azar.
CPU
1.17 1.23 0.15 0.19 0.92 1.61 3.76 2.41 0.82
0.75 1.16 1.94 0.71 0.47 2.59 1.38 0.96 0.02
2.16 3.07 3.53 4.75 1.59 2.01 1.40
Calculamos los 5 nmeros resumen y la media muestral para este conjunto de datos
stem(CPU)
0.2
0.3
N = 25 Mediana = 1.38
Quartiles = 0.82, 2.16
0.0
0.1
3
CPU
0 : 01257789
1 : 022244669
2 : 0246
3 : 158
4:7
Boxplots
Con las medidas anteriores podemos construir un grfico de fcil realizacin y lectura.
Cmo lo hacemos? Vamos a dar una versin, pero vale la pena advertir que hay variaciones de
un programa a otro.
1. Representamos una escala vertical u horizontal
2. Dibujamos una caja cuyos extremos son los cuartiles y dentro de ella un segmento que
corresponde a la mediana.
3. A partir de cada extremo dibujamos un segmento hasta el dato ms alejado que est a lo sumo
1.5 dI del extremo de la caja. Estos segmentos se llaman bigotes.
4. Marcamos con * a aquellos datos que estn entre 1.5 dI y 3 dI de cada extremo y con o a
aquellos que estn a ms de 3 dI de cada extremo. Algunos paquetes indican a todos los
outliers de la misma forma.
Observacin: Muchos paquetes estadsticos realizan el boxplot usando los cuartos y la distancia
entre cuartos en lugar de la distancia intercuartil. Como estas medidas son muy prximas, en
general los resultados son anlogos. Lo importante es que entre los cuartos o entre los cuartiles
yace aproximadamente el 50% central de los datos.
ESQUEMA de BOXPLOT
Ejemplo:
CPU
Es interesante observar que en el boxplot se indica a uno de los datos como outlier, mientras que
en el anlisis anterior esto no pareca evidente.
posicin
dispersin
asimetra
longitud de las colas
puntos anmalos o outliers.
Los box-plots son especialmente tiles para comparar varios conjuntos de datos, pues nos dan
una rpida impresin visual de sus caractersticas.
Outliers: Los mtodos que hemos visto nos permiten identificar puntos atpicos, que pueden
aparecer en una o ms variables. Su deteccin es importante pues pueden determinar o
influenciar fuertemente los resultados de un anlisis estadstico clsico, pues muchas de las
tcnicas habitualmente usadas son muy sensibles a la presencia de datos atpicos.
10
1er. server
2do. server
La simple comparacin de los boxplots obtenidos revela que los trabajos enviados al segundo
server son ms largos.
De hecho, el 75% de los trabajos muestreados en el segundo server tienen tiempos de CPU
mayores que el cuartil superior de los trabajos muestreados en el primer server.
Ejemplo: Con el fin de estudiar las diferencias entre 4 laboratorios se miden 25 muestras con una
concentracin de analito de 50mg kg-1.
Se analizan los datos correspondientes a 25 mediciones realizadas en 4 laboratorios. Veamos
que da este anlisis.
N
MEAN
SD
MINIMUM
1ST QUARTI
MEDIAN
3RD QUARTI
MAXIMUM
MAD
LAB1
25
50.824
2.5195
46.600
48.700
50.800
52.600
54.800
2.0000
LAB2
25
51.444
2.4316
46.500
49.850
51.600
53.600
54.900
1.8000
LAB3
25
50.892
2.0619
47.500
49.300
50.700
52.500
54.300
1.6000
LAB4
25
51.720
2.7217
47.400
49.850
51.800
53.650
57.100
1.6000
boxplot(LAB1,LAB2,LAB3,LAB4)
abline(h=50,col="red")
QQ-plot
El qq-plot es un grfico que nos sirve para evaluar la cercana a la distribucin normal.
Para realizarlo se consideran los estadsticos de orden
i 1 / 3
n 1/ 3
de la normal, es decir
i 1/ 3
)
n 1/ 3
(algunos programas
qqnorm(octanos.per,ylab="OCTANOS" )
qqline(octanos.per, col = 2)
qqnorm(per90,ylab="Datos KEVLAR" )
qqline(per90, col = 2)
qqnorm(IGM,ylab="Datos de Inmunoglobulina" )
qqline(IGM, col = 2)