Professional Documents
Culture Documents
2
Variabilidad muestral:
Se introduce al estudiar una muestra de la poblacin. En muchas
investigaciones de mercado al estudiar una poblacin objetivo
mediante una encuesta, debemos hacerlo a travs de una muestra.
3
Medidas de Dispersin Absoluta
Miden el grado de dispersin (variabilidad) de los datos,
independientemente de su causa.
4
Ejemplo:
Solucin
5
Varianza Muestral: Se define como:
( )
k k
1 1
i i i
2
s2 = X X f i = X 2
* f X 2
n i =1 n i =1
Es sensible a valores extremos (alejados de la media).
s =
2 1 k
n 1 i =1
( X i X ) * fi
2
(x )
2 n
(x x)
i 2
2 = i =1 i
N S2 = i =1
n 1
1 n 2 2
equivalente S =
2
i
n 1 i =1
x n x
Desviacin Estndar :
Poblacin Muestra
= 2 S = S2
7
Ejemplo:
8
Solucin
s ' = (X i X ) f i
2 1 k 2
Primera forma: n i =1
9
1 k
Segunda forma: s ' = X i2 * f i X 2
2
n i =1
10
Propiedades de la varianza
11
3. Si los datos se multiplican por una constante a
cualquiera, la varianza queda multiplicado por el
cuadrado de dicha constante
Yi = aX i Y = aX
n 2 n 2 n 2
(Y Y )
i ( aX
i aX ) a 2
( X i X ))
=2
ys =
i 1 =i 1
= =i 1
= a 2 sx2
n n n
12
4. Dados k grupos con n1, n2, ..., nk observaciones
con medias X 1 , X 2 ,..., X k y con varianzas s12 , s22,...., sk2
media ponderada de varianza ponderada
las varianzas de las medias
parciales parciales
n s n (X XT )
k k
2 2
j j j j
= j 1 =j 1
=s 2
T +
n n
S2w :intra-grupos S2b :entre-grupos
Componentes de varianza
13
Observacin
Hay que indicar que la desviacin tpica no es una medida robusta
de la dispersin. El hecho de que se calcule evaluando los
cuadrados de las desviaciones hace que sea muy sensible a
observaciones extremas, bastante ms que la desviacin media
(dado que aparece un cuadrado).
14
Ejemplo:
Solucin
15
Ejemplo:
Tasas de retorno de dos fondos de inversiones durante 10 aos
Cual de los dos es ms riesgoso?
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Solucin
Fondo A: 8.3, -6.2, 20.9, -2.7, 33.6, 42.9, 24.4, 5.2, 3.1, 30.05
Media: 14.6 Desvo estndar: 16.74
Fondo B: 12.1, -2.8, 6.4, 12.2, 27.8, 25.3, 18.2, 10.7, -1.3, 11.4
Media: 11.75 Desvo estndar: 9.97
El fondo A es mas riesgoso dado que su desvo estndar es
mayor.
16
Rango o recorrido:de X,
2, 1, 4, 3, 8, 4. El rango es 8-1=7
Recorrido Intercuartlico:
El Intervalo Intercuartlico de X, se encuentra: [ Q1 , Q3 ]
(50 % de las observaciones ms centradas)
El rango Intercuartlico de X, se define como: IQR = Q3 Q1
Q = (Q3 - Q1) / 2
18
Ejemplo:
Solucin
19
Ejemplo
Considrese el conjunto de notas:
15, 45, 47, 53, 58, 58, 60, 62, 67, 74, 75, 78, 80, 80,
81, 85, 85, 85, 90, 92
Obtener la desviacin cuartil
Solucin
Los cuartiles son:
Q1 = 58, Q2 = Me = 74.5 y Q3 = 83
20
Ejercicio
Construir un diagrama de cajas para el ejemplo anterior de 20
notas.
Solucin
Cuartiles:
Q1 = 58, Q2 = Me = 74.5, Q3 = 83
Desviacin cuartil:
Q = 12.5.
Lmite inferior permitido:
a = Q1 2Q = 58 25 = 33
Lmite superior permitido: a
b = Q3 + 2Q = 83 + 25 = 108
Valor ms pequeo normal: xa = 45 > 33
Valor ms grande normal: xb = 92 < 108.
21
Ejemplo:
La distribucin salarial en una empresa es como sigue:
Categora Tamao Media Varianza
laboral
Obreros 300 400 160000
El bajo valor del coeficiente de variacin indica que los valores estn muy
concentrados y que la media representa aceptablemente al conjunto de la
distribucin.
25
Ejemplo:
Solucin
CV=(5/28)+100=20.83%
26
Desigualdad de Chebyshev
Ejemplo
27
Ejercicios resueltos
Ejercicio 1:
A partir del cuadro adjunto donde se muestra datos organizados en
intervalos de clase:
28
Histograma de frecuencias
Solucin
a)
29
b)
30
31
c)
32
Ejercicio 2:
En una compaa area se sabe que, por trmino medio, el 65% de los
vuelos tiene retraso. La distribucin de los vuelos retrasados es la
siguiente:
Duracin del
retraso Nmero de
(centsimas de vuelos
hora) retrasados
00 - 10 2000
10 - 20 3000
20 - 30 2500
30 - 50 2000
50 -100 500
33
Se pide:
a) Determinar el retraso medio y la desviacin tpica del tiempo de
retraso para los vuelos retrasados.
b) Determinar el percentil del 60% e interpretarlo.
c) La compaa ha determinado que por cada vuelo con retraso se
producen unas prdidas fijas de 17000 u.m. y unas prdidas variables
de 10000 u.m. por cada minuto de retraso. Entre qu cantidades se
encuentran al menos las tres cuartas partes de las prdidas generadas
por cada vuelo retrasado? Analizar la heterogeneidad de los datos en
cada caso.
d) Resolver el apartado (a) para el total de los vuelos. Es
representativa la nueva media? En caso negativo propones
razonadamente otra medida de centralizacin.
34
Solucin
a) Sea la variable estadstica X: tiempo de retraso de un vuelo
retrasado, y consideremos la tabla de frecuencias siguiente obtenida a
partir de la dada con las marcas de clase
xi 5 15 25 40 75
hi 0.2 0.3 0.25 0.2 0.05
35
b) De la tabla de frecuencias acumuladas siguiente
36
c) Sea la variable estadstica Y: prdidas que se producen por un vuelo
con retraso, se verifica que
37
el coeficiente de variacin:
38
Ejercicio:
Se ha realizado una estadstica en el Mercado sobre los gastos al menudeo
(u.m.) que una familia tiene cuando realiza sus compras un da cualquiera de la
semana. Este estudio nos aporta la siguiente tabla:
Intervalos Frecuencias
0-5 1000
5-10 1100
10-20 1600
20-50 1000
50-100 300
39
Se pide:
a) Cul es el motivo por el que los datos se presentan en intervalos?
b) Te parece coherentes los datos de la tabla, o bien tendras que
estudiar su procedencia antes de continuar el estudio?
c) Halla el gasto medio, modal y mediano de cada familia.
d) Si a todas las familias que gastan ms de 40 u.m., se les obsequia
con una cafetera, valorada en 2.5 u.m. Hallar el porcentaje de
clientes que se benefician de ellos.
e) Hallar el primer cuartil. Qu significado tiene?
f) Estudiar la representatividad del gasto medio. Es representativa?
Por qu?
g) Analizar la variabilidad de los datos.
h) De las diez personas encargadas de realizar la encuesta se sabe, de
aos anteriores, que tres de ellos se equivocan al elaborar la
encuesta un 10% de las veces; cuatro rellenan ellos mismos el
cuestionario y se equivocan el 75% de las veces y el resto son muy
detallistas y cumplen perfectamente su trabajo. Se pide: Cul es la
variable? Cul es la frecuencia? Por qu los datos no se dividen
en intervalos? Hallar la media de la variable.
40
Ejercicio
Las dos muestras siguientes tienen la misma dispersin absoluta
(desviacin tpica y varianza) pero diferente dispersin relativa (coeficiente
variacin):
41
Ejercicio
42
Medidas de Forma: Asimetra
Perfil horizontal de la distribucin.
Tipos:
43
Cuando realizamos un estudio descriptivo es altamente improbable que la
distribucin de frecuencias sea totalmente simtrica. En la prctica diremos que
la distribucin de frecuencias es simtrica si lo es de un modo aproximado.
44
Medidas de Forma
Coeficientes de Asimetra
1 Coeficiente de Asimetra de PEARSON de X:
X Mo
As =
S
Si: AS = 0 Situacin de Simetra
AS > 0 Situacin de Asimetra a la Derecha
AS < 0 Situacin de Asimetra a la Izquierda
46
Coeficientes de Asimetra
Coeficiente de Asimetra basado en cuartiles:
Q1 + Q3 2Q2
As = Bowley-Yule
Q3 Q1
Si: AS = 0 Situacin de Simetra
AS > 0 Situacin de Asimetra a la Derecha
AS < 0 Situacin de Asimetra a la Izquierda
47
Una pista para saber si una distribucin de frecuencias es asimtrica
positiva la descubrimos observando la figura siguiente:
Q3 Q2 > Q2 Q1.
48
49
Coeficiente de Asimetra Clsico de FISHER de X:
M3 1 1 k
As = 3 = 3 (X i X ) f i
3
S S n i =1
X Mo X Mo
As = >0 As = <0
S S
X X
Mo Mo
X Mo
As = =0
S
Simtrica
51
Mo
X
Medidas de Forma: Curtosis
Perfil vertical de la distribucin.
Interpretacin:
Ap= 0 Ap> 0 Ap< 0
Mesocrtica Leptocrtica Platicrtica
52
Coeficiente de Curtosis usando cuantiles:
Q3 Q1
k= 0.263 Kelley
2( P90 P10 )
Interpretacin:
Ap= 0 Ap> 0 Ap< 0
Mesocrtica Leptocrtica Platicrtica
53
Otras medidas de asimetra y curtosis
Asimetra
Curtosis
54
Intervalos de confianza
55
400 300
300
200
200
100
100
Frecuencia
Frecuencia
0 0
3 27 37 47 57 67 77 87 97 108 27 37 45 53 61 69 77 85 93
16 32 42 52 62 72 82 92 102 138 32 41 49 57 65 73 81 89 99
Leptocrtica Mesocrtica
56
Esta aproximacin no funciona en distribuciones
asimtrica como la distribucin de los ingresos.
57
1. Si las observaciones estn muy dispersos respecto a las medidas centrales,
la distribucin es platicrtica y el ndice de curtosis es negativo (figura B)
2. Si las observaciones estn concentrados respecto a las medidas centrales,
la distribucin es leptocrtica y el ndice de curtosis es positivo (figura C)
3. En una distribucin normal (curva normal) la distribucin es mesocrtica y el
ndice de curtosis vale cero (figura A)
B
A
Ap = 4 (X i X ) 3 > 0
1 1 n 4
S n i =1
Ap = 4 (X i X ) 3 = 0
1 1 n 4
S n i =1
Ap = 4 (X i X ) 3 < 0
1 1 n 4
S n i =1
58
Ojivas vs. Asimetra
Las ojivas o curvas de frecuencias acumuladas, presentan formas
particulares segn el tipo de asimetra. Por ejemplo, en la figura 3.2a la
curva dc frecuencia acumulada A es de una distribucin con asimetra
extrema negativa. La Ojiva C es de asimetra extrema positiva. La ojiva B
es de una distribucin simtrica.
59
Ojivas vs. Apuntamiento
60
Ejemplo
Dada la distribucin de
edades (medidas en aos) Num.
Edad (aos)
personas
en un colectivo de 100
personas, obtener:
0 -- 4 47
1. La variable tipificada Z. 4 -- 10 32
2. Valores de la media y
10 -- 20 17
varianza de Z.
3. Coeficiente de variacin 20 -- 40 4
de Z.
100
61
Solucin:
20 -- 40 30 4 120 3.600
62
A partir de estos valores podremos calcular los valores
tipificados para las marcas de clase de cada intervalo y
construir su distribucin de frecuencias:
63
zi ni zi ni zi2 ni
64
Ejemplo
Las edades de un grupo de Intervalos ni
personas se reflejan en la tabla 7 -- 9 4
siguiente:
9 -- 11 18
Determinar la variabilidad de
la edad mediante los 11 -- 12 14
estadsticos varianza, 12 -- 13 27
desviacin tpica, coeficiente
13 -- 14 42
de variacin y rango
intercuartlico. Estudie la 14 -- 15 31
simetra de la variable. 15 -- 17 20
17 -- 19 1
65
Solucin:
Intervalos ni xi Ni x i ni xi2 ni
En primer 7 -- 9 4 8 4 32 256
lugar 9 -- 11 18 10 22 180 1.800
realizamos 11 -- 12 14 11,5 36 161 1.851,5
los clculos 12 -- 13 27 12,5 63 337,5 4.218,75
necesarios a 13 -- 14 42 13,5 105 567 7.654,5
partir de la
14 -- 15 31 14,5 136 449,5 6.517,75
tabla de
frecuencias: 15 -- 17 20 16 156 320 5.120
17 -- 19 1 18 157 18 324
66
La media es aos
67
Para el coeficiente de asimetra es preciso el clculo de los cuartiles:
68
Figura: La distribucin de frecuencias de la edad presenta una
ligera asimetra negativa.
OBSERVACIN:
Distribuciones con
intervalos de clase
de diferente amplitud
requieren emplear
densidad.
Obtenga la densidad
y recalcule los
indicadores
solicitados.
Comente sus
resultados.
69
Ejercicios resueltos
Ejercicio 3:
La siguiente es la distribucin de los ingresos de los hogares a partir de la
muestra de la Encuesta Nacional de Hogares de un mes
Se pide:
1. Calcular la distribucin de frecuencias y representarla grficamente.
2. Calcular la funcin de distribucin acumulada de frecuencias relativas y
representarla
grficamente.
3. Calcular las medidas de posicin e interpretar su significado.
4. Calcular las medidas de dispersin.
5. Calcular las medidas de simetra y apuntamiento.
70
Solucin
Para los clculos que se solicitan elaboramos el cuadro siguiente:
1) La distribucin de frecuencias
relativas en el caso de variables
continuas no se grafica (intervalos
con diferente amplitud). La funcin
que interesa graficar es ni / ci:
71
2) La funcin de distribucin acumulada de frecuencias relativas la
tenemos calculada en la quinta columna en los puntos extremos de
intervalo. El grfico es una poligonal que pasa por dichos puntos y se
completa con: H(y) = 0 si y < 1000 y H(y) = 1 si y > 15000.
72
Ejercicio 4:
Los sueldos que paga una empresa a sus
empleados, vienen dados por la tabla adjunta. La
empresa propone al personal dos posibles arreglos
de negociacin:
Se pide:
a) Cul es el sueldo promedio que paga la empresa?
b) Cul es el nuevo sueldo promedio U, segn el Arreglo 1?
c) Cul es la mediana del sueldo segn el Arreglo 2?
d) Sobre qu sueldo yi , estn el 20% de los sueldos superiores?
e) Qu porcentaje del dinero destinado a pagar sueldos representan los
sueldos de las personas que ganan ms de yi = $ 18.000?
f) Cul es la varianza de los sueldos U, segn el Arreglo 1?
g) Cul es el coeficiente de variacin de los sueldos U, segn el Arreglo 1?
h) Cul es el coeficiente de variacin de los sueldos T, segn el Arreglo 2?
73
Solucin
Elaboramos el siguiente cuadro que muestra los clculos para los datos
originales y para los dos posibles acuerdos:
74
75