Professional Documents
Culture Documents
Estadstica
ESTADSTICA
UNIDAD IV
MEDIDAS DE DISPERSIN
Anteriormente se consideraron las medidas de centralizacin de una distribucin, que nos sirve
para localizar el centro de la distribucin, pero no nos dice como se reparten dispersan los datos a
uno y otro lado del centro. Esta ltima caracterstica de una distribucin se suele llamar DISPERSIN
VARIACIN, la variacin de los valores puede ser medida por varios mtodos.
Una medida de dispersin es importante en dos modos:
Primero, puede ser usada para mostrar el grado de variacin entre los valores en los datos dados.
Ejemplo:
Una muy baja dispersin de los salarios por hora de un grupo de trabajadores por hora en una
fbrica, dar la indicacin que a los trabajadores en la fbrica les son pagados, aproximadamente,
salarios iguales. Pero por otro lado, una alta dispersin dar a un lector la impresin de que los
trabajadores son pagados en una amplia variacin de los salarios por hora.
Segundo, la medida de dispersin puede ser usada para suplementar un promedio para describir
un grupo de datos para comparar un grupo de datos con otro. Cuando la dispersin es alta, el promedio
se vuelve de poca ninguna significacin. Cuando la dispersin es baja, el valor promedio es un valor
altamente representativo. Ejemplo:
La media del grupo de nmeros 1, 2 y 12 es x = 1+2+12 = 5, puesto que 5 no esta cercano a
ningn nmero en el grupo, se espera una alta dispersin.
3
La media del grupo de 4, 5 y 6 es X = 4+5+6 = 5, puesto que 5 esta cercano (o igual) a cada
nmero se espera una baja dispersin.
3
Podemos decir que las medidas de dispersin nos indican si los valores estn relativamente
cercanos uno del otro si se encuentran dispersos.
Las medidas de dispersin ms usuales son: el rango, la desviacin media, la varianza y la
desviacin tpica o estndar.
RANGO RECORRIDO
El rango amplitud es la medida ms sencilla de calcular, pero tambin la ms tosca, el rango
no es otra no es otra cosa ms que la diferencia entre el dato de mayor valor y el de menor valor, y nos
da la variabilidad dispersin de los datos extremos, por lo que a mayor rango mayor variabilidad y a
menor rango menor variabilidad.
El rango es sensible a cambios de los valores extremos (mximo y mnimo) e insensible a
cambios de los valores intermedios. El rango es una burda medida de dispersin ya que no se altera
cuando se cambian algunos valores de los datos intermedios que podran ocasionar el aumento
disminucin de la media.
Nota: Ejemplo, en una situacin donde se desea
R = xn x1 conocer solo la extensin de la dispersin extrema en
condiciones ordinarias.
Ejemplo: Los informes del mercado de acciones se
expresa frecuentemente en trminos de su amplitud
cotizando precios altos y bajos de acciones durante un
periodo de tiempo.
Ejemplo:
Encontrar el recorrido de los valores:
1, 4, 8, 9, 10
R = 10 1 = 9
D.M. = (xi x)
N
Ejemplo: Obtener la D.M. de la siguiente serie de nmeros: 68,72,78,84,87,91
x = 68+72+78+84+87+91 = 80
6
D.M. = 68-80 + 72-80 + 78-80 + 84-80 + 87-80 + 91-80
6
D.M. = 12+8+2+4+7+11 = 44
6
6
D.M = 7.33
Desviacin Media Para Datos Agrupados:
Si los datos (x1, x2, ..., xn) se presentan con frecuencias (f1,f2, ..., fn) o sea agrupados en una tabla de
frecuencias, la desviacin media puede obtenerse realizando lo siguiente:
1. Encontrar la media aritmtica de los datos ( x ).
2. Encontrar el valor absoluto de las desviaciones entre las marcas de clase (x) y la media
aritmtica ( x ) . (x x ) .
3. Multiplicar cada una de las desviaciones por la frecuencia correspondiente a su clase f (x - x) .
4. Sumar los resultados del producto obtenido f (x x ) .
5. Dividir la suma obtenida entre el nmero de valores de la distribucin para encontrar la
desviacin media.
La formula es la siguiente:
D.M. = f (xi x)
N
M.A.C Ing. Josu Salvador Snchez Rodrguez
Ejemplo:
x
F
3
2
5
3
7
2
8
2
9
1
10
fx
6
15
14
16
9
60
(x x)
3
1
1
2
3
x = fx = 60 = 6
n 10
x = 6
D.M. = 18 = 1.8
10
D.M. = 1.8
F (x x)
6
3
2
4
3
18
VARIANZA (S2):
Esta es otra medida de dispersin que toma en cuenta todos los datos, y que toma como punto de
referencia la media aritmtica, y con ella se puede eliminar el problema de los signos de las desviaciones
de los nmeros respecto de la media, en vez de no tenerlos en cuenta como en el calculo de la D.M., se
eleva al cuadrado las desviaciones y luego se suman los resultados.
Nota: A veces la desviacin tpica de los datos de una muestra
viene definida con (N-1) en lugar de N en los denominadores,
porque el valor resultante representa un estimador mejor de la
desviacin tpica de una poblacin de la que se ha tomado una
muestra. Para valores grandes de N (por ejemplo N>30)
prcticamente no hay diferencia.
x x
-4
-3
-1
1
2
5
(x x)2
16
9
1
1
4
25
Donde: x = x = 42 = 7
n 6
2
s = (x x)2 = 56
N
6
2
s = 9.333
56
Varianza Para Datos Agrupados:
S2 = f(xi x)2
N
1. Obtener la x.
2. Restar la x a cada marca de clase (x), obtener su desviacin.
3. Elevar al cuadrado cada una de estas desviaciones.
4. Multiplicar las desviaciones al cuadrado por su respectiva frecuencia.
5. Sumar los productos anteriores.
6. Dividir la suma entre el nmero de valores (N), para obtener la varianza.
Ejemplo:
Obtener la varianza de las calificaciones de un grupo.
X
59
68
77
86
95
385
F
2
6
7
9
6
30
Xf
118
408
539
774
570
2409
x = 2409 = 80.3
30
x x
-21.3
-12.3
-3.3
5.7
14.7
(xx)2
453.69
151.29
10.89
32.49
216.09
f(x-x)2
907.38
907.74
76.23
292.41
1296.54
3480.30
s2 = 3480.30 = 116.01
30
Nota: La varianza tiene una gran aplicacin en anlisis estadstico
avanzado pero tiene el inconveniente de que sus unidades son las
mismas que la variable al cuadrado. La varianza determina el
porcentaje de las variables que no fueron consideradas,
determinando as el grado de variabilidad. Para obtener una medida
de dispersin en las unidades originales simplemente se toma la
raz cuadrada de la varianza y al resultado se conoce como
desviacin estndar.
s=
8.24 = 2.87
F
2
2
5
6
2
3
20
fx
4
6
20
30
12
24
96
xx
-2.8
-1.8
-0.8
0.2
1.2
3.2
(x x)2
7.84
3.24
0.64
0.04
1.44
10.24
x = 96/20 = 4.8
f(x x)2
15.68
6.48
3.20
0.24
2.88
30.72
59.20
s = 59.2
20
s = 1.72046
S= 2.9197
67 42
70 27
73 8
Principales Caractersticas de la S:
1. Cuando a cada valor de los datos dados se aumenta (o se disminuye) en un nmero fijo, la desviacin
estndar no se afecta. Sin embargo, cuando cada valor de los datos se multiplica ( divide) por un
nmero fijo, la desviacin estndar tambin se multiplica por el nmero fijo. Ejemplo:
Dato Original
Valor x
xx
(x x) 2
1
-2
4
2
-1
1
6
3
9
9
14
x = 9/3 = 3
M.A.C Ing. Josu Salvador Snchez Rodrguez
15
14
56
x = 18/3 = 6
x = 15/3 = 5
s = 14/3
s = 56/3 = 4.14/3 = 2 14/3
s = 14/3
El rango, la desviacin media y la desviacin estndar, son medidas de dispersin expresadas en
valores absolutos, son convenientes para describir la dispersin de un solo conjunto de valores. Si dos
conjuntos de valores estn siendo comparados, los valores absolutos son convenientes solamente cuando los
promedios de los dos conjuntos son iguales. Es obvio que la comparacin de dos diferentes unidades, tales
como el nmero de kilmetros comparados con el nmero de pesos, no tiene sentido.
Cuando los promedios son claramente diferentes, aunque las unidades pueden ser las mismas, la
tarea de comparar los grados de dispersin basados en los valores absolutos de los diferentes conjuntos es aun
difcil. Ejemplo:
Nota: El coeficiente es una medida de dispersin
relativa de un conjunto de datos, es un ndice excento
de unidades expresado en porcentajes, sirve para
comparar distribuciones y as determinar cual tiene ms
o menos variabilidad an cuando las unidades sean
diferentes.
x = 150 = 50
3
s = 3200 = 32.66
3
s=
350 = 10.80
3
Las medias de los dos conjuntos son claramente diferentes (200 libras para uno y 50 para otro).
No podemos concluir que las ms alta desviacin estndar (32.66 libras) de el ms alto grado de
dispersin en los pesos de los estudiantes universitarios. La S es significativa solamente en relacin con
la media respecto a la cual se calcula.
Una medida de dispersin expresada en un valor relativo es, por lo tanto, requerida para este
tipo de comparacin.
La medida de dispersin ms comnmente usada expresada en valor relativo es el
COEFICIENTE DE VARIACIN, representado por V. Es el cociente de la desviacin estndar
dividida por la media aritmtica.
CVDE = S
X
del ejercicio anterior
EJERCICIO DE PRCTICA:
En la siguiente tabla se presentan las cantidades de 40 prstamos personales utilizados para
financiar la compra de muebles y aparatos elctricos.
Cantidades de 40 Prstamos personales
$ 932
515
452
1 900
1 200
1 278
2 540
586
1 650
1 219
$1 000
554
973
660
720
1 388
851
329
1 423
727
$ 356
1 190
300
1 610
1 525
1 000
1 890
935
592
655
$2 227
954
2 112
445
784
870
630
3 000
334
1 590
ASIMETRA Y CURTOSIS
M.A.C Ing. Josu Salvador Snchez Rodrguez
EL COEFICIENTE DE ASIMETRA
Las diferencias entre media, mediana y moda se pueden usar para crear medidas aritmticas de
asimetra. De entre las medidas de este tipo que existen, la ms til, quiz, es el coeficiente de asimetra
de Pearson, Sk o sk, una medida de asimetra que se concentra en la diferencia entre la moda y la media
y luego la relaciona con la desviacin estndar, como en las formulas que aparecen abajo. El coeficiente
recibe ese nombre en honor de Karl Pearson (1895 1980), un estadstico ingls.
Coeficiente de asimetra de Pearson
Para una poblacin:
Sk = - Mo
Estas grficas ilustran los tres tipos de asimetra. Ntese sus implicaciones para las posiciones
de la media, la mediana y la moda. Mientras estas medidas de tendencia central coinciden en el caso de
asimetra cero, la media es atrada hacia los valores extremos en el caso de asimetra positiva o negativa.
Alejarse desde la cola, y justo como en el diccionario, la media es seguida por la mediana y la moda. Al
igual que el diccionario, la mediana est por lo general ms cerca de la media que la moda; para
distribuciones moderadamente asimtricas, la mediana est como a un tercio de distancia entre la media
y la moda.
(a) Distribucin simtrica: cero asimetra
Densidad de frecuencias relativa
X
Media
Mediana
Moda
(c) Distribucin negativamente asimtrica
Densidad de frecuencias relativa
X
Moda
Media
Mediana
X
Media
Moda
Mediana
Como indica el panel (a) de la figura, la media es igual a la moda para una distribucin
simtrica, as, el coeficiente de asimetra de Pearson es igual a cero porque - Mo = 0. Como muestra el
panel (b), la media excede a la moda para una distribucin asimtrica positivamente, por ello, el
coeficiente de asimetra termina positivo, > Mo. Del mismo modo, como se muestra en el panel (c), la
media est abajo de la moda de distribuciones asimtricas negativamente, el coeficiente de asimetra es,
en consecuencia, negativo porque < Mo.
A veces la diferencia, multiplicada por tres, entre la media y la mediana es sustituida en las
frmulas anteriores por la diferencia entre la media. Para distribuciones moderadamente asimtricas, esta
sustitucin dar casi el mismo resultado que las frmulas anteriores porque, como muestra la figura la
distancia entre media y mediana es igual entonces a casi un tercio de la que hay entre media y moda. Por
lo tanto, para la poblacin de las cantidades de utilidad de la tabla 2.2, el coeficiente de asimetra pudiera
calcularse como
Sk = 3(786.62 533.5) = 759.36 = .90 millones de dlares.
839.29
839.29
El resultado indica asimetra positiva.
(X - )4
K=
N___
4
__
(X - X)4
K=
n___
s4
en donde Xs son los valores de muestra o de poblacin observados ( con siendo la media poblacional
y X la media muestral), mientras que N es el tamao poblacional, n el tamao muestral, 4 el cuadrado
de la varianza poblacional y s4 el cuadrado de la varianza muestral.
De datos agrupados
Sustituir numeradores por f(X - )4 o f(X - X)4 , respectivamente, en donde X y f representan puntos
f
medios de clase y frecuencias de clase.
La figura ilustra tipos de curtosis. Las curvas de frecuencias con una curtosis de tres se
denominan mesocrticas, las de valores ms grandes son ms agudas y se llaman leptocrticas, las de
valores ms pequeos son ms planas y se denominan platicrticas. Si se aproxima el valor de K desde
los datos de utilidad agrupados en la tabla 3.6 el resultado es 7.51, lo que sugiere una distribucin
leptocrtica, como confirma el panel (b) de la figura 2.3. Igual que el coeficiente de variacin, tanto el
coeficiente de asimetra como el de curtosis se expresan como nmeros puros, en consecuencia, se
pueden comparar con facilidad distribuciones diferentes con respecto a su grado de asimetra o curtosis.
M.A.C Ing. Josu Salvador Snchez Rodrguez
Leptocrtica
Mesocrtica
Platicrtica
X
Media
Mediana
Moda
Moda
Media
Mediana
f
Mediana
Media
Moda
x
a) Simtrica
c)Asimtrica negativa
b) Asimtrica positiva
_
Asimetra de la muestra = 3(X Med)
s
En una distribucin simtrica, el valor del coeficiente de asimetra ser
siempre de cero, porque la media y la mediana son iguales entre s en valor. En
una distribucin asimtrica positiva, la media siempre es mayor que la mediana;
en consecuencia, el valor del coeficiente es positivo. En una distribucin asimtrica
negativa, la media siempre es menor que la mediana; por lo tanto, el valor del
coeficiente es negativo.
EJEMPLO:
En relacin con los datos de ventas de equipos de aire acondicionado
presentados en el ejemplo 2, la media es 10.5 unidades, la mediana 11.0 unidades
y la desviacin estndar 3.3 unidades.
El coeficiente de asimetra es
Asimetra = 3( Med) = 3(10.5 11.0) = - 0.45
3.3
As, la distribucin de cantidades de ventas en cierto modo asimtrica negativa, o sesgada a la izquierda.