You are on page 1of 18

Objetivo:

Conocer, calcular e interpretar


medidas de dispersin para datos
agrupados y no agrupados.

Medidas de dispersin para datos


agrupados y no agrupados
Al igual que sucede con cualquier conjunto de datos, la media, la mediana y la moda
slo nos revelan una parte de la informacin que necesitamos acerca de las
caractersticas de los datos. Para aumentar nuestro entendimiento del patrn de los
datos, debemos medir tambin su dispersin, extensin o variabilidad.
Al analizar un conjunto de datos, resulta a menudo conveniente expresar
numricamente la variabilidad que existe entre ellos.
Para llevar a cabo esta descripcin, se usan varias estadsticas que usan relaciones
internas entre los datos. Comnmente estas relaciones tienen que ver con diferencias
de los datos o funciones de ellos respecto de algunas estadsticas de posicin.
Dependiendo del tipo de diferencia usada, se obtienen distintas expresiones que
entregan visiones parciales de la forma en que los datos varan. Estas visiones
parciales se complementan para entregar un cuadro ms completo de la dispersin
observada entre los datos.

1) Rango

El rango (amplitud) se calcula como la diferencia entre el mximo y el mnimo valor


de un conjunto de datos, esto es:

R X max X min
Ejemplo:
Se tienen las edades de cinco estudiantes universitarios de Ier ao: 18,23, 27,34 y 25,
para calcular el rango.

R X max X min

= 34-18 = 16 aos

Propiedades del Rango o Recorrido:


El recorrido es la medida de dispersin ms sencilla de calcular e
interpretar puesto que simplemente es la distancia entre los valores
extremos (mximo y mnimo) en una distribucin
Puesto que el recorrido se basa en los valores extremos ste tiende a
ser errtico.
La principal desventaja del recorrido es que slo esta influenciado por
los valores extremos, puesto que no cuenta con los dems valores de
la variable. Por tal razn, siempre existe el peligro de que el recorrido
ofrezca una descripcin distorsionada de la dispersin.

Rango Intercuartil:

Es la diferencia entre el tercer y primer cuartil e indica el intervalo


de valores que abarcan el 50% del total de datos y que estn al
centro.
Es una medida de variabilidad adecuada cuando la medida de
posicin central empleada ha sido laMediana

2) Varianza

Las varianza se define como el promedio cuadrtico de las


desviaciones de las observaciones respecto del promedio de estos
datos.La2 varianza est denotada por
x

La varianza es una medida de dispersin relativa a algn punto de


referencia. Ese punto de referencia es la media aritmtica de la
distribucin. Ms especficamente, la varianza es una medida de
que tan cerca, o que tan lejos estn los diferentes valores de su
propia media aritmtica. Cuando ms lejos estn las X i de su
propia media aritmtica, mayor es la varianza; cuando ms cerca
estn las Xi a su media menos es la varianza

Para datos agrupados se calcula a partir de la frmula:

1 k
x ( xi x )2 fi
n i 1
2

xi
Donde, n es el tamao de la muestra,

el valor

correspondiente i-sima observacin (o marca de clase en el caso


fi
x
de datos agrupados
como variable continua),

de la muestra y
sima.

el promedio

la frecuencia absoluta de la clase i-

Una manera alternativa de calcular la varianza, es mediante la frmula:

2
x

f
i i
x 2
2
x i 1

n
k

Esta ltima expresin tiene algunas ventajas sobre la anterior, debido a que se
producen menores errores de redondeo al utilizarla.

Ejemplo
Se tiene informacin respecto al nmero de las latas de bebidas consumidas durante
un mes, por un grupo de 39 familias en la siguiente tabla

xi

fi

30

35

10

40

41

12

45

Total

39

x2

x
i 1

f i
x 2

Para calcular la varianza, debemos completar la siguiente tabla

xi

fi

xi 2

xi 2 fi

30

900

4500

35

10

1225

12250

40

1600

12800

41

12

1681

21172

45

2025

8100

Total

39

58822

58822
x2
1463,5 44, 7
39
Saber que la varianza del ejemplo es igual a 44,7 no tiene una interpretacin, sino
que es un valor comparativo entre muestras.

3) Desviacin estndar

Sx
x
Diremos que la desviacin tpica o estndar,denotada
por

est

definida como la raz cuadrada de la varianza.

Se calcula segn la frmula:


x x2

O bien:

Sx Sx2

Observacin

La unidad de medida de la desviacin estndar es la misma unidad de medida de la


variable.
La desviacin estndar mide la cantidad tpica en la que los valores del conjunto
difieren de la media aritmtica
A modo de ejemplo, se puede decir que un valor est bastante alejado del centro de
los datos si su distancia de l supera dos desviaciones estndar

Del ejemplo anterior


La desviacin estndar seria

x 44.7 6.69

4) Coeficiente de variacin

La desviacin estndar es til como medida de variacin de un conjunto de


datos, sin embargo, depende de la unidad de medida.

Si por ejemplo, se desea comparar la variabilidad de las estaturas de los


chilenos versus la variabilidad de las estaturas de los ingleses, no es
posible hacerlo directamente con las medidas de dispersin expuestas
anteriormente, debido a las distintas unidades de medicin utilizadas (por
ejemplo, en el caso de los chilenos, la estatura se mide en centmetros,
mientras que en el Reino Unido, la estatura se mide en pulgadas).

Cuando se quiere comparar la dispersin de dos conjuntos de datos, con


unidad de medida diferente, surge una medida de varianza relativa llamada
coeficiente de variacin, la cual expresa la desviacin estndar como un
porcentaje de la media. Esto es:

CVx

x
100%
x

Observaciones generales

Antes de ejemplificar los conceptos de dispersin vistos hasta aqu, es conveniente


tener en cuenta las siguientes observaciones que relacionan las medidas de
dispersin:

Cuanto ms dispersos sean los datos, ms aumentar el rango, el rango


intercuartil (Q3-Q1), la varianza, la desviacin estndar y el coeficiente de
variacin.

Cuanto ms concentrados u homogneos sean los datos, disminuir el rango, el


rango intercuartil, la varianza, la desviacin estndar y el coeficiente de
variacin.

Si las observaciones son todas iguales (de manera que no hay variacin en los
datos), el rango, el rango intercuartil, la varianza, la desviacin estndar y el
coeficiente de variacin ser iguales a cero.

Las medidas de variacin nunca son negativas.

Ejemplo
Con el fin de observar la relacin entre la inteligencia y el nivel socioeconmico
(medido por el salario mensual familiar) se tomaron dos grupos, uno formado con
sujetos de cociente intelectual inferior a 95 y otro formado por los dems; De cada
sujeto se anot el salario semanal familiar (en miles de pesos) . Teniendo en cuenta
Nivel socioeconmico
Sujetos con CI < 95
los resultados que
se indican en la tabla:

Sujetos con CI

Ingreso semanal

fi

100 - 160

35

26

160 - 220

20

25

220 - 280

30

30

280 - 340

25

54

340 - 400

15

46

Cul de los dos grupos presenta mayor homogeneidad?

fi

95

Desarrollemos la tabla de distribucin de frecuencias para ambas


muestras
Muestra 1 (CI<95)
Ingreso semanal

Mc

fi

Fi

hi(%)

Hi(%)

100 - 160

130

35

35

28

28

160 - 220

190

20

55

16

44

220 - 280

250

30

85

24

68

280 - 340

310

25

110

20

88

340 - 400

370

15

125

12

100

125

100

Muestra 2 (CI 95)


Ingreso semanal

Mc

fi

Fi

hi

Hi

100 - 160

130

26

26

14

14

160 - 220

190

25

51

14

28

220 - 280

250

30

81

17

45

280 - 340

310

54

135

30

75

340 - 400

370

46

181

25

100

181

100

Por lo tanto

Muestra 1

Muestra 2

233,2

272,873

82,302855

82,318

Q1

115

206,2

Q3

301

340

186

133,8

35,30%

30,17%

Media
Desviacin
estndar

CV(X)

Vemos cmo analtica se comprueba que la muestra 2 presenta mayor


homogeneidad, es decir, menos variabilidad en sus datos:

(1) CV(muestra1) = 35,3% > CV(muestra 2)= 30,17%

De (1) se concluye que la segunda muestra es ms homognea, y como el coeficiente


de variacin representa el tamao relativo de la dispersin media (o desviacin
estndar) con respecto a la media, podemos concluir tambin que la media de la
muestra 2 es ms representativa que la media de la muestra 1

(2) Q(muestra 1) = 186


> Q(muestra 2)= 133

De (2) se concluye que el rango en el cual se concentra el 50% de las observaciones


centrales (o ms normales), es menor en la muestra 2, lo que tambin implica una
menor variabilidad de sus datos, y por lo tanto mayor homogeneidad.