You are on page 1of 45

ESTADSTICA GENERAL

Dr. Francisco Surez Aranda

MEDIDAS DE DISPERSIN
Las medidas de dispersin o variabilidad miden el
grado de concentracin de las observaciones en
torno a una medida de tendencia central
(generalmente la media aritmtica).

Una distribucin de frecuencias ser homognea


o poco variable, si los valores de las
observaciones difieren poco entre s, y por tanto,
se concentran en torno a la indicada medida.
Por el contrario, una distribucin de valores ser
heterognea o muy variable si los datos se
dispersan mucho entre s y por tanto tambin con
respecto a su media.
Dr. Francisco Surez Aranda

Las medidas de dispersin permiten evaluar la


representatividad de una medida de tendencia
central, mediante la cuantificacin de las distancias
de los diversos valores de la variable respecto a
dicha medida. Esta distancia en trminos
estadsticos, constituye la dispersin de la
distribucin.
Es decir, a la mayor o menor separacin de los
valores de una distribucin respecto a la media
aritmtica por ejemplo (que se pretenda sea su
medida de resumen), se le llama dispersin. Por lo
cual, ser ms representativa la media aritmtica
de una variable cuanto ms agrupados en torno a
ella estn los valores promediados.

Dr. Francisco Surez Aranda

En ciertas ocasiones, la variabilidad de las


observaciones es la cuestin central en una
investigacin.
Uno de los objetivos de las medidas de dispersin
es estudiar hasta que punto, las medidas de
tendencia central son representativas como
sntesis del conjunto de datos. Medir esta
representatividad equivale a cuantificar la
separacin de los valores de la distribucin
respecto a dicha medida.
As, si se desea estudiar el grado en que una media
aritmtica indica la tendencia central de un
conjunto de datos, se analizar la separacin o
desviacin de cada valor respecto a la media.

Dr. Francisco Surez Aranda

Si todos los valores estn cerca de la media


aritmtica, esta, ser representativa de ellos. Por
el contrario, una gran medida de dispersin
indicar que la media aritmtica no es muy
representativa de los datos.
La variabilidad es un concepto cuantitativo, de tal
manera que nada de esto se aplica a las
distribuciones de datos cualitativos.
Son varias las medidas de dispersin
intuitivamente atractivas, pero poco usadas,
como el rango y la desviacin media. Las
medidas de dispersin ms utilizadas son las que
tienen que ver cmo se dispersan los datos
respecto a la media aritmtica, como es el caso
de la varianza y desviacin estndar.

Dr. Francisco Surez Aranda

Montos de ventas realizadas por vendedores:


VENTAS (en miles de soles)

VENDEDOR
Javier
Vctor
scar
Ricardo

5
6
8
8

5
4
5
6

5
6
7
4

5
4
5
7

MEDIA
5
5
0
0

5
5
5
5

La ventas realizadas por Javier no variaron.


Las ventas realizadas por Vctor variaron menos
que las ventas efectuadas por scar (la
dispersin de las ventas de Vctor es menor que
la dispersin de las ventas de scar).
Las ventas realizadas por Ricardo variaron ms
que las ventas efectuadas por los otros (la
dispersin de sus ventas es mayor).

Dr. Francisco Surez Aranda

1. RANGO, AMPLITUD O RECORRIDO (R o A)


Es la diferencia entre el mayor valor y el menor
valor de un conjunto de observaciones.
Tiene la ventaja de que su clculo en un
conjunto de observaciones es fcil de
determinar y adems, su interpretacin es
simple.
No obstante, tiene algunas limitaciones, as por
ejemplo, no siempre capta ciertas diferencias;
como en el ejemplo de las ventas, no detecta
que las ventas realizadas por Ricardo variaron
ms que las ventas efectuadas por scar, pues
en ambos casos el rango es 8 mil.

Dr. Francisco Surez Aranda

Esta desventaja se debe a que en clculo del


rango solo se toman en consideracin los valores
extremos.
Adems, el rango es muy sensible a los valores
extremos y nada sensible a los intermedios,
pudiendo carecer de toda representatividad.
Otro inconveniente se relaciona al tamao de la
muestra, as, si se quiere comparar la variabilidad
de la dispersin de dos conjuntos de datos de
tamao marcadamente distinto, es probable que
la muestra de mayor tamao presente una mayor
amplitud aunque las poblaciones de referencia
tengan la misma variabilidad.

Dr. Francisco Surez Aranda

Ejemplo
Ventas efectuadas por scar (miles de soles):
8

Valor mximo: 8
Valor mnimo: 0
R xmax xmin

R 8 0 8 mil soles.

Dr. Francisco Surez Aranda

2. VARIANZA
De todas las medidas de dispersin respecto a la
media aritmtica, la varianza y su raz cuadrada
(desviacin estndar), son las ms importantes.
Si en vez de considerar los valores absolutos de
las desviaciones respecto a la media aritmtica
consideramos sus cuadrados y se divide entre el
nmero de observaciones, tendremos una nueva
medida de dispersin que nos conducir a la
denominada varianza, que se puede definir
como, la media aritmtica de los cuadrados de
las desviaciones de los valores de la variable
respecto a su media aritmtica.

Dr. Francisco Surez Aranda

La varianza es una de las ms importantes


medidas de variabilidad, pero su resultado
constituye una magnitud que no tiene sentido por
si misma, puesto que es un valor cuadrtico.
Su significado cobra relevancia al comparar el
grado de variabilidad de dos distribuciones.
Cuanto ms se aproxima a cero, ms concentrado
estn los valores alrededor de su media
aritmtica.
Por el contrario, cuanto mayor sea la varianza,
ms dispersos estn los valores en relacin a su
media aritmtica.

Dr. Francisco Surez Aranda

PROPIEDADES DE LA VARIANZA
a) La varianza puede ser cero o un valor positivo,
no puede ser negativa, porque para su clculo
se suman valores cuadrticos, imposibilitando
la obtencin de un valor negativo.
a) Es sensible a valores aberrantes.
c) La varianza de una constante k es cero.
d) Si a todos los valores de la variable se le suma
o resta una constante k, la varianza no vara
(un cambio de origen en la variable no afecta a
la varianza).
e) Si a todos los valores de la variable se le
multiplica una constante k, la varianza queda
multiplicada por el cuadrado de la constante y
la desviacin estndar por el valor absoluto de
esa constante.
Dr. Francisco Surez Aranda

2. VARIANZA
Varianza poblacional ( 2)

xi )2
2
N

x2i ( xi )2/N
2
N

Varianza muestral o cuasivarianza (s2)


_

(xi x)2
s2
n1

Dr. Francisco Surez Aranda

x2i ( xi )2/n
s2
n1

PARA DATOS AGRUPADOS


Varianza poblacional ( 2)

fi(xi )2
2
N

fix2i ( fixi )2/N


2
N

Varianza muestral o cuasivarianza (s2)


_

fi(xi x)2
s2
n1

Dr. Francisco Surez Aranda

fi x2i ( fi xi )2/n
s2
n1

En el ejemplo de las ventas efectuadas por scar


(en miles de nuevos soles):
xi 8

Si es una poblacin:

5
2

)
i
2

2 (5 5)2 (7 5)2 (5 5)2 (0 5)2


(8

5)
2
5
38
2
7.6
5

Dr. Francisco Surez Aranda

Si es una muestra:
_

x5
_

(x

x)
i
s2

n1

2 (5 5)2 (7 5)2 (5 5)2 (0 5)2


(8

5)
s2
51

s2

38
9.5
4

Dr. Francisco Surez Aranda

VARIANZA PONDERADA
Cuando se tienen dos o ms muestras y se
necesita contar con una varianza combinada,
requiere ponderarse las varianzas. En este caso
el peso que se le otorga a cada varianza est
relacionado a sus grados de libertad (n 1).
La frmula es la siguiente:

(ni 1) s2i
s2p
(ni 1)

Dr. Francisco Surez Aranda

Ejemplo
Se ofreci un curso de redaccin a estudiantes
de la UCSur. Por ser un curso prctico se
organizaron dos grupos: uno con nueve
estudiantes (grupo A) y otro con cinco (grupo B).
Al final del dictado del curso se evaluaron a los
estudiantes a fin de observar el rendimiento
medio y la variabilidad de las notas de todos los
estudiantes,
observndose
los
siguientes
resultados:
Media
Varianza
Grupo A:
15.80
5.20
Grupo B:
16.60
5.80
Encuentre los estadsticos adecuados.

Dr. Francisco Surez Aranda

MEDIA PONDERADA
wi xi
xp
wi
_

(9 x 15.80) (5 x 16.60)

xp
9 5
_

225.50

xp 16.09
14

Dr. Francisco Surez Aranda

VARIANZA PONDERADA
2

(n

1)
s
i
i
s2p
(ni 1)

s2

(9 1) 5.20 (5 1) 5.80
p
(9 1) (5 1)

s2p

Dr. Francisco Surez Aranda

64.8
5.40
12

3. DESVIACIN ESTNDAR
Es la raz cuadrada de la varianza.

Su valor se expresa en las mismas unidades que


se emplean para medir las observaciones.
Su valor indica como se desvan en promedio,
los valores de las observaciones respecto a su
media.

Dr. Francisco Surez Aranda

3. DESVIACIN ESTNDAR
Es la raz cuadrada de la varianza.

Su valor se expresa en las mismas unidades que


se emplean para medir las observaciones.
Su valor indica como se desvan en promedio,
los valores de las observaciones respecto a su
media.
VENDEDOR
Javier
Vctor
scar
Ricardo

Dr. Francisco Surez Aranda

MEDIA
5
5
5
5

DESVIACIN ESTNDAR
0.00
0.89
2.76
2.83

4. COEFICIENTE DE VARIACIN
Las medidas de dispersin anteriores miden la
variacin absoluta de los valores de la variable,
mientras que el coeficiente de variacin relaciona
la desviacin estndar con la media, brindando
una medida de dispersin relativa.
Es la razn entre la desviacin estndar y la media
y generalmente se expresa como porcentaje.
Expresa la desviacin estndar como un
porcentaje de la media.
Es una cantidad adimensional (independiente de
las unidades de medida) por lo que es muy til
para comparar la variabilidad de distribuciones
que tengan unidades diferentes o cuando las
medias son muy diferentes.
Dr. Francisco Surez Aranda

Por tanto, es til cuando se desea comparar la


variabilidad de datos expresados en diferentes
unidades de medida; por ejemplo, peso de los
docentes de la UCSur (kilos) y volumen
sanguneo (litros) o cuando la medida es la
misma, pero en diferentes unidades; por
ejemplo, peso de personas adultas (kilos) y
peso de ratones (gramos).

CV
_ x 100
x
Hay que tener presente que no es un verdadero
porcentaje, porque puede valer ms de 100%.
Cuanto mayor es el coeficiente de variacin,
menos representativa es la media aritmtica.

Dr. Francisco Surez Aranda

Ejemplo
Peso de ratones de laboratorio (gramos):
20
17
19
16
18
Peso de personas adultas obesas (kilos):
94
96
98
92
95

Dr. Francisco Surez Aranda

Ejemplo
Peso de ratones de laboratorio (gramos):
20
17
19
16
18
Peso de personas adultas obesas (kilos):
94
96
98
92
95
ESPECIE

MEDIA

DES. ESTNDAR

C. V.

Ratn

18

1.58

8.78

Persona

95

2.24

2.35

Dr. Francisco Surez Aranda

Ejemplo
Peso de ratones de laboratorio (gramos):
20
17
19
16
18
Peso de personas adultas obesas (kilos):
94
96
98
92
95
ESPECIE

MEDIA

DES. ESTNDAR

C. V.

Ratn

18

1.58

8.78

Persona

95

2.24

2.35

Dr. Francisco Surez Aranda

INTERPRETACIN DEL COEFICIENTE DE


VARIACIN
C.V. 10%

DISPERSIN ESCASA

10% C.V. 33% DISPERSIN ACEPTABLE

33% C.V. 50% DISPERSIN GRANDE


C.V. 50%

Dr. Francisco Surez Aranda

DISPERSIN EXCESIVA

MEDIDAS DE FORMA
Son medidas que analizan dos aspectos de una
distribucin de valores: su asimetra alrededor de
una medida de tendencia central y su curtosis o
grado de apuntamiento de la distribucin.

ASIMETRA
La asimetra es una medida que caracteriza como
y cuanto, una distribucin de frecuencias se aleja
de la condicin de simetra (la media, mediana y
moda coinciden).
Por tanto, asimetra significa desvo, alejamiento
de la simetra. Es el grado de deformacin de una
distribucin de valores en relacin a la curva
normal.
Dr. Francisco Surez Aranda

El grado de asimetra de una distribucin se


refiere al grado en que los valores de las
observaciones se reparten equilibradamente por
debajo y por encima del valor de medida de
tendencia central.
Grficamente la distribucin de un conjunto de
datos es simtrica si la mitad izquierda de su
distribucin es la imagen especular de su mitad
derecha.
La idea de asimetra es de fcil comprensin
mediante la representacin grfica; sin embargo,
es conveniente cuantificar la asimetra de una
distribucin.

Dr. Francisco Surez Aranda

Existe simetra perfecta cuando al doblar la


representacin grfica por una vertical trazada
sobre la media, las dos mitades se superponen
perfectamente.
En una distribucin simtrica y siempre y cuando
sea unimodal, las tres medidas de tendencia
central (media aritmtica, mediana y moda)
coinciden en el centro de la distribucin.
Sin embargo, hay ocasiones en las que
necesitamos analizar variables cuya distribucin
escapa a la distribucin simtrica (salarios).
En caso de asimetra las medidas de tendencia
central se separan, quedando generalmente la
mediana entre la media y la moda.

Dr. Francisco Surez Aranda

Las discrepancias entre las medidas


tendencia central indican la presencia
asimetra.

de
de

La asimetra es positiva o negativa en funcin del


lado en que se ubica la cola de la distribucin.
La media aritmtica tiende a desplazarse hacia
las valores extremos (colas).
Cuando la media es mayor que la moda, la
distribucin tiene una cola hacia la derecha y hay
asimetra positiva.
Las distribuciones asimtricas positivas son
tpicas de pruebas, tareas o tests difciles en las
que la mayora de las calificaciones son bajas.

Dr. Francisco Surez Aranda

Por el contrario, cuando la media es menor que la


moda, la cola queda hacia la izquierda
observndose una asimetra negativa.
Las distribuciones con asimetra negativa son
propias de las pruebas, tareas o tests fciles, en
las que la mayora de las calificaciones son altas.
Las medidas de asimetra permiten conocer la
forma de la distribucin de conjuntos de datos.

Dr. Francisco Surez Aranda

Asimetra positiva

MODA

MEDIA
MEDIANA

Asimetra negativa

MEDIA

MODA
MEDIANA

Dr. Francisco Surez Aranda

COEFICIENTE DE ASIMETRA DE PEARSON


Se fundamenta en la relacin que existe entre la
media y la moda en distribuciones simtricas y
asimtricas. Se define como la distancia entre la
media y la moda, medida en desviaciones
estndar.
_

x Mo

Ap
s
Si la media aritmtica y la moda son iguales, la
distribucin es simtrica, por lo tanto, Ap es igual
a CERO.

Dr. Francisco Surez Aranda

Si la media aritmtica es mayor que la moda, el


coeficiente ser positivo (Ap es mayor que
CERO), siendo la distribucin asimtrica
positiva.
Si la media aritmtica es menor que la moda, el
coeficiente ser negativo (Ap es menor que
CERO), siendo la distribucin asimtrica
negativa.
El coeficiente de asimetra de Pearson tiene la
dificultad de que solo se puede calcular en
distribuciones unimodales.

Dr. Francisco Surez Aranda

INTERPRETACIN DEL COEFICIENTE DE


ASIMETRA
Ap 0.15

SIMETRA

0.15 Ap 1.00

ASIMETRA MODERADA

Ap 1.00

ASIMETRA ELEVADA

Dr. Francisco Surez Aranda

CURTOSIS
La curtosis es una medida de forma que
determina el grado de concentracin que
presentan los valores de una distribucin de
valores en la regin central de la distribucin.
Pearson introdujo los trminos leptocrtica,
mesocrtica y platicrtica para referirse a las
curvas de distribuciones de frecuencias ms,
igual o menos apuntadas que la curva normal.
Es decir, la curtosis hace referencia al
apuntamiento de la distribucin de un conjunto
de valores en relacin a un estndar que es la
distribucin normal.

Dr. Francisco Surez Aranda

Se diferencian tres categoras de apuntamiento;

PLATICRTICA (apuntamiento negativo)


Presenta un menor grado de concentracin
alrededor de los valores centrales de la variable.
Indica que en sus colas hay ms casos acumulados
que en las colas de una distribucin normal.

MESOCRTICA (apuntamiento normal)


Presenta un grado de concentracin medio
alrededor de los valores centrales (el que presenta
la distribucin normal).

LEPTOCRTICA (apuntamiento positivo)


Presenta un menor grado de concentracin
alrededor de los valores centrales de la variable.

Dr. Francisco Surez Aranda

COEFICIENTE DE CURTOSIS PERCENTLICO


DE PEARSON
Relaciona el rango intercuartlico con el espacio
interpercentlico:

Q3 Q1

Kp
2(P90 P10 )
INTERPRETACIN
K 0.263
K 0.263
K 0.263

Dr. Francisco Surez Aranda

Distribucin mesocrtica
Distribucin leptocrtica
Distribucin platicrtica

DIAGRAMA DE CAJA (BOXPLOT)


Es un grfico que se elabora considerando los
cuartiles y contiene informacin respecto a la
simetra
de
la
distribucin,
permitiendo
establecer el concepto de dato atpico o
aberrante.
Si se representan dos conjuntos de datos
mediantes sus diagramas de caja, se puede
realizar una comparacin visual de ellos.
Consiste en un rectngulo (caja) de cuyos lados
superior e inferior se derivan dos segmentos:
uno haca arriba y uno hacia abajo (bigotes).

Dr. Francisco Surez Aranda

1 Lmite superior. Es el extremo superior del


bigote, los valores por encima de l, se
consideran atpicos (outliers).
2 Tercer cuartil (Q3). Por debajo de l, se
encuentra el 75% de los valores.
3 Mediana. Coincide con el segundo cuartil,
divide a todos los valores ordenados en
dos partes iguales.

4 Primer cuartil (Q1). Por debajo de l, se


encuentra el 25% de todos los valores.
5 Lmite inferior. Es el extremo inferior del
bigote, los valores por debajo de l se
consideran atpicos.

Dr. Francisco Surez Aranda

6 Valores atpicos. Datos que se alejan de los


valores normales.

INTERPRETACIN DEL DIAGRAMA DE CAJA


Mientras ms larga sean la caja y los bigotes, mayor
dispersin de los datos.
La distancia entre las cinco medidas descritas en el
boxplot (sin incluir el valor atpico) puede variar, sin
embargo, la cantidad de elementos entre una y otra
es la misma. Entre el lmite inferior y Q1 hay igual
cantidad de datos que de Q1 a la mediana, de sta a
Q3 y de Q3 al lmite superior.
La lnea que representa la mediana indica la simetra.
Si est en el centro de la caja la distribucin es
simtrica. Si se acerca al primer o tercer cuartil, la
distribucin pudiera ser sesgada a la derecha
(asimtrica positiva) o sesgada a la izquierda
(asimtrica negativa respectivamente.

Dr. Francisco Surez Aranda

Simtrica: en este tipo de distribuciones la


media, la moda y la mediana coinciden y los
datos se distribuyen de igual forma a ambos
lados de estas medidas. Por consiguiente, hay
igual nmero de datos por encima que por
debajo de la mediana.

Asimtrica positiva o sesgada a la derecha: los


datos tienden a concentrarse hacia la parte
inferior de la distribucin y se extienden ms
hacia arriba. La media suele ser mayor que la
mediana en estos casos. Por tanto, los datos se
concentran en un puntaje menor y las de mayor
puntaje estn ms dispersas.

Asimtrica negativa o sesgada a la izquierda:


los datos tienden a concentrarse hacia la parte
superior de la distribucin y se extienden ms
hacia la abajo. La media suele ser menor que la
mediana en estos casos. De tal manera que, los
datos se concentran en un puntaje mayor y las
de menor puntaje estn ms dispersas.

Dr. Francisco Surez Aranda

"Un profesor trabaja para la eternidad: nadie


puede decir dnde acaba su influencia".

Henry Brooks Adams

Dr. Francisco Surez Aranda

You might also like