Professional Documents
Culture Documents
PROPIEDADES DE LOS DATOS NUMERICOS - 16 DE ABRIL DE 2010Las tres propiedades principales que describen un conjunto de datos numricos son:
Tendencia central
Dispersin
Forma
En todo anlisis se pueden utilizar diversas medidas descriptivas de tendencia central, dispersin y forma
para extraer y resumir las principales caractersticas de los datos. Si se calculan a partir de una muestra se
las denomina estadsticos, si se calculan a partir de una poblacin se las denomina parmetros.
Como los especialistas en estadstica suelen tomar muestras en vez de poblaciones, el nfasis de este
curso estar ms orientado hacia los estadsticos que a los parmetros.
xi
i1
(1)
El clculo de la media se basa en todas las observaciones del conjunto de datos. Ninguna otra medida de
posicin posee esta caracterstica.
Ejemplo 1 : Los siguientes datos corresponden a las temperaturas diarias (en grados centgrados)
registradas durante una semana del mes de julio en San Salvador de Jujuy : 3, 2, 1, 2, 1, 0, -1
En este caso la media aritmtica resulta
x =( 3 + 2 + 1 + 2 + 1 + 0 - 1 ) / 7 = 8 / 7, luego x 1,14.
Se concluye que la temperatura promedio en esa semana fue de 1, 14C aproximadamente
Una representacin de la distribucin de frecuencias mediante un diagrama de puntos sera
Se puede tener una representacin fsica de la media x si se piensa en una regla numrica equilibrada
sobre un punto de apoyo, sobre la cual se coloca una pesa en el nmero correspondiente a cada
observacin. La media acta como punto de equilibrio.
Como el clculo de la media aritmtica de un conjunto de datos se basa en todas las observaciones resulta
muy afectada por valores extremos. En tales casos la media aritmtica representa una imagen distorsionada
de la informacin que contienen los datos realmente y no resultar la mejor medida de tendencia central
para describir o resumir ese conjunto de datos .Para ilustrar esa situacin se presenta el siguiente ejemplo.
Ejemplo 2: Tomemos dos muestras de una misma poblacin y calculemos sendas medias aritmticas.
Muestra 1 : 14, 42, 13, 14, 16, 21 n = 6
En este caso x = 20
n=6
x = 20
Estas dos figuras ilustran diagramas de puntos de las dos muestras. Si bien el promedio en ambas es 20,
las dos muestras tienen caractersticas muy distintas. Por ejemplo para la muestra 1, cuatro de las seis
observaciones son muy distintas de la observacin tomada en segundo trmino. Para esta muestra la media
aritmtica da una imagen distorsionada de la informacin que contienen los datos y no es la mejor medida
de tendencia central que se pueda utilizar. Por otro lado, para la muestra 2 la media es la medida
descriptiva apropiada para resumir y caracterizar ese conjunto de datos puesto que no se dan
observaciones muy diferentes.
Ejemplo 3: Los siguientes datos representan el perodo de vida, en segundos, de 50 moscas que estn
sujetas a un nuevo insecticida en un nuevo experimento controlado de laboratorio:
12 4
5
18 6
7
15 6
13 7 32 7
9
8
8
7 14
11 12 3
13 10 13 7
13 14 9 7
15 16 10 17 18 6
El tiempo promedio de vida de los 50 datos es x = 12, 32 segundos.
9
18
24 10
19 10
16
20
19 10
23 9
13
27
10
7
x i fi
i 1
n
(2)
fi
i 1
0 13 1 20 2 25 3 20 4 11 5 7 6 4
= 2,33
100
Con frecuencia es necesario obtener medidas descriptivas de resumen para datos agrupados en
distribuciones de frecuencia. En muchos casos, los analistas obtienen esas distribuciones en forma directa
de artculos publicados en revistas, peridicos, publicaciones especializadas, etc. En esas situaciones,
simplemente no estn disponibles los datos originales. En otros casos en que si estn disponibles los datos
originales, pero no una computadora, es muy laborioso obtener las caractersticas sobresalientes de los
datos conforme aumenta el nmero de observaciones, a menos que se agrupen primero los datos en tablas
y grficas. En tanto que las medidas descriptivas que se calculan de datos no agrupados (datos en su forma
original o en un arreglo ordenado) ofrecen resultados reales, se pueden obtener aproximaciones de estas
medidas descriptivas a partir de los datos agrupados.
MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS
AGRUPADOS
Como en la distribucin de frecuencias de datos agrupados se utiliza el punto medio de cada clase para
representar todas las observaciones que caen dentro de cada clase, se puede aproximar la media aritmtica
de una muestra de la siguiente manera:
k
m i fi
i1
(3)
en donde
x : media aritmtica,
n: nmero de observaciones en la muestra (tamao de la muestra),
mi: marca de clase (centro del intervalo),
f i: frecuencia de la clase (nmero de observaciones clasificadas en la i-sima clase,
k: nmero de clases
Ejemplo 5: Se presenta la distribucin de frecuencias de las duraciones de 40 bateras de auto similares.
Las bateras estaban garantizadas para durar 3 aos. A fin de opinar al respecto se desea calcular
aproximadamente el tiempo promedio de duracin de las 40 bateras, usando solo la tabla de distribucin de
frecuencias pues no se disponen de los datos individuales.
DURACIONES DE BATERIAS DE AUTOMOVILES
Duraciones de las
bateras
Marcas de Clase N de bateras
(en aos)
[ 1,5 , 2,0)
[ 2,0 , 2,5)
[ 2,5 , 3,0)
[ 3,0 , 3,5)
[ 3,5 , 4,0)
[ 4,0 , 4,5)
[ 4,5 , 5,0)
mi
1,75
2,25
2,75
3,25
3,75
4,25
4,75
Total
fi
2
1
4
15
10
5
3
mifi
3,50
2,25
11,00
48,75
37,50
21,25
14,25
40
138,5
LA MEDIANA
La mediana de un conjunto de nmeros se define como el valor a partir del cual la mitad de los
elementos tiene un valor igual o superior al de la mediana y la otra mitad tiene un valor inferior o
igual al de la mediana.
~
x
n 1
2
(5)
n impar
x ( n1 / 2 ) ,
~
x x (n / 2 ) x ( n / 2 1)
,
n par
(6)
~
x = 1. Es
Ejemplo 7: En la muestra 1 del ejemplo 2, para hallar la mediana, ordenamos previamente la muestra,
resultando:
Muestra 1 ordenada
13, 14, 14, 16, 21, 42
n=6
La posicin de la mediana ser (6+1)/2 = 3,5.
Luego la mediana es el promedio de los dos datos centrales marcados, ~
x = (14+16)/2 = 15
En el grfico de puntos se indican la media y la mediana. Compare y cite conclusiones.
La mediana no se ve afectada por las observaciones extremas en un conjunto de datos. Por ello cuando se
presenta alguna observacin extrema resulta apropiado utilizar la mediana y no la media para representar el
conjunto de datos. Esta situacin se ilustra en el ltimo ejemplo.
Ejemplo 8: Para los datos del ejemplo 3 calculamos la mediana del tiempo de vida, en segundos, de las 50
moscas sujetas a un nuevo insecticida. En primer lugar ordenamos los datos y obtenemos el siguiente
arreglo.
3 4 5 6 6 6 7 7 7 7 7 7 7 8 8 9 9 9 9 10 10 10 10 10 10
11 12 12 13 13 13 13 13 14 14 15 15 16 16 17 18 18 18 19 19 20 23 24 27 32
La posicin de la mediana ser (50 + 1 )/2 = 25,5. Esto indica que la mediana ser el promedio de los dos
datos centrales, los que ocupan la posicin 25 y 26. Es decir:
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 4
Mediana =
x (25) x (26) 10 11
10,5
2
2
Conclusin: El tiempo mediano de vida de las 50 moscas sometidas al nuevo insecticida es de 10,5
segundos.
Estadsticamente hablando esto significa que la mitad de los tiempos de vida de las 50 moscas son
menores o iguales a 10,5 segundos y la otra mitad mayores a ese valor ( en este caso no ponemos el =
pues aqu la mediana no es un dato).
Ahora bien, puesto que cada tiempo est asociado a una mosca (la unidad experimental), podemos citar
nuestras conclusiones diciendo la mitad de las moscas vivi menos de 10,5 segundos y la otra mitad
vivi un tiempo mayor.
Ejemplo 9: Para determinar la mediana de los n = 100 datos del ejemplo 4, podramos agregar a la tabla
otra columna con las frecuencias acumuladas.
100
f 1
2
c
Mediana = L1 +
fmediana
(7)
donde L1 = lmite real inferior de la clase mediana ( es decir, la clase que contiene la mediana)
n = nmero de datos
( f)1 = suma de las frecuencias de todas las clases por debajo de la clase mediana. (O sea nmero de
observaciones de todas las clases por debajo de la clase mediana)
fmediana = frecuencia de la clase mediana (clase que contiene a la mediana)
c = tamao del intervalo de la clase mediana (amplitud del intervalo)
Ejemplo 10: Para hallar la mediana de los datos que representan las duraciones de 40 bateras de auto
similares, a partir de la distribucin de frecuencias indicadas en ejemplo 5, procedemos como sigue:
En primer lugar ubicamos el intervalo de clase que contiene la mediana.
La frmula de posicionamiento de la mediana nos indica que la mediana ocupa la posicin (40 + 1)/ 2 =
20,5 de la muestra ordenada. Esto es, veinte datos son menores o iguales que la mediana y 20 son
mayores o iguales.
Puesto que la suma de las frecuencias de las tres y cuatro primeras clases son respectivamente 2 + 1 +
4 = 7 y 2 + 1 + 4 + 15 = 22, est claro que la mediana se encuentra en la cuarta clase.
Luego la clase mediana ser [ 3,0 , 3,5) .
Entonces L1 = 3,0;
n = 40; ( f)1 = 2 + 1 + 4 = 7 ;
fmediana = 15; c = 3,5 3,0 = 0,5;
as se tiene
40
7
f 1
2
2
c 3,0
0,5 3,43 aos
Mediana L1
fmediana
15
~
x = 3,43
Geomtricamente, la mediana es el valor de la variable (abscisa) que corresponde a la vertical que
divide un histograma en dos partes de igual rea. Luego, la mediana puede estimarse a partir de un
histograma.
Analizaremos como obtener la mediana a partir de una ojiva porcentual (polgono de frecuencias
relativas porcentuales acumuladas).
Ejemplo 11: Se muestra a continuacin la ojiva porcentual correspondiente a los datos de tiempos de
duracin de 40 bateras de automviles.
La mediana es la abscisa del punto P sobre la ojiva, cuya ordenada es el 50%. Puede obtenerse
aproximadamente del grfico buscando simplemente la abscisa del punto P. En nuestro caso observamos
que es aproximadamente 3,43 o 3,44.
Para calcular su valor nos basamos en los tringulos semejantes PQR y TSR
RQ PQ
RS ST
RQ 50% 17,5% 13
as que RQ
13
30
Entonces
Mediana = 3,0 + RQ = 3,0 + 13/30 = 3,433333... 3,43
LA MEDIA RECORTADA
De la misma manera que la mediana, la media recortada es una medida de tendencia central que se
dise para que no est afectada por datos atpicos. La media recortada se calcula a partir del arreglo
ordenado, recortando un nmero igual de datos a partir de cada extremo y calculando la media de los
restantes. Si se recorta el p% de los datos de cada extremo, la media recortada resultante se denomina
media recortada un p%. No existe frmula ni fcil ni difcil para saber cuntos valores se deben recortar.
Las ms comunes son las medias recortadas al 5, 10 y 20%.
Debido a que el nmero de datos recortados debe ser un nmero entero, en muchos casos es
imposible recortar los porcentajes exactos que se piden de los datos. Si el tamao muestral se denota por n
y se desea recortar un p%, el nmero de datos a ser recortados es np/100. Si este no es un nmero entero,
lo ms sencillo que se debe hacer cuando se calcula manualmente es redondear al entero ms cercano y
recortar esa cantidad.
LA MODA
En ocasiones, cuando se describe o se resume un conjunto de datos, se utiliza la moda como medida de
tendencia central.
La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia en la muestra.
Se obtiene fcilmente a partir de un arreglo ordenado.
A diferencia de la media aritmtica, la moda no se afecta ante la ocurrencia de valores extremos. Sin
embargo solo se utiliza la moda para propsitos descriptivos porque es ms variable para distintas
muestras, que las dems medidas de tendencia central. Puede no existir y en caso de existir puede no ser
nica.
Ejemplos 12: En el ejemplo 1 hay dos modas 1C y 2C. En el ejemplo 2 la moda es 14 para la muestra 1 y
para la muestra 2 la moda es 20.
La siguiente muestra 5, 1, 6, 9, 2, 3 no tiene moda.
La muestra 2, 8, 9, 6, 2, 8, 6, 2, 8, 7, 3 presenta dos modas 2 y 8. Estos datos se describen como
bimodales.
Una distribucin de datos que presenta una sola moda se llama unimodal. Si presenta dos modas, bimodal
y una distribucin es multimodal si presenta ms de dos modas.
En ocasiones, cuando el tamao de la muestra lo permite, conviene ordenar los datos para poder obtener
ms fcilmente la/s moda/s, si es que existen.
Ejemplo 13: En el ejemplo 3 el tiempo modal de vida es de 7 segundos (pues 7 segundos es el dato que
presenta la mayor frecuencia)
Ejemplo 14: En el ejemplo 4 observando la segunda columna de la tabla concluimos que el nmero modal
de hijos de las 100 mujeres de ese lugar de Espaa es 2 ( pues es el nmero de hijos que presenta la
mayor frecuencia).
MODA DE DATOS AGRUPADOS
En el caso de datos agrupados donde se ha construido una curva de frecuencias para ajustar los
datos, la moda ser el valor (o valores) de la variable de inters correspondiente al mximo (o
mximos) de la curva. Es decir cada mximo local es una moda.
De una distribucin de frecuencias o un histograma, la moda puede obtenerse de la siguiente frmula
1
Moda L 1
1 2
(8)
donde L1 = lmite real inferior de la clase modal ( es decir, la clase que contiene la moda)
1 = Frecuencia del intervalo modal menos frecuencia del intervalo anterior
2 = Frecuencia del intervalo modal menos frecuencia del intervalo posterior
c = tamao del intervalo de clase modal.
Ejemplo 15: Para hallar la moda de la distribucin de frecuencias de los tiempos de duracin de las 40
bateras de auto similares indicadas en ejemplo 5, procedemos como sigue:
En primer lugar ubicamos el intervalo de clase modal, en este caso es [ 3,0 , 3,5) el que presenta la
mayor frecuenciaCATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 7
luego
L1 = 3,0
= 15 4 = 11
= 15 10 = 5
c = 3,5 3,0 = 0,5; as se tiene
11
Moda 3,0
0,5 3,34375 3,34 aos
11 5
RANGO MEDIO
Es el promedio de las observaciones mayor y menor de un conjunto de datos.
Rango Medio
x mximo x mnimo
2
(9)
A pesar de su sencillez, el rango medio se debe usar con cautela, ya que slo involucra las observaciones
mayor y menor de un conjunto de datos, si hay observaciones extremas se distorsiona como medida de
tendencia central. (Por esta razn, podra ser preferible usar el eje medio)
No obstante, con frecuencia se utiliza en forma exitosa el rango medio como parmetro de medicin tanto
para anlisis financieros como para informes sobre el clima, puesto que ofrece un valor adecuado rpido y
sencillo para resumir todo un conjunto de datos, ya sea una serie de precios diarios de cierre de una accin
para todo un ao, o un conjunto de lecturas de temperaturas registradas cada hora durante todo un da. En
tales situaciones no es posible que ocurra un valor extremo (tambin llamada observacin atpica).
Ejemplos 16: En el ejemplo 1, el rango medio = (-1+3)/2 = 1
En el ejemplo2 para la muestra 1, el rango medio = (13+42)/2 = 27,5
y para la muestra 2, el rango medio = (17+23)/2 = 20
A continuacin se presentan diagramas de puntos en donde se indican todas las medidas de tendencia
central estudiadas.
MEDIDAS DE DISPERSIN
Una segunda propiedad importante que describe a un conjunto de datos es la dispersin. La dispersin
es el grado de variacin o diseminacin de los datos.
Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersin; o como se muestra en
los siguientes ejemplos, dos conjuntos de datos pueden tener las mismas medidas de tendencia central
pero diferir mucho en trminos de dispersin. Este ltimo caso se ejemplifica en los siguientes conjuntos de
datos.
Ejemplo 17: Los datos de la muestra A sealan el tiempo de funcionamiento (en das) hasta que se
presenta la primera falla de n = 6 radiotransmisores-receptores de marca A y los datos de la muestra B
corresponden a n = 6 radiotransmisores-receptores de marca B
Los datos de la muestra B son mucho menos variables que los de la muestra A. Observemos que ambos
tienen la misma media.
Las medidas de dispersin que analizaremos en primera instancia son: el rango, la varianza, la desviacin
estndar y el coeficiente de variacin
EL RANGO
El rango es la diferencia entre las observaciones Mxima y mnima de un conjunto de datos: Es decir
RANGO = xMAXIMO -
x MINIMO
(10)
Ejemplo 18: En el ejemplo 17, para los datos de la muestra A: Rango = 280 - 114 = 166 das
y para los datos de la muestra B: Rango = 180 - 150 = 30 das
Conclusiones: En un rango de 166 das se present la primera falla en los n=6 radiotransmisores-receptores
de marca A, mientras que para los seis de la marca B, la primera falla se present en un rango de 30 das.
El rango mide la dispersin total del conjunto de datos.
Aunque el rango es una medida de dispersin simple y se calcula con facilidad, su debilidad preponderante
es que no toma en consideracin la forma en que se distribuyen los datos entre los valores ms pequeos y
los ms grandes. Esto se puede observar en los siguientes grficos que se presentan tres conjuntos de
puntos con el mismo rango.
Rango = 13 5, Rango = 8
Rango = 8
Rango = 8
En el ltimo caso x MINIMO = 13 es una observacin atpica
No es apropiado utilizar el rango como medida de dispersin cuando una o ambas de x MAXIMO e yMAXIMO son
observaciones extremas.
S2
( xi x )2
( x1 x ) ( x 2 x ) ( xn x )
; es decir
n 1
S2 i1
n 1
(11)
donde
x = media aritmtica,
n = nmero de observaciones en la muestra (tamao de la muestra),
n
( x i x ) 2 sumatoria de todos los cuadrados de las diferencias entre los valores de x i y x
i 1
La Varianza Muestral es casi el promedio de los cuadrados de las diferencias entre cada una de las
observaciones de un conjunto de datos y la media.
Si el denominador hubiera sido n en lugar de n - 1, se hubiera obtenido el promedio de las diferencias al
cuadrado en torno a la media. Sin embargo, se utiliza n - 1 , debido a ciertas propiedades matemticas que
2
tiene el estadstico S y que lo hacen apropiado para realizar inferencias estadsticas. Evidentemente, si el
tamao de la muestra es grande , la diferencia entre dividir por n o por n 1 no es significativa.
Tambin puede emplearse la siguiente frmula simplificada en la que no interviene la media :
x i2
S2 i1
n
x
i 1 i
n
(12)
n 1
( xi x )2
S S2 i1
n 1
(13)
Como las diferencias (xi - x ) se elevan al cuadrado, ni la varianza ni la desviacin estndar pueden ser
2
nunca negativas. En el nico caso en que S y S pudieran ser cero es cuando no hay variacin en los
datos -si todas las observaciones de la muestra tuvieran exactamente el mismo valor- En este caso, muy
poco comn, el rango tambin sera cero.
Si embargo, los datos son variables por naturaleza, no constantes. Cualquier fenmeno aleatorio de inters
que se pudiera pensar asume diversos valores. Debido a que los datos son inherentemente variables , es
tan importante estudiar no slo medidas (de tendencia central) que resuman los datos, sino tambin
medidas (de dispersin) que reflejan la forma en que varan los datos.
Ejemplo 19: Calculamos la varianza muestral y la desviacin estndar muestral de los datos del ejemplo 1.
(6 2 3 2 8 2 4 2 6 2 3 2 6 2 )
36 2
7
(6 2 3 2 8 2 4 2 6 2 3 2 6 2 ) 36
3,48
1,86
6
Por qu cree UD. que se utiliz, en este caso, la frmula 12 para hallar la varianza muestral y no la frmula
11? Analice cuidadosamente su respuesta.
S
2
Ejemplo 20: La varianza y la desviacin estndar muestral de los datos del ejemplo 1 sern
respectivamente
2
Ejemplos 21: La desviacin estndar muestral de cada muestra del ejemplo 17 ser:
Para la muestra A, s = 61,00 das y para la muestra B, s = 12,20 das
( xi x )
como
i1
numerador, porque se debe recordar que la media acta como punto de equilibrio para las observaciones
que son mayores y menores que ella. Por lo tanto la suma de las desviaciones de los x i con respecto a la
media siempre es igual a cero. Es decir
( xi x ) 0
i1
i1
i1
i1
i1
i1
i1
( xi x ) xi x xi n x xi xi 0
Generalizaciones:
Cuando ms separados o dispersos estn los datos, tanto mayores sern el rango, la varianza y la
desviacin estndar. Si los datos estn ms concentrados o son homogneos, menores sern el rango, la
varianza y la desviacin estndar. Si todas las observaciones son iguales (de manera que no haya
variaciones en los datos), el rango, la varianza y la desviacin estndar sern iguales a cero.
VARIANZA Y DESVIACION ESTANDAR MUESTRAL OBTENIDA A PARTIR DE UNA DISTRIBUCION DE
FRECUENCIAS DE DATOS NO AGRUPADOS
Si los datos x1, x2,..., xk ocurren con frecuencias f1 , f2, ... , fk respectivamente,
la varianza muestral puede expresarse
k
fi ( x i x ) 2
S 2 i 1
(14)
fi 1
i 1
fi
i 1
xi
k
f x
i 1 i i
fi
(15)
i 1
fi 1
i 1
Ejemplo 22: Para la distribucin de frecuencias del nmero de hijos de las 100 mujeres espaolas,
utilizamos la frmula (14) pues x es un nmero exacto.
Xi nmero
de hijos
fi nmero de
mujeres
0
1
2
3
4
5
6
Total
S2
13
20
25
20
11
7
4
100
252,1100
2,55 hijos al cuadrado y S
100 1
APROXIMACION DE LA
AGRUPADOS
(xi - x )2
(xi - x )
-2,33
-1,33
-0,33
0,67
1,67
2,67
3,67
(xi - x )2 *fi
5,4289
1,7689
0,1089
0,4489
2,7889
7,1289
13,4689
70,5757
35,3780
2,7225
8,9780
30,6779
49,9023
53,8756
252,1100
252,1100
1,60 hijos
100 1
Las frmulas (14) y (15) tambin son adecuadas para datos agrupados. En ese caso x i representa
las marcas de clase, f i las correspondientes frecuencias de cada clase y k es el nmero de
intervalos de clase.
Esto es razonable pues para datos agrupados no se conocen los valores individuales de los datos. En este
caso, se considera que el punto medio de la clase es un valor representativo de cada dato que se encuentra
en esa clase.
Ejemplo 23: Hallamos la varianza y la desviacin estndar muestral a partir de la distribucin de frecuencias
de los tiempos de duracin de las 40 bateras de auto similares indicadas en ejemplo 5.
Duraciones de las
bateras
xi
(en aos)
[ 1,5 , 2,0)
[ 2,0 , 2,5)
[ 2,5 , 3,0)
[ 3,0 , 3,5)
[ 3,5 , 4,0)
[ 4,0 , 4,5)
[ 4,5 , 5,0)
1,75
2,25
2,75
3,25
3,75
4,25
4,75
Suma
S2
2
498,5 138,5
40
40 1
fi
2
1
4
15
10
5
3
xifi
xi2*fi
3,50
2,25
11,00
48,75
37,50
21,25
14,25
6,125
5,063
30,250
158,438
140,625
90,313
67,688
40
138,50
498,500
0,4857 aos
2
498,5 138,5
40
40 1
0,697
COEFICIENTE DE VARIACIN
A diferencia de las medidas que ya se han estudiado, el coeficiente de variacin es una medida relativa de
dispersin. Se expresa en porcentaje y no en trminos de unidades de los datos manejados. Es
independiente de las unidades utilizadas.
El coeficiente de variacin, representado con el smbolo CV, mide la dispersin de los datos con respecto a
la media. Se lo puede calcular mediante
S
CV 100%
x
Donde S = desviacin estndar del conjunto de datos
x = media del conjunto de datos
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 13
(16)
Como medida relativa, el coeficiente de variacin es til sobre todo cuando se compara la
variabilidad de dos o ms conjuntos de datos expresados en diferentes unidades de medicin.
Por ejemplo el dueo de una inmobiliaria tiene una muestra de los precios de 25 casas. Para cada casa
tiene registrado adems el tamao del lote que ocupa. Se est interesado en determinar si los precios de
las casas tienen mayor variabilidad (en trminos relativos) que los respectivos tamaos de los lotes que
ocupan. Como el precio de la casa (en miles de pesos) es una cantidad monetaria y el tamao del lote est
dado en metros cuadrados, resulta imposible comparar en forma directa las dos desviaciones estndar o los
dos rangos para estas variables. Aqu, sin embargo, se pueden utilizar los dos coeficientes de variacin
para obtener la respuesta deseada.
El CV mide la dispersin de los datos respecto a la media. A medida que el coeficiente de variacin
disminuye, se observa una mayor homogeneidad en los datos o, lo que es lo mismo, los datos estn ms
concentrados alrededor de la media.
El CV es tambin muy til cuando se comparan dos o ms conjuntos de datos que se miden en las
mismas unidades, pero que difieren en tal medida que una comparacin directa de las respectivas
desviaciones estndar no resulta muy til.
Por ejemplo, suponga que un inversionista potencial est evaluando la posible adquisicin de acciones de
una de dos compaas A o B, que se cotizan en la Bolsa de Valores Americana. Si ninguna de las dos
compaas ofreciera dividendos a sus accionistas y ambas compaas tuvieran una evaluacin igualmente
alta en trminos de capacidad de crecimiento, el inversionista potencial podra considerar la volatilidad
(variabilidad) de las dos emisiones para apoyar su decisin de inversin. Ahora suponga que cada una de
las acciones del capital de la compaa A ha tenido un precio promedio de $50 en los ltimos meses, con
una desviacin estndar de $10. Adems, suponga que en ese mismo perodo el precio por accin de la
compaa B tuvo un promedio de $12 con desviacin estndar de $4. De acuerdo con las desviaciones
estndar actuales parece que el precio de las acciones de la compaa A es ms voltil que el de la
compaa B. Sin embargo, como los precios promedio por accin de las dos emisiones son tan diferentes,
sera ms apropiado para el inversionista potencial considerar la variabilidad en el precio con relacin al
precio promedio, a fin de examinar la volatibilidad o estabilidad de las dos emisiones. Para la compaa A, el
coeficiente de variacin es CVA = ($10 / $50) 100% = 20,0%; para la compaa B, el coeficiente de variacin
es CVB = ($4 / $12) 100% = 33,3%. Por ello, en relacin a la media el precio de la accin B es mucho menos
variable que el precio de la accin A.
xi
i1
Media Poblacional:
Rango Medio:
Rango Medio
Rango:
RANGO
(17)
x mximo x mnimo
2
xMAX - x MIN
(18)
(19)
( xi )2
Varianza poblacional
2 i1
(20)
N
N
( xi )2
Desviacin estndar:
Coeficiente de variacin:
2 i1
(21)
CVPOBLACIONAL 100%
(22)
La mediana y la moda de una poblacin de tamao N se obtienen, respectivamente, tal como se describi
antes para una muestra.
FORMA
Hasta ahora se han estudiado los parmetros de centralizacin y de dispersin que son las medidas ms
frecuentes que se calculan en cualquier estudio estadstico.
Una distribucin es simtrica si una mitad es aproximadamente una imagen de espejo de la otra. En caso
contrario se dice que la distribucin es asimtrica.
Ejemplo 24: Se presenta a continuacin un histograma que muestra la distribucin de las alturas de 1.100
estudiantes universitarios. Esta distribucin as aproximadamente simtrica. Al final se presenta un resumen
de estadsticos descriptivos generado por el SPSS.
120
100
80
60
Frequencias
40
20
0
152
156
154
160
158
164
162
168
166
172
170
176
174
180
178
184
182
188
186
192
190
196
194
200
198
204
202
SESGO
Se conoce como sesgo el grado de asimetra de una distribucin, es decir, cunto se aparta de la simetra.
Una distribucin asimtrica se dice sesgada a la derecha si tiene una cola ms larga a la derecha que a la
izquierda; es decir si la distribucin est ms extendida hacia los valores mayores. Como ejemplo se
presenta la distribucin de los tiempos de vida de las moscas expuestas a un insecticida ejemplo 3-
Figura AS2
Una distribucin asimtrica se dice sesgada a la izquierda si tiene una cola ms larga a la izquierda que a
la derecha; es decir si la distribucin est ms extendida hacia los valores menores.
Para describir la forma, lo que se requiere es comparar la media y la mediana.
Si estas dos medidas son iguales, en general, decimos que los datos son simtricos (o con sesgo cero)
Si la media es mayor que la mediana, en general, se dice que los datos tienen sesgo positivo o hacia la
derecha.
Si la media es menor que la mediana, en general se dice que los datos tienen sesgo negativo o hacia la
izquierda.
Ejemplo 25: Se presenta un histograma que muestra la distribucin de las calificaciones obtenidas en el
Primer Parcial que abarc los temas de Estadstica Descriptiva y Probabilidad, rendido el 27 de Mayo de
2006. Rindieron N = 136 alumnos en esa primera fecha. Al final se presenta un resumen descriptivo
generado por el SPSS.
Figura AS3
Se observa que esta distribucin es sesgada a la izquierda. En este caso la media es menor que la
mediana.
La mejor manera de examinar las posiciones relativas de las diversas medidas de tendencia central (la
media, la mediana, la moda, el rango medio y el eje medio) en las distribuciones sesgadas, es a travs de
las figuran AS4 y AS5.
Figura AS4
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 16
Figura AS5
En las distribuciones con sesgo a la izquierda (figura AS5), las pocas observaciones, extremadamente
pequeas, distorsionan el rango medio y la media hacia la cola izquierda. Por ello se esperara que la moda
fuera el valor ms alto y que el rango medio fuera el menor. Es decir,
rango medio < media < eje medio < mediana < moda
(23)
Sin embargo, en las distribuciones con sesgo a la derecha (figura AS4) se aplica lo contrario. Pocas
observaciones de gran magnitud distorsionan el rango medio y la media hacia la cola derecha. Por ello se
espera que el rango medio exceda (es decir, est a la derecha de) todas las otras medidas. Es decir,
moda < mediana < eje medio < media < rango medio
(24)
Por otro lado, en distribuciones perfectamente simtricas, la media, la mediana, el rango medio y el eje
medio sern idnticos. Tal como se ilustra en las figuras AS6, la forma de la curva, hacia el lado izquierdo
de estas medidas de tendencia central es la imagen de espejo de la forma de la curva hacia la derecha.
FIGURAS AS6
x
mediana
moda
rango medio
eje medio
x
mediana
rango medio
eje medio
no existe moda
primera moda
segunda moda
mediana
rango medio
eje medio
MEDIDAS DE ASIMETRIA
Si bien es fcil tener una idea de si la distribucin es simtrica o no tras ver la representacin grfica (p.ej.
un histograma o un diagrama de caja), es importante cuantificar la posible asimetra de una distribucin.
Recordemos que cuando la distribucin de los datos es simtrica, la media, la mediana y la moda coinciden
(y la distribucin tiene la misma forma a la izquierda y la derecha del centro).
Si bien muchas distribuciones psicolgicas se asume que tienden a ser simtricas y unimodales, en muchos
casos la distribucin que encontramos es asimtrica (p.e. ejemplo las distribuciones de los Tiempos de
Reaccin en casi cualquier tarea es asimtrica positivo).
Sesgo
media moda
x moda
desviacin estndar
s
As
( xi x )3
1
i 1
s3
(26)
Algunos programas de estadstica (por ejemplo Excel) utilizan una versin que difiere ligeramente de la
anterior en una constante:
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 18
n ( x x )3
n
i
(n - 1)(n - 2) i 1 s 3
(27)
Una asimetra positiva indica una distribucin asimtrica con sesgo a la derecha. Una asimetra
negativa indica una distribucin asimtrica con sesgo a la izquierda.
Para los tiempos de vida de las moscas -grfico AS1- este ltimo coeficiente de asimetra arroja un valor de
1,084.
Para los datos de las calificaciones -grfico AS2- el coeficiente de asimetra tom un valor igual a 0,378.
Para la distribucin de las alturas de los estudiantes universitarios la asimetra es 0,068 aproximadamente
igual a 0, por cuanto la distribucin es aproximadamente simtrica.
PARA DATOS AGRUPADOS, si x1, x2, , xk se presentan con frecuencias f 1, f2, , fk , respectivamente, el
ndice de Asimetra de Fisher est dado por:
k
As
fi ( xi x )3
1
i 1
s3
(28)donde
n fi y
i 1
CURTOSIS
La curtosis representa la elevacin o achatamiento de una distribucin, normalmente se toma en
relacin a la distribucin normal.
Una distribucin que presenta una elevacin (o apuntamiento) relativo alto, tal como la de la curva de la
figura (A), se llama leptocrtica, mientras que la curva de la figura (C), que es ms achatada, se llama
platicrtica. La distribucin normal, figura (B), que no es muy puntiaguda ni achatada, se llama
mesocrtica.
Figura A
Figura B
Figura C
( xi x )4 / n
3
s4
i 1
n
Cr
(29)Si la
Cr > 0
Cr < 0
FIGURA D :Las lneas de puntos muestran distribuciones normales, mientras que las lneas slidas muestran
distribuciones con curtosis positiva (figura izquierda) y curtosis negativa (figura derecha).Ref: On the Meaning and Use
of Kurtosis Lawrence T. DeCarlo
Algunos programas de estadstica (por ejemplo Excel) utilizan una versin que difiere ligeramente de la
anterior.
Cr =
4
n
n(n 1)
3(n - 1) 2
xi x
(n - 1)(n - 2)(n - 3) i1 s
(n - 2)(n - 3)
(30)
fi ( xi x )4 / n
3,
s4
i 1
k
Cr
(31)
IMPORTANTE:
Curtosis es independiente de la variabilidad (en el sentido de varianza). Es decir, no es que una
distribucin leptocrtica tenga menos varianza y por eso es ms apuntada.
Una distribucin leptocrtica es muy apuntada en el centro (ms que la normal), decae muy rpidamente en
un primer momento, pero en los extremos es algo ms alta que la distribucin normal. Ver figuras D.
Eso quiere decir que una distribucin leptocrtica es ms probable que ofrezca ms valores extremos que la
distribucin normal.
Se presenta a continuacin una sntesis de los estadsticos descriptivos de algunos de los ejemplos
estudiados suministrados por el Excel o SPSS.
Ejemplo 3: Tiempos de vida de n = 50 moscas sujetas a un insecticida- Sntesis generada por el Excel
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 20
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la
muestra
Curtosis
Coeficiente de
asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
12,32
0,86020406
10,5
7
6,08256122
36,997551
1,29961382
1,08389683
29
3
32
616
50
Alturas
(cm)
St at ist ic
174,8612
Media
Media recortada 5%
St d. Error
,2079
174,8420
Mediana
Varianza
Desv iacin est ndar
174,8491
47,549
Mnimo
Mxim o
Rango
Rango Intercuartlico
152,49
203,17
50,68
6,8956
9,6286
Simetra
Curtosis
,068
-,053
,074
,147
Ejemplo 25: calificaciones obtenidas en el Primer Parcial del ao 2006; n = 136 alumnos. Resumen de los
estadsticos descriptivos generado por el SPSS.
Descrip tives
Media
Media recortada 5%
Mediana
Varianza
Desv . Estndar
Mnimo
Mxim o
Rango
Rango Intercurt lico
Asimetr a
Curtosis
St at ist ic
74,64
St d. Error
1,90
75,07
79,00
489,017
22,11
26
115
89
36,50
-,378
-,824
,208
,413
BIBLIOGRAFA
Estadstica Bsica en Administracin. Conceptos y Aplicaciones Berenson y Levine. Prentice-Hall.
Cuarta Edicin 1992.
Probabilidad y Estadstica aplicadas a la Ingeniera. Douglas C. Montgomery y George C. Runger.
Ed. Mc Graw-Hill. 1996.
Probabilidad y Estadstica para Ingeniera y Ciencias William Mendenhall y Terry Sincih. Cuarta
Edicin 1997.
Estadstica. Murray R. Spiegel. Serie Schaum. Ed. Mc Graw-Hill. 1991.