B - Propiedades de Los Datos Numericos - v10 Abril 2010

ESTADISTICA DESCRIPTIVA
PROPIEDADES DE LOS DATOS NUMERICOS - 16 DE ABRIL DE 2010Las tres propiedades principales que describen un conjunto de datos numricos son:
Tendencia central
Dispersin
Forma
En todo anlisis se pueden utilizar diversas medidas descriptivas de tendencia central, dispersin y forma
para extraer y resumir las principales caractersticas de los datos. Si se calculan a partir de una muestra se
las denomina estadsticos, si se calculan a partir de una poblacin se las denomina parmetros.
Como los especialistas en estadstica suelen tomar muestras en vez de poblaciones, el nfasis de este
curso estar ms orientado hacia los estadsticos que a los parmetros.
MEDIDAS DE TENDENCIA CENTRAL

La mayor parte de un conjunto de datos muestran una tendencia a agruparse alrededor de un punto
central y, por lo general, es posible elegir algn valor promedio, que describa todo el conjunto de datos.
Aunque la palabra promedio se refiere a cualquier medida de resumen de tendencia central, se utiliza con
mayor frecuencia como sinnimo de media.
Con frecuencia se utilizan cuatro tipos de promedio como medidas de tendencia central, que son: Media
Aritmtica, Mediana, Moda y Rango Medio
MEDIA ARITMTICA
La Media Aritmtica (o Media como se la llama comnmente) es la medida de tendencia central que se usa
con ms frecuencia. Se calcula sumando todas las observaciones de un conjunto y dividiendo despus ese
resultado entre el nmero total de elementos involucrados. O sea dado un conjunto de n datos numricos :
x1, x2,..., xn se define la media aritmtica como :
n
xi
i1
(1)
El clculo de la media se basa en todas las observaciones del conjunto de datos. Ninguna otra medida de
posicin posee esta caracterstica.
Ejemplo 1 : Los siguientes datos corresponden a las temperaturas diarias (en grados centgrados)
registradas durante una semana del mes de julio en San Salvador de Jujuy : 3, 2, 1, 2, 1, 0, -1
En este caso la media aritmtica resulta
x =( 3 + 2 + 1 + 2 + 1 + 0 - 1 ) / 7 = 8 / 7, luego x 1,14.
Se concluye que la temperatura promedio en esa semana fue de 1, 14C aproximadamente
Una representacin de la distribucin de frecuencias mediante un diagrama de puntos sera
Se puede tener una representacin fsica de la media x si se piensa en una regla numrica equilibrada
sobre un punto de apoyo, sobre la cual se coloca una pesa en el nmero correspondiente a cada
observacin. La media acta como punto de equilibrio.
Como el clculo de la media aritmtica de un conjunto de datos se basa en todas las observaciones resulta
muy afectada por valores extremos. En tales casos la media aritmtica representa una imagen distorsionada
de la informacin que contienen los datos realmente y no resultar la mejor medida de tendencia central
para describir o resumir ese conjunto de datos .Para ilustrar esa situacin se presenta el siguiente ejemplo.
Ejemplo 2: Tomemos dos muestras de una misma poblacin y calculemos sendas medias aritmticas.
Muestra 1 : 14, 42, 13, 14, 16, 21 n = 6
En este caso x = 20
CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 1
Muestra 2 : 20, 22, 17, 20, 23, 18
n=6
Tambin en este caso
x = 20
Estas dos figuras ilustran diagramas de puntos de las dos muestras. Si bien el promedio en ambas es 20,
las dos muestras tienen caractersticas muy distintas. Por ejemplo para la muestra 1, cuatro de las seis
observaciones son muy distintas de la observacin tomada en segundo trmino. Para esta muestra la media
aritmtica da una imagen distorsionada de la informacin que contienen los datos y no es la mejor medida
de tendencia central que se pueda utilizar. Por otro lado, para la muestra 2 la media es la medida
descriptiva apropiada para resumir y caracterizar ese conjunto de datos puesto que no se dan
observaciones muy diferentes.
Ejemplo 3: Los siguientes datos representan el perodo de vida, en segundos, de 50 moscas que estn
sujetas a un nuevo insecticida en un nuevo experimento controlado de laboratorio:
12 4
5
18 6
7
15 6
13 7 32 7
9
8
8
7 14
11 12 3
13 10 13 7
13 14 9 7
15 16 10 17 18 6
El tiempo promedio de vida de los 50 datos es x = 12, 32 segundos.
9
18
24 10
19 10
16
20
19 10
23 9
13
27
10
7
MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS NO

AGRUPADOS
Se puede obtener tambin x a partir de la distribucin de frecuencias de los valores posibles de la variable
x. Obviamente es para el caso que el nmero de valores posibles de la variable sea pequeo.
En este caso
n
x i fi
i 1
n
(2)
fi
i 1
: media aritmtica, n: nmero de valores distintos de la variable x,

f i: frecuencia (nmero de observaciones iguales a xi)
Ejemplo 4 : Se ha realizado un estudio del nmero de hijos de mujeres de un lugar de Espaa. Para ello ha
tomado una muestra de 100 mujeres mayores de 15 aos y se ha registrado el nmero de hijos de las
mismas. El resultado ha sido:
Xi nmero de hijos fi nmero de mujeres
0
13
1
20
2
25
3
20
4
11
5
7
6
4
Total
100
Se pide calcular el nmero promedio de hijos de las mujeres de la muestra.
0 13 1 20 2 25 3 20 4 11 5 7 6 4
= 2,33
100
Con frecuencia es necesario obtener medidas descriptivas de resumen para datos agrupados en
distribuciones de frecuencia. En muchos casos, los analistas obtienen esas distribuciones en forma directa
de artculos publicados en revistas, peridicos, publicaciones especializadas, etc. En esas situaciones,
simplemente no estn disponibles los datos originales. En otros casos en que si estn disponibles los datos
originales, pero no una computadora, es muy laborioso obtener las caractersticas sobresalientes de los
datos conforme aumenta el nmero de observaciones, a menos que se agrupen primero los datos en tablas
y grficas. En tanto que las medidas descriptivas que se calculan de datos no agrupados (datos en su forma
original o en un arreglo ordenado) ofrecen resultados reales, se pueden obtener aproximaciones de estas
medidas descriptivas a partir de los datos agrupados.
MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS
AGRUPADOS
Como en la distribucin de frecuencias de datos agrupados se utiliza el punto medio de cada clase para
representar todas las observaciones que caen dentro de cada clase, se puede aproximar la media aritmtica
de una muestra de la siguiente manera:
k
m i fi
i1
(3)
en donde
x : media aritmtica,
n: nmero de observaciones en la muestra (tamao de la muestra),
mi: marca de clase (centro del intervalo),
f i: frecuencia de la clase (nmero de observaciones clasificadas en la i-sima clase,
k: nmero de clases
Ejemplo 5: Se presenta la distribucin de frecuencias de las duraciones de 40 bateras de auto similares.
Las bateras estaban garantizadas para durar 3 aos. A fin de opinar al respecto se desea calcular
aproximadamente el tiempo promedio de duracin de las 40 bateras, usando solo la tabla de distribucin de
frecuencias pues no se disponen de los datos individuales.
DURACIONES DE BATERIAS DE AUTOMOVILES
Duraciones de las
bateras
Marcas de Clase N de bateras
(en aos)
[ 1,5 , 2,0)
[ 2,0 , 2,5)
[ 2,5 , 3,0)
[ 3,0 , 3,5)
[ 3,5 , 4,0)
[ 4,0 , 4,5)
[ 4,5 , 5,0)
mi
1,75
2,25
2,75
3,25
3,75
4,25
4,75
Total
Luego el tiempo promedio de duracin de las 40 bateras es
fi
2
1
4
15
10
5
3
mifi
3,50
2,25
11,00
48,75
37,50
21,25
14,25
40
138,5
x = 138,5/40 = 3,4625 aos.
LA MEDIANA
La mediana de un conjunto de nmeros se define como el valor a partir del cual la mitad de los
elementos tiene un valor igual o superior al de la mediana y la otra mitad tiene un valor inferior o
igual al de la mediana.
~
x
La mediana de una muestra se denota a veces por

.
La mediana es el valor que se encuentra en el centro de un LOTE ORDENADO; es decir, la mediana
divide el lote ordenado en dos partes iguales. Los datos de una parte son menores o iguales que la mediana
y los de la otra parte son mayores o iguales que la mediana.
Para calcular la mediana a partir de un conjunto de datos recolectados en su forma natural:
x1, x2, ... , xn

Primero se debe ordenar el conjunto, obtenindose los estadsticos de orden
x(1), x(2), ... , x(n),
(4)
donde x(1) denota la observacin ms pequea, x(2) la segunda observacin ms pequea, ..., y x (n) denota
la observacin ms grande, es decir
x(1) x(2) ... x(n),
A este conjunto se le denomina un arreglo ordenado (o lote ordenado). Despus se utiliza la frmula de
posicionamiento de la mediana
n 1
2
(5)
para localizar el lugar que ocupa la mediana en el lote ordenado.

Regla 1: Si el tamao del lote es un nmero impar, la mediana est representada por el valor numrico
correspondiente a la posicin (n + 1)/2 de las observaciones ordenadas.
Regla 2: Si el tamao del lote es un nmero par, entonces la posicin de la mediana estar entre las dos
observaciones centrales. Por ello, la mediana es el promedio de los valores numricos
correspondientes a estas dos observaciones centrales.
En trminos matemticos,
n impar
x ( n1 / 2 ) ,
~
x x (n / 2 ) x ( n / 2 1)
,
n par
(6)
Ejemplo 6: Para hallar la mediana en el ejemplo 1, primero se obtiene la muestra ordenada:

-1, 0, 1, 1, 2, 2, 3
Observacin ordenada
1 2 3 4 5 6 7
Para estos datos la posicin de la mediana es: (7 + 1)/2 = 4.
Por lo tanto, la mediana es el valor de la muestra ordenada que ocupa la posicin 4 , o sea 1.
decir que la temperatura mediana en esa semana fue de 1C
Marque en el grfico la media y la mediana y compare.
~
x = 1. Es
Ejemplo 7: En la muestra 1 del ejemplo 2, para hallar la mediana, ordenamos previamente la muestra,
resultando:
Muestra 1 ordenada
13, 14, 14, 16, 21, 42
n=6
La posicin de la mediana ser (6+1)/2 = 3,5.
Luego la mediana es el promedio de los dos datos centrales marcados, ~
x = (14+16)/2 = 15
En el grfico de puntos se indican la media y la mediana. Compare y cite conclusiones.
La mediana no se ve afectada por las observaciones extremas en un conjunto de datos. Por ello cuando se
presenta alguna observacin extrema resulta apropiado utilizar la mediana y no la media para representar el
conjunto de datos. Esta situacin se ilustra en el ltimo ejemplo.
Ejemplo 8: Para los datos del ejemplo 3 calculamos la mediana del tiempo de vida, en segundos, de las 50
moscas sujetas a un nuevo insecticida. En primer lugar ordenamos los datos y obtenemos el siguiente
arreglo.
3 4 5 6 6 6 7 7 7 7 7 7 7 8 8 9 9 9 9 10 10 10 10 10 10
11 12 12 13 13 13 13 13 14 14 15 15 16 16 17 18 18 18 19 19 20 23 24 27 32
La posicin de la mediana ser (50 + 1 )/2 = 25,5. Esto indica que la mediana ser el promedio de los dos
datos centrales, los que ocupan la posicin 25 y 26. Es decir:
Mediana =
x (25) x (26) 10 11
10,5
2
2
Conclusin: El tiempo mediano de vida de las 50 moscas sometidas al nuevo insecticida es de 10,5
segundos.
Estadsticamente hablando esto significa que la mitad de los tiempos de vida de las 50 moscas son
menores o iguales a 10,5 segundos y la otra mitad mayores a ese valor ( en este caso no ponemos el =
pues aqu la mediana no es un dato).
Ahora bien, puesto que cada tiempo est asociado a una mosca (la unidad experimental), podemos citar
nuestras conclusiones diciendo la mitad de las moscas vivi menos de 10,5 segundos y la otra mitad
vivi un tiempo mayor.
Ejemplo 9: Para determinar la mediana de los n = 100 datos del ejemplo 4, podramos agregar a la tabla
otra columna con las frecuencias acumuladas.
Xi nmero fi nmero frecuencias

de hijos
de
acumuladas
mujeres
0
13
13
1
20
33
2
25
58
3
20
78
4
11
89
5
7
96
6
4
100
Total
En este caso la posicin de la mediana ser

(100 + 1 )/2 = 50,5. Esto indica que la mediana
ser el promedio de los dos datos centrales, los
que ocupan la posicin 50 y 51. En la tabla
observamos que los datos x(50) y x(51) son iguales
a 2. Luego el nmero mediano de hijos es 2.
Como cada dato est asociada a una mujer,
expresamos nuestras conclusiones diciendo que
la mitad de las mujeres de ese lugar de
Espaa tienen como mximo 2 hijos y la otra
mitad de mujeres tienen por lo menos 2 hijos.
100
MEDIANA DE DATOS AGRUPADOS

Para datos agrupados, la mediana se obtiene mediante interpolacin y viene dada por
f 1
2
c
Mediana = L1 +
fmediana
(7)
donde L1 = lmite real inferior de la clase mediana ( es decir, la clase que contiene la mediana)
n = nmero de datos
( f)1 = suma de las frecuencias de todas las clases por debajo de la clase mediana. (O sea nmero de
observaciones de todas las clases por debajo de la clase mediana)
fmediana = frecuencia de la clase mediana (clase que contiene a la mediana)
c = tamao del intervalo de la clase mediana (amplitud del intervalo)
Ejemplo 10: Para hallar la mediana de los datos que representan las duraciones de 40 bateras de auto
similares, a partir de la distribucin de frecuencias indicadas en ejemplo 5, procedemos como sigue:
En primer lugar ubicamos el intervalo de clase que contiene la mediana.
La frmula de posicionamiento de la mediana nos indica que la mediana ocupa la posicin (40 + 1)/ 2 =
20,5 de la muestra ordenada. Esto es, veinte datos son menores o iguales que la mediana y 20 son
mayores o iguales.
Puesto que la suma de las frecuencias de las tres y cuatro primeras clases son respectivamente 2 + 1 +
4 = 7 y 2 + 1 + 4 + 15 = 22, est claro que la mediana se encuentra en la cuarta clase.
Luego la clase mediana ser [ 3,0 , 3,5) .
Entonces L1 = 3,0;
n = 40; ( f)1 = 2 + 1 + 4 = 7 ;
fmediana = 15; c = 3,5 3,0 = 0,5;
as se tiene
40
7
f 1
2
2
c 3,0
0,5 3,43 aos
Mediana L1
fmediana
15
~
x = 3,43
Geomtricamente, la mediana es el valor de la variable (abscisa) que corresponde a la vertical que
divide un histograma en dos partes de igual rea. Luego, la mediana puede estimarse a partir de un
histograma.
Analizaremos como obtener la mediana a partir de una ojiva porcentual (polgono de frecuencias
relativas porcentuales acumuladas).
Ejemplo 11: Se muestra a continuacin la ojiva porcentual correspondiente a los datos de tiempos de
duracin de 40 bateras de automviles.
La mediana es la abscisa del punto P sobre la ojiva, cuya ordenada es el 50%. Puede obtenerse
aproximadamente del grfico buscando simplemente la abscisa del punto P. En nuestro caso observamos
que es aproximadamente 3,43 o 3,44.
Para calcular su valor nos basamos en los tringulos semejantes PQR y TSR
RQ PQ
RS ST
RQ 50% 17,5% 13
0,5 55% 17,5% 15
as que RQ
13
30
Entonces
Mediana = 3,0 + RQ = 3,0 + 13/30 = 3,433333... 3,43
LA MEDIA RECORTADA
De la misma manera que la mediana, la media recortada es una medida de tendencia central que se
dise para que no est afectada por datos atpicos. La media recortada se calcula a partir del arreglo
ordenado, recortando un nmero igual de datos a partir de cada extremo y calculando la media de los
restantes. Si se recorta el p% de los datos de cada extremo, la media recortada resultante se denomina
media recortada un p%. No existe frmula ni fcil ni difcil para saber cuntos valores se deben recortar.
Las ms comunes son las medias recortadas al 5, 10 y 20%.
Debido a que el nmero de datos recortados debe ser un nmero entero, en muchos casos es
imposible recortar los porcentajes exactos que se piden de los datos. Si el tamao muestral se denota por n
y se desea recortar un p%, el nmero de datos a ser recortados es np/100. Si este no es un nmero entero,
lo ms sencillo que se debe hacer cuando se calcula manualmente es redondear al entero ms cercano y
recortar esa cantidad.
LA MODA
En ocasiones, cuando se describe o se resume un conjunto de datos, se utiliza la moda como medida de
tendencia central.
La moda de un conjunto de datos es el valor que se presenta con mayor frecuencia en la muestra.
Se obtiene fcilmente a partir de un arreglo ordenado.
A diferencia de la media aritmtica, la moda no se afecta ante la ocurrencia de valores extremos. Sin
embargo solo se utiliza la moda para propsitos descriptivos porque es ms variable para distintas
muestras, que las dems medidas de tendencia central. Puede no existir y en caso de existir puede no ser
nica.
Ejemplos 12: En el ejemplo 1 hay dos modas 1C y 2C. En el ejemplo 2 la moda es 14 para la muestra 1 y
para la muestra 2 la moda es 20.
La siguiente muestra 5, 1, 6, 9, 2, 3 no tiene moda.
La muestra 2, 8, 9, 6, 2, 8, 6, 2, 8, 7, 3 presenta dos modas 2 y 8. Estos datos se describen como
bimodales.
Una distribucin de datos que presenta una sola moda se llama unimodal. Si presenta dos modas, bimodal
y una distribucin es multimodal si presenta ms de dos modas.
En ocasiones, cuando el tamao de la muestra lo permite, conviene ordenar los datos para poder obtener
ms fcilmente la/s moda/s, si es que existen.
Ejemplo 13: En el ejemplo 3 el tiempo modal de vida es de 7 segundos (pues 7 segundos es el dato que
presenta la mayor frecuencia)
Ejemplo 14: En el ejemplo 4 observando la segunda columna de la tabla concluimos que el nmero modal
de hijos de las 100 mujeres de ese lugar de Espaa es 2 ( pues es el nmero de hijos que presenta la
mayor frecuencia).
MODA DE DATOS AGRUPADOS
En el caso de datos agrupados donde se ha construido una curva de frecuencias para ajustar los
datos, la moda ser el valor (o valores) de la variable de inters correspondiente al mximo (o
mximos) de la curva. Es decir cada mximo local es una moda.
De una distribucin de frecuencias o un histograma, la moda puede obtenerse de la siguiente frmula
1
Moda L 1
1 2
(8)
donde L1 = lmite real inferior de la clase modal ( es decir, la clase que contiene la moda)
1 = Frecuencia del intervalo modal menos frecuencia del intervalo anterior
2 = Frecuencia del intervalo modal menos frecuencia del intervalo posterior
c = tamao del intervalo de clase modal.
Ejemplo 15: Para hallar la moda de la distribucin de frecuencias de los tiempos de duracin de las 40
bateras de auto similares indicadas en ejemplo 5, procedemos como sigue:
En primer lugar ubicamos el intervalo de clase modal, en este caso es [ 3,0 , 3,5) el que presenta la
mayor frecuenciaCATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 7
luego
L1 = 3,0
= 15 4 = 11
= 15 10 = 5
c = 3,5 3,0 = 0,5; as se tiene
11
Moda 3,0
0,5 3,34375 3,34 aos
11 5
En el histograma del ejemplo 5 se grafican la media, la mediana y la moda.
RANGO MEDIO
Es el promedio de las observaciones mayor y menor de un conjunto de datos.
Rango Medio
x mximo x mnimo
2
(9)
A pesar de su sencillez, el rango medio se debe usar con cautela, ya que slo involucra las observaciones
mayor y menor de un conjunto de datos, si hay observaciones extremas se distorsiona como medida de
tendencia central. (Por esta razn, podra ser preferible usar el eje medio)
No obstante, con frecuencia se utiliza en forma exitosa el rango medio como parmetro de medicin tanto
para anlisis financieros como para informes sobre el clima, puesto que ofrece un valor adecuado rpido y
sencillo para resumir todo un conjunto de datos, ya sea una serie de precios diarios de cierre de una accin
para todo un ao, o un conjunto de lecturas de temperaturas registradas cada hora durante todo un da. En
tales situaciones no es posible que ocurra un valor extremo (tambin llamada observacin atpica).
Ejemplos 16: En el ejemplo 1, el rango medio = (-1+3)/2 = 1
En el ejemplo2 para la muestra 1, el rango medio = (13+42)/2 = 27,5
y para la muestra 2, el rango medio = (17+23)/2 = 20
A continuacin se presentan diagramas de puntos en donde se indican todas las medidas de tendencia
central estudiadas.
MEDIDAS DE DISPERSIN
Una segunda propiedad importante que describe a un conjunto de datos es la dispersin. La dispersin
es el grado de variacin o diseminacin de los datos.
Dos conjuntos de datos pueden diferir tanto en tendencia central como en dispersin; o como se muestra en
los siguientes ejemplos, dos conjuntos de datos pueden tener las mismas medidas de tendencia central
pero diferir mucho en trminos de dispersin. Este ltimo caso se ejemplifica en los siguientes conjuntos de
datos.
Ejemplo 17: Los datos de la muestra A sealan el tiempo de funcionamiento (en das) hasta que se
presenta la primera falla de n = 6 radiotransmisores-receptores de marca A y los datos de la muestra B
corresponden a n = 6 radiotransmisores-receptores de marca B
Los datos de la muestra B son mucho menos variables que los de la muestra A. Observemos que ambos
tienen la misma media.
Las medidas de dispersin que analizaremos en primera instancia son: el rango, la varianza, la desviacin
estndar y el coeficiente de variacin
EL RANGO
El rango es la diferencia entre las observaciones Mxima y mnima de un conjunto de datos: Es decir
RANGO = xMAXIMO -
x MINIMO
(10)
Ejemplo 18: En el ejemplo 17, para los datos de la muestra A: Rango = 280 - 114 = 166 das
y para los datos de la muestra B: Rango = 180 - 150 = 30 das
Conclusiones: En un rango de 166 das se present la primera falla en los n=6 radiotransmisores-receptores
de marca A, mientras que para los seis de la marca B, la primera falla se present en un rango de 30 das.
El rango mide la dispersin total del conjunto de datos.
Aunque el rango es una medida de dispersin simple y se calcula con facilidad, su debilidad preponderante
es que no toma en consideracin la forma en que se distribuyen los datos entre los valores ms pequeos y
los ms grandes. Esto se puede observar en los siguientes grficos que se presentan tres conjuntos de
puntos con el mismo rango.
Rango = 13 5, Rango = 8
Rango = 8
Rango = 8
En el ltimo caso x MINIMO = 13 es una observacin atpica
No es apropiado utilizar el rango como medida de dispersin cuando una o ambas de x MAXIMO e yMAXIMO son
observaciones extremas.
VARIANZA Y DESVIACIN ESTNDAR:

Dos medidas de dispersin que se utilizan con frecuencia y que toman en consideracin la forma en que se
distribuyen todos los valores son la varianza y su raz cuadrada, la desviacin estndar. Estas medidas
establecen la forma en que los valores fluctan con respecto a la media.
Para una muestra que contiene n observaciones

2
por S ), se define de la siguiente manera :
x1 , x 2, . . . , x n , la varianza muestral (representada

n
S2
( xi x )2
( x1 x ) ( x 2 x ) ( xn x )
; es decir
n 1
S2 i1
n 1
(11)
donde
x = media aritmtica,
n = nmero de observaciones en la muestra (tamao de la muestra),
n
( x i x ) 2 sumatoria de todos los cuadrados de las diferencias entre los valores de x i y x
i 1
La Varianza Muestral es casi el promedio de los cuadrados de las diferencias entre cada una de las
observaciones de un conjunto de datos y la media.
Si el denominador hubiera sido n en lugar de n - 1, se hubiera obtenido el promedio de las diferencias al
cuadrado en torno a la media. Sin embargo, se utiliza n - 1 , debido a ciertas propiedades matemticas que
2
tiene el estadstico S y que lo hacen apropiado para realizar inferencias estadsticas. Evidentemente, si el
tamao de la muestra es grande , la diferencia entre dividir por n o por n 1 no es significativa.
Tambin puede emplearse la siguiente frmula simplificada en la que no interviene la media :
x i2
S2 i1
n

x
i 1 i
n
(12)
n 1
DEFINICION DE DESVIACION ESTANDAR MUESTRAL

La desviacin estndar muestral (cuya notacin es el smbolo S) es simplemente la raz cuadrada
positiva de la varianza muestral. Es decir:
n
( xi x )2
S S2 i1
n 1
(13)
Como las diferencias (xi - x ) se elevan al cuadrado, ni la varianza ni la desviacin estndar pueden ser
2
nunca negativas. En el nico caso en que S y S pudieran ser cero es cuando no hay variacin en los
datos -si todas las observaciones de la muestra tuvieran exactamente el mismo valor- En este caso, muy
poco comn, el rango tambin sera cero.
Si embargo, los datos son variables por naturaleza, no constantes. Cualquier fenmeno aleatorio de inters
que se pudiera pensar asume diversos valores. Debido a que los datos son inherentemente variables , es
tan importante estudiar no slo medidas (de tendencia central) que resuman los datos, sino tambin
medidas (de dispersin) que reflejan la forma en que varan los datos.
Ejemplo 19: Calculamos la varianza muestral y la desviacin estndar muestral de los datos del ejemplo 1.
(6 2 3 2 8 2 4 2 6 2 3 2 6 2 )
36 2
7
(6 2 3 2 8 2 4 2 6 2 3 2 6 2 ) 36
3,48
1,86
6
Por qu cree UD. que se utiliz, en este caso, la frmula 12 para hallar la varianza muestral y no la frmula
11? Analice cuidadosamente su respuesta.
S
2
Ejemplo 20: La varianza y la desviacin estndar muestral de los datos del ejemplo 1 sern
respectivamente
2
S = 37,00 segundos al cuadrado

redondeando al valor ms prximo).
S = 6,08 segundos (se han tomado dos cifras decimales,
Ejemplos 21: La desviacin estndar muestral de cada muestra del ejemplo 17 ser:
Para la muestra A, s = 61,00 das y para la muestra B, s = 12,20 das
Qu indican la varianza y la desviacin estndar?

La varianza y la desviacin estndar miden la dispersin promedio en torno a la media; es decir, cmo
fluctan las observaciones mayores por encima de la media y cmo se distribuyen las observaciones
menores por debajo de ella.
La varianza tiene ciertas propiedades matemticas tiles. Sin embargo, al calcularla se obtienen unidades al
cuadrado ( segundos al cuadrado, pesos al cuadrado , centmetros al cuadrado, aos al cuadrado, etc. ).
Por ello en la prctica la principal medida de dispersin que se utiliza es la desviacin estndar, cuyo valor
est dado en las unidades originales de los datos: segundos, pesos, centmetros, aos, etc.
En el ejemplo 20 del tiempo de vida de las moscas, la desviacin estndar es aproximadamente 6,08
segundos. Esto indica que la mayor parte de los tiempos de vida se agrupan dentro de 6,08 segundos por
encima y por debajo de la media, es decir en el intervalo cuyos extremos son
5,14 6,08 = -0,94
y
5,14 6,08 = 11,22 segundos., este es (-0,94 , 11,22).
Como los tiempos no pueden ser negativos concluimos que la mayor parte de las moscas vivi entre 0 y
11,22 segundos.
Por qu se elevan al cuadrado las desviaciones?

Las frmulas para la varianza y la desviacin estndar no podran utilizar tan solo
( xi x )
como
i1
numerador, porque se debe recordar que la media acta como punto de equilibrio para las observaciones
que son mayores y menores que ella. Por lo tanto la suma de las desviaciones de los x i con respecto a la
media siempre es igual a cero. Es decir
( xi x ) 0
i1
En efecto, usando las propiedades de la sumatoria resulta:

n
i1
i1
i1
i1
i1
i1
( xi x ) xi x xi n x xi xi 0
Generalizaciones:
Cuando ms separados o dispersos estn los datos, tanto mayores sern el rango, la varianza y la
desviacin estndar. Si los datos estn ms concentrados o son homogneos, menores sern el rango, la
varianza y la desviacin estndar. Si todas las observaciones son iguales (de manera que no haya
variaciones en los datos), el rango, la varianza y la desviacin estndar sern iguales a cero.
VARIANZA Y DESVIACION ESTANDAR MUESTRAL OBTENIDA A PARTIR DE UNA DISTRIBUCION DE
FRECUENCIAS DE DATOS NO AGRUPADOS
Si los datos x1, x2,..., xk ocurren con frecuencias f1 , f2, ... , fk respectivamente,
la varianza muestral puede expresarse
k
fi ( x i x ) 2
S 2 i 1
(14)
fi 1
i 1
y la frmula abreviada equivalente resulta :

k
fi
i 1
xi
k

f x
i 1 i i
fi
(15)
i 1
fi 1
i 1
y la desviacin estndar muestral S ser la raz cuadrada positiva de S .
Ejemplo 22: Para la distribucin de frecuencias del nmero de hijos de las 100 mujeres espaolas,
utilizamos la frmula (14) pues x es un nmero exacto.
Xi nmero
de hijos
fi nmero de
mujeres
0
1
2
3
4
5
6
Total
S2
13
20
25
20
11
7
4
100
252,1100
2,55 hijos al cuadrado y S
100 1
APROXIMACION DE LA
AGRUPADOS
(xi - x )2
(xi - x )
-2,33
-1,33
-0,33
0,67
1,67
2,67
3,67
(xi - x )2 *fi
5,4289
1,7689
0,1089
0,4489
2,7889
7,1289
13,4689
70,5757
35,3780
2,7225
8,9780
30,6779
49,9023
53,8756
252,1100
252,1100
1,60 hijos
100 1
VARIANZA Y LA DESVIACIN ESTNDAR MUESTRAL PARA DATOS
Las frmulas (14) y (15) tambin son adecuadas para datos agrupados. En ese caso x i representa
las marcas de clase, f i las correspondientes frecuencias de cada clase y k es el nmero de
intervalos de clase.
Esto es razonable pues para datos agrupados no se conocen los valores individuales de los datos. En este
caso, se considera que el punto medio de la clase es un valor representativo de cada dato que se encuentra
en esa clase.
Ejemplo 23: Hallamos la varianza y la desviacin estndar muestral a partir de la distribucin de frecuencias
de los tiempos de duracin de las 40 bateras de auto similares indicadas en ejemplo 5.
Duraciones de las
bateras
Marcas de Clase N de bateras
xi
(en aos)
[ 1,5 , 2,0)
[ 2,0 , 2,5)
[ 2,5 , 3,0)
[ 3,0 , 3,5)
[ 3,5 , 4,0)
[ 4,0 , 4,5)
[ 4,5 , 5,0)
1,75
2,25
2,75
3,25
3,75
4,25
4,75
Suma
S2
2
498,5 138,5
40
40 1
fi
2
1
4
15
10
5
3
xifi
xi2*fi
3,50
2,25
11,00
48,75
37,50
21,25
14,25
6,125
5,063
30,250
158,438
140,625
90,313
67,688
40
138,50
498,500
0,4857 aos
2
498,5 138,5
40
40 1
0,697
COEFICIENTE DE VARIACIN
A diferencia de las medidas que ya se han estudiado, el coeficiente de variacin es una medida relativa de
dispersin. Se expresa en porcentaje y no en trminos de unidades de los datos manejados. Es
independiente de las unidades utilizadas.
El coeficiente de variacin, representado con el smbolo CV, mide la dispersin de los datos con respecto a
la media. Se lo puede calcular mediante
S
CV 100%
x
Donde S = desviacin estndar del conjunto de datos
x = media del conjunto de datos
(16)
Como medida relativa, el coeficiente de variacin es til sobre todo cuando se compara la
variabilidad de dos o ms conjuntos de datos expresados en diferentes unidades de medicin.
Por ejemplo el dueo de una inmobiliaria tiene una muestra de los precios de 25 casas. Para cada casa
tiene registrado adems el tamao del lote que ocupa. Se est interesado en determinar si los precios de
las casas tienen mayor variabilidad (en trminos relativos) que los respectivos tamaos de los lotes que
ocupan. Como el precio de la casa (en miles de pesos) es una cantidad monetaria y el tamao del lote est
dado en metros cuadrados, resulta imposible comparar en forma directa las dos desviaciones estndar o los
dos rangos para estas variables. Aqu, sin embargo, se pueden utilizar los dos coeficientes de variacin
para obtener la respuesta deseada.
El CV mide la dispersin de los datos respecto a la media. A medida que el coeficiente de variacin
disminuye, se observa una mayor homogeneidad en los datos o, lo que es lo mismo, los datos estn ms
concentrados alrededor de la media.
El CV es tambin muy til cuando se comparan dos o ms conjuntos de datos que se miden en las
mismas unidades, pero que difieren en tal medida que una comparacin directa de las respectivas
desviaciones estndar no resulta muy til.
Por ejemplo, suponga que un inversionista potencial est evaluando la posible adquisicin de acciones de
una de dos compaas A o B, que se cotizan en la Bolsa de Valores Americana. Si ninguna de las dos
compaas ofreciera dividendos a sus accionistas y ambas compaas tuvieran una evaluacin igualmente
alta en trminos de capacidad de crecimiento, el inversionista potencial podra considerar la volatilidad
(variabilidad) de las dos emisiones para apoyar su decisin de inversin. Ahora suponga que cada una de
las acciones del capital de la compaa A ha tenido un precio promedio de $50 en los ltimos meses, con
una desviacin estndar de $10. Adems, suponga que en ese mismo perodo el precio por accin de la
compaa B tuvo un promedio de $12 con desviacin estndar de $4. De acuerdo con las desviaciones
estndar actuales parece que el precio de las acciones de la compaa A es ms voltil que el de la
compaa B. Sin embargo, como los precios promedio por accin de las dos emisiones son tan diferentes,
sera ms apropiado para el inversionista potencial considerar la variabilidad en el precio con relacin al
precio promedio, a fin de examinar la volatibilidad o estabilidad de las dos emisiones. Para la compaa A, el
coeficiente de variacin es CVA = ($10 / $50) 100% = 20,0%; para la compaa B, el coeficiente de variacin
es CVB = ($4 / $12) 100% = 33,3%. Por ello, en relacin a la media el precio de la accin B es mucho menos
variable que el precio de la accin A.
MEDIDAS DESCRIPTIVAS PARA UNA POBLACION

Se presentan a continuacin un conjunto de medidas descriptivas que caracterizan a una poblacin de
tamao N.
N
xi
i1
Media Poblacional:
Rango Medio:
Rango Medio
Rango:
RANGO
(17)
x mximo x mnimo
2
xMAX - x MIN
(18)
(19)
( xi )2
Varianza poblacional
2 i1
(20)
N
N
( xi )2
Desviacin estndar:
Coeficiente de variacin:
2 i1
(21)
CVPOBLACIONAL 100%
(22)
La mediana y la moda de una poblacin de tamao N se obtienen, respectivamente, tal como se describi
antes para una muestra.
FORMA
Hasta ahora se han estudiado los parmetros de centralizacin y de dispersin que son las medidas ms
frecuentes que se calculan en cualquier estudio estadstico.
Una distribucin es simtrica si una mitad es aproximadamente una imagen de espejo de la otra. En caso
contrario se dice que la distribucin es asimtrica.
Ejemplo 24: Se presenta a continuacin un histograma que muestra la distribucin de las alturas de 1.100
estudiantes universitarios. Esta distribucin as aproximadamente simtrica. Al final se presenta un resumen
de estadsticos descriptivos generado por el SPSS.
His togram a: Alturas Es tudiantes Universitarios

140
120
100
80
60
Frequencias
40
20
0
152
156
154
160
158
164
162
168
166
172
170
176
174
180
178
184
182
188
186
192
190
196
194
200
198
204
202
alturas de estudiantes (en cm)

Figura AS1
SESGO
Se conoce como sesgo el grado de asimetra de una distribucin, es decir, cunto se aparta de la simetra.
Una distribucin asimtrica se dice sesgada a la derecha si tiene una cola ms larga a la derecha que a la
izquierda; es decir si la distribucin est ms extendida hacia los valores mayores. Como ejemplo se
presenta la distribucin de los tiempos de vida de las moscas expuestas a un insecticida ejemplo 3-
Figura AS2
Una distribucin asimtrica se dice sesgada a la izquierda si tiene una cola ms larga a la izquierda que a
la derecha; es decir si la distribucin est ms extendida hacia los valores menores.
Para describir la forma, lo que se requiere es comparar la media y la mediana.
Si estas dos medidas son iguales, en general, decimos que los datos son simtricos (o con sesgo cero)
Si la media es mayor que la mediana, en general, se dice que los datos tienen sesgo positivo o hacia la
derecha.
Si la media es menor que la mediana, en general se dice que los datos tienen sesgo negativo o hacia la
izquierda.
Ejemplo 25: Se presenta un histograma que muestra la distribucin de las calificaciones obtenidas en el
Primer Parcial que abarc los temas de Estadstica Descriptiva y Probabilidad, rendido el 27 de Mayo de
2006. Rindieron N = 136 alumnos en esa primera fecha. Al final se presenta un resumen descriptivo
generado por el SPSS.
Figura AS3
Se observa que esta distribucin es sesgada a la izquierda. En este caso la media es menor que la
mediana.
La mejor manera de examinar las posiciones relativas de las diversas medidas de tendencia central (la
media, la mediana, la moda, el rango medio y el eje medio) en las distribuciones sesgadas, es a travs de
las figuran AS4 y AS5.
Figura AS4
Figura AS5
En las distribuciones con sesgo a la izquierda (figura AS5), las pocas observaciones, extremadamente
pequeas, distorsionan el rango medio y la media hacia la cola izquierda. Por ello se esperara que la moda
fuera el valor ms alto y que el rango medio fuera el menor. Es decir,
rango medio < media < eje medio < mediana < moda
(23)
Sin embargo, en las distribuciones con sesgo a la derecha (figura AS4) se aplica lo contrario. Pocas
observaciones de gran magnitud distorsionan el rango medio y la media hacia la cola derecha. Por ello se
espera que el rango medio exceda (es decir, est a la derecha de) todas las otras medidas. Es decir,
moda < mediana < eje medio < media < rango medio
(24)
Por otro lado, en distribuciones perfectamente simtricas, la media, la mediana, el rango medio y el eje
medio sern idnticos. Tal como se ilustra en las figuras AS6, la forma de la curva, hacia el lado izquierdo
de estas medidas de tendencia central es la imagen de espejo de la forma de la curva hacia la derecha.
FIGURAS AS6
x
mediana
moda
rango medio
eje medio
Curva en forma triangular
x
mediana
rango medio
eje medio
no existe moda
Curva en forma rectangular
primera moda
segunda moda
mediana
rango medio
eje medio
MEDIDAS DE ASIMETRIA
Si bien es fcil tener una idea de si la distribucin es simtrica o no tras ver la representacin grfica (p.ej.
un histograma o un diagrama de caja), es importante cuantificar la posible asimetra de una distribucin.
Recordemos que cuando la distribucin de los datos es simtrica, la media, la mediana y la moda coinciden
(y la distribucin tiene la misma forma a la izquierda y la derecha del centro).
Si bien muchas distribuciones psicolgicas se asume que tienden a ser simtricas y unimodales, en muchos
casos la distribucin que encontramos es asimtrica (p.e. ejemplo las distribuciones de los Tiempos de
Reaccin en casi cualquier tarea es asimtrica positivo).
1. INDICE DE ASIMETRA DE PEARSON

Para distribuciones sesgadas, la media tiende a estar del mismo lado de la moda en la cola ms larga.
Luego una medida de asimetra viene dada por la diferencia: media moda, que puede hacerse
adimensional dividindola por una medida de dispersin, tal como la desviacin estndar, lo que lleva a la
definicin
Sesgo
media moda
x moda
desviacin estndar
s
(25)Si la distribucin es simtrica el Sesgo ser 0.

Si la distribucin es sesgada a la derecha (asimtrica positiva), el sesgo ser mayor que 0.
Si la distribucin es sesgada a la izquierda (asimtrica negativa), el sesgo ser menor que 0
Para evitar el uso de la moda, podemos recurrir al siguiente ndice
2. INDICE DE ASIMETRA DE FISHER
Est basado en la diferencia entre los datos y la media, como la varianza, si bien esta vez se elevan las
diferencias al cubo.
n
As
( xi x )3
1
i 1
s3
(26)
Si la distribucin es simtrica As ser 0 (curva B del grfico).

Si la distribucin es asimtrica positiva, As ser mayor que 0 (curva A del grfico).
Si la distribucin es asimtrica negativa, As ser menor que 0 (curva C del grfico).Desventaja: Muy influida
por puntuaciones atpicas
Algunos programas de estadstica (por ejemplo Excel) utilizan una versin que difiere ligeramente de la
anterior en una constante:
n ( x x )3
n
i
(n - 1)(n - 2) i 1 s 3
(27)
Una asimetra positiva indica una distribucin asimtrica con sesgo a la derecha. Una asimetra
negativa indica una distribucin asimtrica con sesgo a la izquierda.
Para los tiempos de vida de las moscas -grfico AS1- este ltimo coeficiente de asimetra arroja un valor de
1,084.
Para los datos de las calificaciones -grfico AS2- el coeficiente de asimetra tom un valor igual a 0,378.
Para la distribucin de las alturas de los estudiantes universitarios la asimetra es 0,068 aproximadamente
igual a 0, por cuanto la distribucin es aproximadamente simtrica.
PARA DATOS AGRUPADOS, si x1, x2, , xk se presentan con frecuencias f 1, f2, , fk , respectivamente, el
ndice de Asimetra de Fisher est dado por:
k
As
fi ( xi x )3
1
i 1
s3
(28)donde
n fi y
s es la desviacin estndar para
i 1
datos agrupados, ecuacin (14)
CURTOSIS
La curtosis representa la elevacin o achatamiento de una distribucin, normalmente se toma en
relacin a la distribucin normal.
Una distribucin que presenta una elevacin (o apuntamiento) relativo alto, tal como la de la curva de la
figura (A), se llama leptocrtica, mientras que la curva de la figura (C), que es ms achatada, se llama
platicrtica. La distribucin normal, figura (B), que no es muy puntiaguda ni achatada, se llama
mesocrtica.
Figura A
Figura B
Figura C
Para una distribucin normal (mesocrtica) vale la relacin:

n ( x x)4 / n
3
i 4
s
i 1
La relacin anterior ser la referencia para el ndice de curtosis que vamos a emplear:
( xi x )4 / n
3
s4
i 1
n
Cr
(29)Si la
distribucin es normal (mesocrtica), el ndice vale 0. Si la distribucin es leptocrtica, el ndice es superior a

0. Si la distribucin es platicrtica, el ndice es inferior a 0.
Cr > 0
Cr < 0
FIGURA D :Las lneas de puntos muestran distribuciones normales, mientras que las lneas slidas muestran
distribuciones con curtosis positiva (figura izquierda) y curtosis negativa (figura derecha).Ref: On the Meaning and Use
of Kurtosis Lawrence T. DeCarlo
Algunos programas de estadstica (por ejemplo Excel) utilizan una versin que difiere ligeramente de la
anterior.
Cr =
4
n
n(n 1)
3(n - 1) 2
xi x
(n - 1)(n - 2)(n - 3) i1 s
(n - 2)(n - 3)
(30)
donde: s es la desviacin estndar de la muestra.

Si este coeficiente es nulo, la distribucin se dice normal (similar a la distribucin normal de Gauss) y recibe
el nombre de mesocrtica.
Si el coeficiente es positivo, la distribucin se llama leptocrtica, ms puntiaguda que la anterior. Hay una
mayor concentracin de los datos en torno a la media; es decir indica una distribucin relativamente elevada
Si el coeficiente es negativo, la distribucin se llama platicrtica y hay una menor concentracin de datos en
torno a la media. sera ms achatada que la primera; es decir indica una distribucin relativamente plana.
Para los tiempos de vida de las moscas -grfico AS1- este ltimo coeficiente de curtosis vale 1,30 y para los
datos de las calificaciones -grfico AS2- el coeficiente de curtosis toma un valor igual a 0,824. Para la
distribucin de las alturas de los estudiantes universitarios la curtosis es -0,053, aproximadamente igual a 0,
por cuanto los datos provienen de una distribucin normal.
Para datos agrupados, si x1, x2, , xk se presentan con frecuencias f 1, f2, , fk , respectivamente, el ndice
fi ( xi x )4 / n
3,
s4
i 1
k
de Curtosis Cr est dado por
Cr
(31)
donde n fi y s es la desviacin estndar para datos agrupados, ecuacin (14)

i 1
IMPORTANTE:
Curtosis es independiente de la variabilidad (en el sentido de varianza). Es decir, no es que una
distribucin leptocrtica tenga menos varianza y por eso es ms apuntada.
Una distribucin leptocrtica es muy apuntada en el centro (ms que la normal), decae muy rpidamente en
un primer momento, pero en los extremos es algo ms alta que la distribucin normal. Ver figuras D.
Eso quiere decir que una distribucin leptocrtica es ms probable que ofrezca ms valores extremos que la
distribucin normal.
Se presenta a continuacin una sntesis de los estadsticos descriptivos de algunos de los ejemplos
estudiados suministrados por el Excel o SPSS.
Ejemplo 3: Tiempos de vida de n = 50 moscas sujetas a un insecticida- Sntesis generada por el Excel
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la
muestra
Curtosis
Coeficiente de
asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
12,32
0,86020406
10,5
7
6,08256122
36,997551
1,29961382
1,08389683
29
3
32
616
50
Ejemplo 24: Alturas de n = 1.100 alumnos universitarios

Estadsticos Descripti vos
Alturas
(cm)
St at ist ic
174,8612
Media
Media recortada 5%
St d. Error
,2079
174,8420
Mediana
Varianza
Desv iacin est ndar
174,8491
47,549
Mnimo
Mxim o
Rango
Rango Intercuartlico
152,49
203,17
50,68
6,8956
9,6286
Simetra
Curtosis
,068
-,053
,074
,147
Ejemplo 25: calificaciones obtenidas en el Primer Parcial del ao 2006; n = 136 alumnos. Resumen de los
estadsticos descriptivos generado por el SPSS.
Descrip tives
Notas 1er Parcial

-27 may o 2006
Media
Media recortada 5%
Mediana
Varianza
Desv . Estndar
Mnimo
Mxim o
Rango
Rango Intercurt lico
Asimetr a
Curtosis
St at ist ic
74,64
St d. Error
1,90
75,07
79,00
489,017
22,11
26
115
89
36,50
-,378
-,824
,208
,413
BIBLIOGRAFA
Estadstica Bsica en Administracin. Conceptos y Aplicaciones Berenson y Levine. Prentice-Hall.
Cuarta Edicin 1992.
Probabilidad y Estadstica aplicadas a la Ingeniera. Douglas C. Montgomery y George C. Runger.
Ed. Mc Graw-Hill. 1996.
Probabilidad y Estadstica para Ingeniera y Ciencias William Mendenhall y Terry Sincih. Cuarta
Edicin 1997.
Estadstica. Murray R. Spiegel. Serie Schaum. Ed. Mc Graw-Hill. 1991.
PROGRAMAS: SPSS, MINITAB y EXCEL.

B - Propiedades de Los Datos Numericos - v10 Abril 2010

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

B - Propiedades de Los Datos Numericos - v10 Abril 2010

Uploaded by

Copyright:

Available Formats

ESTADISTICA DESCRIPTIVA

MEDIDAS DE TENDENCIA CENTRAL

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 1

Muestra 2 : 20, 22, 17, 20, 23, 18

Tambin en este caso

MEDIA ARITMETICA OBTENIDA A PARTIR DE UNA DISTRIBUCION DE FRECUENCIAS DE DATOS NO

: media aritmtica, n: nmero de valores distintos de la variable x,

Luego el tiempo promedio de duracin de las 40 bateras es

x = 138,5/40 = 3,4625 aos.

La mediana de una muestra se denota a veces por

x1, x2, ... , xn

para localizar el lugar que ocupa la mediana en el lote ordenado.

Ejemplo 6: Para hallar la mediana en el ejemplo 1, primero se obtiene la muestra ordenada:

Xi nmero fi nmero frecuencias

En este caso la posicin de la mediana ser

MEDIANA DE DATOS AGRUPADOS

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 5

0,5 55% 17,5% 15

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 6

En el histograma del ejemplo 5 se grafican la media, la mediana y la moda.

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 8

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 9

VARIANZA Y DESVIACIN ESTNDAR:

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 10

Para una muestra que contiene n observaciones

x1 , x 2, . . . , x n , la varianza muestral (representada

DEFINICION DE DESVIACION ESTANDAR MUESTRAL

S = 37,00 segundos al cuadrado

S = 6,08 segundos (se han tomado dos cifras decimales,

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 11

Qu indican la varianza y la desviacin estndar?

Por qu se elevan al cuadrado las desviaciones?

En efecto, usando las propiedades de la sumatoria resulta:

y la frmula abreviada equivalente resulta :

y la desviacin estndar muestral S ser la raz cuadrada positiva de S .

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 12

VARIANZA Y LA DESVIACIN ESTNDAR MUESTRAL PARA DATOS

Marcas de Clase N de bateras

MEDIDAS DESCRIPTIVAS PARA UNA POBLACION

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 14

His togram a: Alturas Es tudiantes Universitarios

alturas de estudiantes (en cm)

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 15

Curva en forma triangular

Curva en forma rectangular

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 17

1. INDICE DE ASIMETRA DE PEARSON

(25)Si la distribucin es simtrica el Sesgo ser 0.

Si la distribucin es simtrica As ser 0 (curva B del grfico).

s es la desviacin estndar para

datos agrupados, ecuacin (14)

Para una distribucin normal (mesocrtica) vale la relacin:

distribucin es normal (mesocrtica), el ndice vale 0. Si la distribucin es leptocrtica, el ndice es superior a

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 19

donde: s es la desviacin estndar de la muestra.

de Curtosis Cr est dado por

donde n fi y s es la desviacin estndar para datos agrupados, ecuacin (14)

Ejemplo 24: Alturas de n = 1.100 alumnos universitarios

Notas 1er Parcial

PROGRAMAS: SPSS, MINITAB y EXCEL.

CATEDRA PROBABILIDAD Y ESTADISTICA FAC. DE INGENIERIA UNJu LIC. MARTA CORRO- 21

You might also like