You are on page 1of 16

NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

PRIMERA UNIDAD: ESTADSTICA DESCRIPTIVA

RESUMEN DE DATOS

INTRODUCCION

Recordar que, los datos originales almacenados en una base de datos son resumidos y
presentados en tablas, cuadros y grficos estadsticos. La distribucin de los datos, en una tabla de
frecuencias, nos permite analizar el patrn de comportamiento de los mismos. As tambin, la
distribucin de los datos nos permite extraer informacin relevante y til a la hora de hacer el
anlisis e interpretacin de lo que ellos nos dicen. Una vez obtenida la tabla de frecuencias, es
necesario calcular un conjunto de medidas resumen o ndices que caractericen de una forma ms
precisa la distribucin que se est estudiando y, de este modo, podemos tener una idea de cmo
estn situados los datos a lo largo del eje real.
Estos ndices o medidas resumen permiten hacer comparaciones entre dos o ms muestras o
poblaciones.
Las medidas resumen se calculan a partir de los datos obtenidos de una muestra o de toda la
poblacin. Dependiendo del caso, adoptan diferentes nombres. De este modo,

a) Las medidas descriptivas calculadas a partir de los datos de una muestra se denominan
estadgrafos. Entre los estadgrafos ms comunes tenemos la media muestral, la varianza
muestral y la proporcin muestral.

b) Las medidas descriptivas calculadas a partir de los datos de la poblacin se denominan


parmetros. Entre los parmetros ms comunes tenemos la media poblacional, la varianza
poblacional y la proporcin poblacional.

Las medidas resumen pueden ser clasificadas en:

i) medidas de localizacin (de tendencia central y de posicin).


ii) medidas de dispersin (o de variabilidad).
iii) medidas de forma (de asimetra y de curtosis)

Las medidas de asimetra y apuntamiento dan informacin acerca de la forma de la


distribucin de frecuencias y pueden ser derivadas a partir de los ndices de posicin y dispersin.

Resumiendo, una descripcin adecuada de los datos requiere de la definicin de unas medidas
numricas descriptivas de la localizacin, de la dispersin y de la forma como estos se
distribuyen.

MEDIDAS DE LOCALIZACIN (TENDENCIA CENTRAL Y POSICIN)

Al analizar un conjunto de datos, correspondientes a una variable, lo primero que debemos


averiguar es cul es el valor alrededor del cual se concentran los datos? Esto es, cul es el
valor promedio de los datos? Respondemos estas interrogantes utilizando las medidas resumen de
localizacin.

Lic. Justa Caridad Huaroto Sumari. Pgina 1


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Entre las medidas de centralizacin se tienen: la media aritmtica, la mediana, la moda.


Dependiendo de la variable en estudio, y de la forma como estn organizados los datos, se har un
uso adecuado de cada una de estas medidas.

LA MEDIA ARITMETICA

Conocida tambin como media o promedio, se la utiliza como medida de centralizacin


cuando los datos son numricos, esto es, que corresponden a variables numricas medidas en
escalas de intervalo o de razn.
La media de un conjunto de N datos poblacionales x1 , x 2 , ..., x N es el valor dado por :

x1 + x2 + ... + x N 1 N

N
xi
N i 1
(1)

Ejemplo 1: Suponiendo que el nmero de hijos en cada una de las familias de un grupo de 15
profesores es como sigue:
2, 0, 3, 2, 1, 2, 2, 4, 2, 2, 0, 1, 3, 2, 1

2 0 3 2 ...... 3 2 1
La media es = 1.8
15
En promedio, los 15 profesores tienen 1.8 hijos.

MEDIA ARITMTICA PARA DATOS PROVENIENTES DE VARIABLES DISCRETAS O


CONTINUAS PRESENTADOS EN TABLAS DE FRECUENCIAS

a) Si en la tabla aparece la lista de datos (discretos) y sus respectivas frecuencias de repeticin,


entonces se aplica la frmula siguiente para el clculo de la media

x1 f1 x2 f 2 ... xk f k k x f
i i (2)
N i 1 N
siendo k el nmero de valores diferentes de la variable X, x i cada valor diferente de la variable y fi
su respectiva frecuencia (caso discreto).

Ejemplo 2: Los datos de la variable X: nmero de hijos, de una poblacin de 49 jefes de familia, se
distribuyen del modo siguiente:

Xi: 0 1 2 3 4 5 6 k = 7, i = 1,,7 n= 49
fi: 5 14 14 8 6 1 1

La media de estos datos es


1
= [(0x5) + (1x14) + (2x14) +..........+ (6x1)] = 2.06
49
En promedio el nmero de hijos de los 49 jefes de familia es, 2.06 hijos.

b) Si los datos estn agrupados en intervalos de clase, reemplazar en la frmula (2) los valores
x i por las marcas de clase Xi (caso continuo).

Lic. Justa Caridad Huaroto Sumari. Pgina 2


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Ejemplo 2: Para el siguiente conjunto de 17 datos de edades, agrupados en 5 intervalos de clase,


calcularemos un valor aproximado de su media utilizando las marcas de clase.

Intervalos Xi fi
5 x<9 7 2
9 x<13 11 4 k = 5 i=1,,5 N = 17
13 x<17 15 7
17 x<21 19 3
21 x<25 23 1

(72) (114) (15.7) (193) (231)


14.294
17
La edad promedio por persona es 14.294 aos.

Tambin se puede calcular la media considerando las frecuencias relativas. Sabiendo que
k
f
hi i , reemplazando en la frmula (2) se tiene = xi hi . (3)
N i 1

PROPIEDADES DE LA MEDIA

1. Para un conjunto de observaciones la media es nica.


65
Ejemplo 3: Si se tienen los datos de 5 calificaciones: 11, 12, 13, 14, 15 13 .
5
2. La suma de las distancias entre los datos y su media es cero;
N
esto es, ( X ) 0
i 1
i

Ejemplo 4: Sean los datos 11, 12, 13, 14, 15 cuya media es 13. Entonces
( xi ) (1-3) + (2-3) + (3-3) + (4-3) + (5-3) = 0
3. La suma de los cuadrados de las distancias entre los datos y su media es mnima; esto es,
N N

( X ) ( X A)
i 1
i
2

i 1
i
2
, para cualquier valor A.
Esta propiedad indica que la media es, en cierto sentido, el valor ms prximo al conjunto de
datos.

Ejemplo 5: Para los datos 11, 12, 13, 14, 15 ; 13 . Sea A = 12.
Siendo ( X i 13) 10 y
2
( X i 12) 15 , se cumple la propiedad.
2

4. Si a cada uno de los datos se le suma o se le resta una constante k , entonces la media de los
datos transformados es igual a la media de los datos originales aumentada o disminuida en la
constante k ; esto es,

M ( X i k) = M ( X i ) k .

Lic. Justa Caridad Huaroto Sumari. Pgina 3


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Ejemplo 6:
Datos originales, xi 11, 12, 13, 14, 15 M ( xi ) = = 13
Sea k 5 xi 5 16, 17, 18, 19, 20 M ( xi 5) = 13 + 5 18
Sea k 3 xi 3 8, 9, 10, 11, 12 M ( xi 3) = 13 - 3 10

5. Si a los datos se le multiplica o divide por una constante k , entonces la media de los datos
transformados es igual a la media de los datos originales multiplicada o dividida por la
constante k ; esto es,
x M( xi )
M ( k xi ) = k M ( xi ) o M i =
k k
Ejemplo 7:
Para los datos x i :1, 2, 3, 4, 5 es 3.
Sea k 4 para los datos 4 xi : 4, 8, 12, 16, 20 es M(4 xi ) 4(3) 12

Ejemplo 8:
El promedio de las notas de un alumno es 16. Si se le aumenta 2 puntos a cada nota, la nota
media ser igual a 18 (16 +2). Si cada nota se incrementa en un 10% (xi + 0.10 x i = 1.10 xi,
para i= 1,,n), entonces la nota promedio es igual a (1.10)(16) = 17.6

Ejemplo 9:
El promedio de los precios de los artculos que conforman la canasta familiar es 500 u.m.
Si cada artculo de la canasta aumenta el 15% de su precio, entonces el nuevo promedio de
los precios de la canasta es igual a 1.15 x 500 = 575 u.m.

6. La media es muy sensible a los valores extremos (outliers)

Ejemplo 10:
Si tenemos los datos 1, 2, 3, 4, 5 entonces es 3.
Si tenemos los datos 1, 2, 3, 4, 5, 6, 7, 45, 55, entonces es 14.22 . En casos como
este, donde uno o unos cuantos datos se alejan de la masa, la media no es adecuada, ya que
no representa bien al conjunto.

7. Si el subconjunto de datos x1 , x 2 ,..., x n tiene media x y el subconjunto y1 , y 2 ,..., y m tiene


media y , entonces el conjunto total x1 , x 2 ,..., x n , y1 , y 2 ,..., y m tiene media
nx my
. (4)
nm
Este promedio se conoce como media ponderada y los pesos o ponderaciones son los
tamaos de los subconjuntos, esta propiedad puede extenderse para varios subconjuntos.

Ejemplo 11:
El salario medio de 40 obreros de la fbrica A es 200 u.m. y el de 20 obreros de la fbrica B
es 250 u.m. Luego, el salario medio de los 60 obreros es

(40200) (20250)
XT 216.667
40 20

Lic. Justa Caridad Huaroto Sumari. Pgina 4


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

LA MODA, Mo

La moda es la medida de centralizacin ms simple. Se la puede usar para resumir datos


medidos con cualquier escala de medicin.

Para un conjunto de datos correspondientes a una variable, la moda es el dato que ms se


repite, es el valor ms frecuente. Para el conjunto de datos del ejemplo 1 la moda es 2. La mayora
de profesores tiene 2 hijos (unimodal).
No siempre existe la moda. Por ejemplo, el siguiente conjunto de datos: 64 70 75 82 90
no definen una moda.
En distribuciones donde existen dos o ms datos que se repiten con la misma frecuencia, se
dice que la distribucin es bimodal o multimodal.

Ejemplo 12: De la base de datos de la prctica 4 (problema 3, de los 40 clientes), se observa que
en la distribucin de la variable sector ocupacional acerca de los que solicitaron prestamos no
hipotecarios, el valor que ms se repite es 1( quince veces).
Moda = 1 (negocios), la mayora de los clientes que solicitaron prstamos no hipotecarios
corresponde al sector negocios.

Ejemplo 13: En la siguiente tabla se presenta la distribucin de la variable nmero de hijos


correspondiente a 49 jefes de familia.

Xi: 0 1 2 3 4 5 6
fi: 5 14 14 8 6 1 1

Se observa que la distribucin es bimodal. Moda1 = 1 y Moda2 = 2.

NOTA:
Si los datos corresponden a una variable continua y estn agrupados en intervalos de clase,
no es posible determinar exactamente el valor de la moda. Lo que s puede hacerse es identificar el
intervalo modal, aqul que tiene la mayor frecuencia, representado por su marca de clase o punto
medio.

OBSERVACIN:

Se usa la moda cuando se desea obtener el valor ms tpico del conjunto de datos. As por
ejemplo, hablando del sueldo promedio en cierta industria, nos referimos a menudo al sueldo
modal. Tambin, cuando el tipo de cambio de la moneda extranjera es estable, hacemos referencia
al valor modal como precio promedio.

LA MEDIANA, Me

Puede ser usada como ndice de centralizacin de datos asociados con escalas de medicin
ordinal, de intervalo y de razn.
La mediana de un conjunto de N datos es el valor que ocupa la posicin central; es decir, es
el dato que divide al conjunto de observaciones en dos partes iguales, 50% menores o iguales que la
mediana y 50% mayores que la mediana.
Para calcular la mediana se procede del modo siguiente:
1) Se ordenan los datos de menor a mayor (estadsticas de orden).

Lic. Justa Caridad Huaroto Sumari. Pgina 5


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

2) Se ubica el dato que ocupa la posicin central:


Si el nmero N de datos es impar, la mediana es el dato que ocupa la posicin (N+1)/2.
Si el nmero N de datos es par, la mediana ser el punto medio de los 2 datos centrales que
ocupan las posiciones N/2 y N/2 + 1.

Ejemplo 14: Los 15 datos del ejemplo 1 ordenados son: 0 0 1 1 1 2 2 2 2 2 2 2 3 3 4 .


Como N es impar, la mediana es el dato que ocupa la posicin (N+1)/2 = (15+1)/2 = 8, siendo
Mediana = 2

Ejemplo 15: La mediana de las siguientes edades ordenadas de un grupo de 10 nios: 2 2 3 4


6 7 8 8 9 9 es Me = (6+7)/2 = 6.5 ( como n es par , N/2 = 5, que corresponde al dato 6 y
N/2 + 1 = 6, que corresponde al dato 7). Significa que, el 50% de las edades son inferiores a 6.5
aos y el otro 50% son superiores a 6.5 aos.

MEDIANA PARA DATOS AGRUPADOS

Si los datos estn agrupados en una tabla de distribucin de frecuencias, se tienen dos casos:
a) Si se tiene la lista de datos con sus respectivas frecuencias (variable cuantitativa discreta),
siempre ser posible determinar el valor exacto de la mediana. Solamente se tiene que ubicar
el dato central que est en la posicin N/2 ( 50%), utilizando las frecuencias acumuladas.
As por ejemplo, para los datos del ejemplo 13, siendo N impar, el dato que ocupa la
posicin (49+1)/2 = 25 es 2; luego, la mediana del nmero de hijos es 2.
b) Si los datos estn agrupados en intervalos de clase (variable cuantitativa contnua), se
obtendr un valor aproximado de la mediana recurriendo a frmulas de interpolacin. Para
ello, ubicamos el intervalo que contiene a la mediana: aqul cuya frecuencia relativa
acumulada sea aproximadamente igual a 0.50 . Suponiendo que la mediana Me est en el
intervalo [a b), hasta a la frecuencia acumulada Ha es menor que 0.50 y hasta b la frecuencia
acumulada Hb es mayor o igual a 0.50 . Usando la semejanza de tringulos se tiene

M e a 0.5 H a 0.5 H a
o M e a (b a) (5)
ba Hb Ha Hb Ha
donde:
a es el lmite inferior del intervalo mediano,
b es el lmite superior del intervalo mediano,
Ha es la frecuencia relativa acumulada hasta el extremo a y
Hb es la frecuencia relativa acumulada hasta el extremo b.

Ejemplo 16: Los datos siguientes representan los pesos de un grupo de 50 personas.

Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
******** [67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00

Lic. Justa Caridad Huaroto Sumari. Pgina 6


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Observando la columna Hi notamos que el valor del peso que ocupa la posicin central est en el
intervalo [67,74). Luego,

0.500.34
M e 67 (74 67) 011
.
0.70 0.34

Este valor se puede interpretar del modo siguiente: aproximadamente, el 50% de las personas pesan
menos de 70.11 kg. y el resto pesa ms de 70.11 kg.

Observaciones:

1. La mediana es una estadstica de centralizacin resistente. No es influenciada por datos


atpicos (outliers) .

2. Se la usa para resumir conjuntos de datos organizados en tablas de frecuencias con lmites
de clase abiertos. Tambin es usada en distribuciones marcadamente asimtricas

COMPARACIONES ENTRE LA MEDIA ARITMTICA, LA MEDIANA Y LA MODA:

La media aritmtica, por su definicin y propiedades, es la mejor medida de centralizacin,


siempre que sea posible calcularla.
En comparacin con la mediana y la moda, la media es la ms estable. Esto significa que,
entre varias muestras tomadas de una misma poblacin, la media es la que menos flucta.
Cuando las distribuciones de los datos son simtricas o casi simtricas, para describir el
conjunto de datos, es preferible usar la media en lugar de la mediana o la moda.
Por su definicin, la media est ajustada para otros clculos aritmticos, a diferencia de la
mediana y la moda.
Se debe preferir la mediana en casos donde las distribuciones sean marcadamente
asimtricas, o tengan lmites de clase abiertos.

Se elegir la moda cuando se note claramente la presencia del dato ms tpico.

Generalmente, en distribuciones simtricas unimodales, la media, la mediana y la moda


coinciden. Para polgonos de frecuencia que estn sesgados a la derecha se cumple: M o M e X .
Para polgonos de frecuencia con cola a la izquierda se cumple: X M e M o .

X Me Mo Mo Me X X Me Mo

Lic. Justa Caridad Huaroto Sumari. Pgina 7


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

MEDIDAS DE POSICIN

Hemos visto que la mediana divide el conjunto de datos en dos partes iguales. Si se desea
dividir el conjunto de datos en cuatro partes iguales, se usarn los cuartiles. Las medidas de
posicin que dividen a la masa de datos en diez partes iguales se llaman deciles y las que la dividen
en cien partes iguales se llaman centiles o percentiles.

PERCENTILES PARA UN CONJUNTO DE DATOS

Muchas veces se desea describir la posicin de un cierto valor en un conjunto de datos. Para
ello se usan los percentiles. El primer paso para la obtencin de un percentil es ordenar los datos.
Para un conjunto de n datos ordenados el i-simo percentil est definido como el valor que
ocupa la posicin o el rango (in/100)+0.5, para i = 1,2, ..., 99
Cuando el valor del rango no es entero, se acostumbra tomar el promedio de los datos cuyos
rangos son prximos a este nmero.

Ejemplo 19:
En el siguiente conjunto de 10 datos ordenados: 15 15 16 17 18 19 21 23 25 25 el
percentil 25 es el dato que ocupa la posicin 25x10/100 + 0.5 = 3; esto es P25 = 16. Notar que
debajo de 16 existe aproximadamente el 25% de los datos.
El percentil 45 es 18 (pues su rango es 45x10/100+0.5 = 5).
El percentil 50 tiene rango 50x10/100 + 0.5 = 5.5; como el rango no es entero, el percentil 50 ser el
promedio de los datos que ocupan las posiciones 5 y 6. As, P50 = (18+19)/2 = 18.5 .
El percentil 75 es el dato que ocupa la octava posicin, esto es P75 = 23.

Notas:

1. Aproximadamente, el k% de los datos es menor o igual que el percentil k.


2. El percentil 50 es igual a la mediana, ya que ocupa la posicin 50n/100 + 0.5 = n/2 + 0.5, valor
que corresponde al dato central cuando n es impar o al promedio de los dos datos centrales cuando n
es par.
3. A los percentiles 25, 50 y 75 se les llama primero, segundo y tercer cuartil, respectivamente.
4. Utilizando los percentiles es posible formar intervalos cuyas longitudes suelen considerarse como
ndices de dispersin de los datos. El intervalo que ms se usa es el que tiene como extremos el
primer y el tercer cuartil; la longitud de ste se llama rango intercuartil.
En el ejemplo de arriba, el rango intercuartil es 23 - 16 = 7

5. El clculo de percentiles para datos agrupados en intervalos de clase se hace siguiendo un


procedimiento anlogo al que se realiz para aproximar la mediana, tomando en cuenta que debajo
del Pk existe k% de los datos, aproximadamente:
5.1) Se ubica el intervalo [a,b) en donde est el percentil Pk.
5.2) El valor del percentil es, aproximadamente,

(k / 100) H a
Pk a (b a)
Hb Ha

en donde Ha es la frecuencia relativa acumulada hasta el valor a y Hb es la frecuencia relativa hasta


b.

Lic. Justa Caridad Huaroto Sumari. Pgina 8


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Ejemplo 20: Con los datos del ejm. 16 calcularemos, en forma aproximada, los percentiles 25 y 75.

P75 = 74 + (81-74) [(0.75-0.70)/(0.86-0.70)] = 76.18.

El 75% de las personas pesan menos de 76.18 kilos.

P25 = 60 + (67-60) [(0.25-0.20)/(0.34-0.20)] = 62.49

El 25% de las personas pesan menos de 62.49 kilos.

MEDIDAS DE DISPERSIN O DE VARIABILIDAD

INTRODUCCION:

El conocimiento de las medidas de localizacin no es suficiente para caracterizar


completamente a una distribucin. Por ejemplo, si las edades medias de dos grupos de personas
fuesen iguales a 20, esto no implica que las edades en ambos grupos sean las mismas. Y esta
igualdad en las medias persistir an cuando en un grupo todos tengan las mismas edades y en el
otro grupo slo sean unos cuantos los que tienen mayores edades. Entonces, si se tuviera inters por
comparar las edades, adems de las medias, tendramos que averiguar, por ejemplo, cmo es el
rango de variacin de las edades.
Para caracterizar completamente una distribucin, es necesario conocer cmo estn
distribuidos los valores de la variable alrededor de un promedio.
Las medidas de dispersin cuantifican el grado de concentracin o de dispersin de los datos
alrededor de un promedio.

Ejemplo 21.- Observemos los siguientes conjuntos de datos.

conjunto 1: 1 2 3 4 5
conjunto 2: 5 10 15 20 25
conjunto 3: 10 20 30 40 50.

En el primero, cuya media es 3, pareciera que los datos estn muy concentrados. En el segundo,
cuya media es 15, los datos estn menos concentrados. En el tercero, cuya media es 30, los datos
estn ms distantes, mucho ms dispersos.
Pero, concentrados o dispersos alrededor de qu valor? Se debe tener un punto de referencia.
Entonces, es importante tomar en cuenta la variacin de los datos alrededor de un valor
central para no llegar a conclusiones engaosas.
Ya veremos despus que los tres conjuntos tienen la misma dispersin relativa.

Entre las medidas de dispersin ms conocidas tenemos: el recorrido o rango, el rango intercuartil,
la varianza, la desviacin estndar, el coeficiente de variacin.

EL RANGO

De uso muy limitado, el rango de un conjunto de N datos es la diferencia entre el dato


mximo y el dato mnimo: R = x(N) x(1)

Lic. Justa Caridad Huaroto Sumari. Pgina 9


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Ejemplo 22:
Para las siguientes edades de un grupo de 6 personas: 1 2 3 4 5 21 el rango es 20; y para
las siguientes edades de otro grupo de 7 personas: 47 54 57 60 63 65 67 el rango tambin es
20. A pesar de tener el mismo rango de edades, vemos que el comportamiento de los datos al
interior de cada conjunto es totalmente diferente.
Estos dos ejemplos muestran que el rango no indica de qu manera se distribuyen los
datos.

Observaciones:
El rango puede ser una medida de dispersin poco til si queremos conocer el
comportamiento de los datos al interior de los dos datos extremos.
Puede darse el caso en que el mnimo y el mximo de dos conjuntos de datos sean los
mismos y al interior de ellos los datos pueden tener comportamientos muy diferentes.
Es por esto que el rango tiene un uso muy limitado.
Por otra parte, si existen datos atpicos, estos afectarn fuertemente el valor del rango.

Ejemplo 23:
Para los conjuntos de datos del ejemplo 21 se tiene la siguiente informacin.
Conjunto 1: media 3, rango de 1 a 5
Conjunto 2: media 15, rango de 5 a 25
Conjunto 3: media 30, rango de 10 a 50
Los tres conjuntos muestran rangos diferentes y medias diferentes. Qu se puede decir
comparando la dispersin? Siendo las medias diferentes, no podemos usar los rangos directamente.
Ya veremos otro indicador de variabilidad que tome en cuenta a todos los datos y no solo a los
extremos.

EL RANGO INTERCUARTIL

Si deseamos evitar el efecto de posibles valores extremos o atpicos, podemos usar otra
medida de dispersin que se basa en el primer y tercer cuartil. Esta medida se denomina rango
intercuartil y considera la dispersin de solamente el 50% central del conjunto de datos.
El rango intercuartil est definido como:
RI = Q3 Q1
Ejemplo 24:
Los datos siguientes representan los pesos de un grupo de 50 personas.

Peso(kg.) Xi fi hi Fi Hi
[46, 53) 49.5 3 0.06 3 0.06
[53, 60) 56.5 7 0.14 10 0.20
[60, 67) 63.5 7 0.14 17 0.34
[67, 74) 70.5 18 0.36 35 0.70
[74, 81) 77.5 8 0.16 43 0.86
[81, 88) 84.5 4 0.08 47 0.94
[88, 95) 91.5 3 0.06 50 1.00

Calculando, en forma aproximada, los percentiles 25 y 75 (primer y tercer cuartil):

P25 = 60 + (67-60) [(0.25-0.20)/(0.34-0.20)] = 62.49

Lic. Justa Caridad Huaroto Sumari. Pgina 10


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

El 25% de las personas pesan menos de 62.49 kilos.

P75 = 74 + (81-74) [(0.75-0.70)/(0.86-0.70)] = 76.18.

El 75% de las personas pesan menos de 76.18 kilos.

Con los dos cuartiles calcularemos el rango intercuartil.

RI = 76.18 - 62.49 = 13.69 kilos


Esto significa que, el 50% de las personas tienen pesos que varan entre 62.49 y 76.18 kilos

LA VARIANZA Y LA DESVIACIN ESTNDAR

Por las propiedades que posee, la varianza es el indicador de dispersin ms utilizado. Su


definicin se basa en la propiedad de mnimos cuadrados de la media. Si quisiramos evaluar qu
tan prxima se halla la media al conjunto de datos, tendramos que calcular un promedio de
distancias cuadrticas de los datos con respecto a la media. Ese promedio de distancias es
precisamente la varianza.
La varianza de un conjunto de N datos x1 , x 2 , ..., x N , que tienen una media , est definida
como
N

( xi ) 2

2 Var ( X ) = i 1

N
Es la media de los cuadrados de las distancias respecto a la media.

Ejemplo 25.- Calculando la varianza de los tres grupos del ej. 21

(1 3) 2 (2 3) 2 (3 3) 2 (4 3) 2 (5 3) 2
1
2
2 ; 22 50 ; 32 200.
5
Estos valores de las varianzas reflejan la concentracin o dispersin de los datos alrededor
de sus respectivas medias.
Los tres conjuntos muestran varianzas diferentes y medias diferentes. Qu se puede decir
comparando la dispersin? Siendo las medias diferentes, no podemos usar las varianzas
directamente. Ya veremos otro indicador de variabilidad que nos permita comparar la dispersin de
varios conjuntos de datos.

La raz cuadrada positiva de la varianza se llama DESVIACIN ESTNDAR ; esto es, 2 .


VARIANZA PARA DATOS AGRUPADOS

Si los datos estn agrupados en tablas de frecuencia, para calcular la varianza, se debe tomar en
cuenta el nmero de veces que se repite cada dato (caso discreto) o la frecuencia de cada marca de
clase (caso contnuo), de modo que:

Lic. Justa Caridad Huaroto Sumari. Pgina 11


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

(x x) f
i
2
i
Var ( X ) =
2 i 1

N
donde xi es el valor de la variable (caso discreto) o la marca de clase (caso continuo)

PROPIEDADES DE LA VARIANZA Y DE LA DESVIACIN ESTNDAR.-

La varianza es no negativa; es decir, 0 .


2
1)
2) La varianza de una constante es cero.
3) Si a los valores de la variable se le suma o se le resta una constante k , entonces la varianza
de los datos transformados es igual a la varianza de los datos originales; esto es

Var ( xi k ) Var ( xi )
Ejm 26: Para los datos 1, 2, 3, 4 ,5 es x 3 y 2 . Sea k=3. Los nuevos datos
2
x i 3 son 4, 5,
180
6, 7, 8 cuya media es 6 y cuya varianza es Var ( xi 3) 36 2 .
5
4) Si a cada uno de los datos se le multiplica por una constante k , entonces la varianza de los
datos transformados es igual a la varianza de los datos originales multiplicada por el cuadrado de la
constante; esto es,
Var ( kxi ) k 2Var ( xi ), donde k es una constante.

Datos, xi : 1, 2, 3, 4, 5 x 3 y 2 .
2
Ejm 27:
Sea k 5 . Los nuevos datos ( kxi ) son: 5, 10, 15, 20, 25, cuya media es 15 y su varianza es
1375
Var ( kxi ) 225 50 52 2
5
5) Si un conjunto de n datos ha sido dividido en r subconjuntos, cada uno de los cuales tiene
un tamao ni , una media x i y una varianza Si2 (i 1, 2, ..., r ) , en este caso la dispersin o
variabilidad del conjunto total se debe a la variabilidad dentro de cada subconjunto (intravarianza) y
a la variabilidad entre los diferentes subconjuntos (intervarianza).

Luego, S 2 Sdentro
2
Sentre
2
........ (*)
r

S 2
i i n
S 2
dentro M (S )
i
2 i 1
, donde Si2 es la varianza de cada subconjunto, ni es el
n
tamao de cada subconjunto, n es el conjunto total.
r

(x i x ) 2 ni
2
S entre Var ( xi ) i 1
, donde
n

x i es la media de cada subconjunto;


x es la media del conjunto total;
ni es el tamao de cada subconjunto.

Lic. Justa Caridad Huaroto Sumari. Pgina 12


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Reemplazando en (*) se tiene:


r r

Si2 ni (x i x ) 2 ni
S2 i 1
+ i 1

n n

Nota 1: Para el caso en que se tenga dos subconjuntos, con medias x1 , x 2 , tamaos n1 , n2 ,
varianzas S12 , S22 , respectivamente, entonces:
x n x 2 n2
x 1 1 , donde n n1 n2 .
n
S 2 n S22 n2 ( x x ) 2 n1 ( x2 x ) 2 n2
2
Sdentro 1 1 2
, Sentre 1
n n
de modo tal que S Sd Se .
2 2 2

Nota 2: Para dos subconjuntos de tamao n1 y n 2 que tienen medias iguales y varianzas S12 , S22 ,
respectivamente, la varianza total ser

S12 n1 S22 n2
S 2

n
Ejm 28: Descomposicin de la varianza

GRUPO Tamao Media Varianza


A 6 7.33 0.22
B 5 11.60 1.84
C 4 11.50 4.25
Conjunto 15 9.87 6.12

La media del conjunto es la media ponderada:


1
9.87 67.33 51160 .
. 41150
15
La varianza entre los grupos es la varianza de las medias:
2
S entre
1
15
67.33 51160
2
. 41150
2 2

. 9.87 4.28
2

La varianza dentro de los grupos es la media de las varianzas:


1
2
S dentro 60.22 5184 . 44.25 1.84
15
La varianza de la variable es igual a la suma de la intervarianza y la intravarianza.

DESVIACIN MEDIA

Para un conjunto de n datos, la desviacin media es la media de las desviaciones de los datos
respecto a su media, desviaciones en valor absoluto.

|
=|
=

Lic. Justa Caridad Huaroto Sumari. Pgina 13


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

DESVIACIN MEDIANA

Para un conjunto de n datos, la desviacin mediana es la media de las desviaciones de los datos
respecto a su mediana, desviaciones en valor absoluto.

=| |
=

Si se tuviera los datos agrupados en tablas de frecuencias, habra que multiplicar cada desviacin
por su respectiva frecuencia absoluta simple, tanto para el clculo de la desviacin media como para
la desviacin mediana.

COEFICIENTE DE VARIACION

Dos conjuntos de datos pueden tener una misma media. Analizando la dispersin, podemos
utilizar directamente la desviacin estndar para comparar la variabilidad en ambos conjuntos de
datos, ya que estas desviaciones han sido calculadas utilizando la misma media.
Cuando los promedios son diferentes, no se puede usar directamente las desviaciones tpicas
para comparar la variabilidad, puesto que stas han sido calculadas tomando en cuenta medias
diferentes.
Para comparar la variabilidad de grupos de datos que tienen diferentes medias, se usa otro
ndice de dispersin denominado coeficiente de variacin, el cual es una medida relativa de
dispersin, y est definido como el cociente entre la desviacin estndar y la media aritmtica:
s
CV x 100
X
Se expresa en porcentaje. El grupo de datos que tiene el menor coeficiente de variacin es el que
tiene la menor dispersin. Tambin se le usa para comparar la variabilidad de dos o ms conjuntos
de datos que estn expresados en unidades diferentes.
As, para los conjuntos vistos en el ejemplo 21, cuyas medias respectivas son 3, 15 y 30, y cuyas
varianzas son 2, 50 y 200 respectivamente, el coeficiente de variacin de cada conjunto es 0.47
(47%). Ahora podemos decir que, con respecto a la media, los tres conjuntos tienen igual dispersin
relativa.

MEDIDAS DE FORMA

Las medidas resumen relacionadas a la forma de una distribucin son de dos tipos:

i) Medidas de asimetra (o de sesgamiento)


ii) Medidas de apuntamiento (o de curtosis)

El grado en el cual la distribucin de frecuencias no es simtrica constituye su sesgo. El grado en el


cual el polgono de frecuencias no muestra una curva normal (apuntamiento moderado) es un
indicador de su agudeza o curtosis. Las medidas de asimetra y de apuntamiento se pueden obtener
a partir de las medidas resumen de posicin y de dispersin.

MEDIDAS DE ASIMETRA
La asimetra es el grado en que los datos se reparten de manera equilibrada por encima y por
debajo de una medida de tendencia central. Cuando la distribucin de los datos no es simtrica se
Lic. Justa Caridad Huaroto Sumari. Pgina 14
NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

dice que es sesgada. Una medida para el sesgo se obtiene con la diferencia media moda. Si la
diferencia es positiva, la curva tiene una cola a la derecha; si la diferencia es cero, la curva es
simtrica; si la diferencia es negativa, la curva tiene una cola a la izquierda.
Para comparar la simetra de dos o ms distribuciones, que pueden estar expresadas en
diferentes unidades, se estandarizan los sesgos, obtenindose la medida que se conoce como sesgo
de Pearson:
Media Moda
a1 =
Desv. estndar
Otra forma equivalente de expresar el sesgo de Pearson es mediante la relacin

3( Media Mediana )
Sesgo de Pearson = a2 =
Desv.estd .

Si el sesgo es igual a cero, la curva de distribucin es simtrica; si este valor es positivo, la curva
tiene una cola a la derecha; si la diferencia es negativa, la curva tiene una cola a la izquierda.

MEDIDAS DE APUNTAMIENTO O AGUDEZA

El coeficiente de curtosis de un grupo de datos, es una medida del apuntamiento o achatamiento de

su polgono de frecuencias; se define como

(0.5)( P75 P25 )


k - 0,263
P90 P10

(0.5)(P75 P25 )
En distribuciones normales el valor de es aproximadamente 0.263 resultando k
P90 P10
= 0. Es por ello que, si:

K > 0, la distribucin de frecuencias es leptocrtica


K < 0, la distribucin de frecuencias es platicrtica
K = 0, la distribucin de frecuencias es mesocrtica (curva normal).

ESTANDARIZACIN DE DATOS

Si en un conjunto de n datos, a cada uno de ellos se le resta su media y se le divide entre su


desviacin estndar, entonces se dice que los datos han sido estandarizados o tipificados.

Entonces, estandarizar los datos consiste en medir las distancias a la media, con relacin a la
variabilidad del grupo de referencia.

Los valores estandarizados permiten describir la posicin relativa de una medida particular
en un conjunto de datos y sirven para realizar comparaciones.

Lic. Justa Caridad Huaroto Sumari. Pgina 15


NOTAS DE CLASE: ESTADSTICA DESCRIPTIVA - FISI

Si los datos originales son x1 , x2 , , xn con media X y con desviacin estndar S, entonces
X
los datos estandarizados son z1 , z2 , , zn donde = , para i = 1, 2,, n.

El valor Zi determina la posicin de un dato particular con relacin a la media, medida en


desviaciones estndar. Si el valor de Zi es negativo, indica que el dato est por debajo de la media;
si es positivo, indica que el dato est por encima de la media.

Por las propiedades de la media y de la varianza se puede demostrar que un conjunto de


datos estandarizados o tipificados tiene media igual a 0 y varianza igual a 1.

Conociendo las puntuaciones estandarizadas se puede obtener el valor original:


xi x s x Z i

Ejemplo 30 (a):

En un curso de post grado, las calificaciones de un grupo de estudiantes tiene media 34,6 y
desviacin estndar 9,6. Javier pertenece a este grupo y su nota es 48. Cul es la ubicacin de
Javier en este grupo?
La nota estandarizada de Javier es Z = (48 34,6) / 9,6 = 1,4. Entonces, la nota de Javier se ubica
a 1,4 desviaciones estndar por encima de la media.

Ejemplo 30 (b):

En el aula A la nota de Estadstica es 13 y la desviacin estndar es 2, mientras que en el aula B las


notas de Estadstica tienen media 16 y desviacin estndar 1. Juan, que estudia en el aula A, obtuvo
la nota 12, y Pedro, que estudia en el aula B, obtuvo la nota 14. La nota estandarizada de Juan es ZJ
= (12-13)/2 = 0.5 y la de Pedro es ZP = (14-16)/1 = 2. Entonces, Juan est en mejor posicin en
su aula que Pedro en la suya.

Lic. Justa Caridad Huaroto Sumari. Pgina 16

You might also like