You are on page 1of 39

Mtodos Cuantitativos I

Psicologa UPV
Antofagasta
Estadsticos de tendencia central,
posicin, dispersin y forma.
Grficos estadsticos.
Marcelo Avalos Tejeda
Marzo de 2013

Estadsticos y parmetros
Los estadsticos (o estadgrafos) son nmeros
que resumen el conjunto de datos de una
muestra (p.e. el promedio).
Cuando esos nmeros se obtienen de una
poblacin, se les denomina parmetros.
Se clasifican en tres (o cuatro) tipos:
Tendencia central (TC).
Dispersin y posicin (DP).
Forma (F).

Estadsticos de tendencia central


Nos indican un valor de variable alrededor del
cual se concentran la mayora de las
observaciones.
Nos dan informacin acerca del comportamiento
esperado o ms comn del conjunto de datos.
Los tres ms utilizados son:
La moda.
La mediana.
La media aritmtica (o media a secas).

La moda
Se define como el valor de variable que presenta la ms alta
frecuencia.
Lo ideal es que exista slo una moda, pero eso no siempre sucede.
Cuando hay dos o ms modas, la distribucin de frecuencia se
denomina multimodal.
Aparte de los estadsticos de una tabla de frecuencia, es el nico
que puede calcularse en una variable nominal.
En las tablas con intervalos corresponde a la marca de clase del
intervalo modal.
xi

fi

pi

Pi

Mujer

20

0,4

40

Hombre

30

0,6

60

En esta distribucin, la moda es Hombre

La mediana
Se define como el valor de variable que presenta la observacin que
ocupa la posicin central en la distribucin.
Puede obtenerse en variables ordinales o mtricas, no en
nominales.
Para identificarla (o calcularla) se debe conocer cul es la posicin
central de la distribucin.
Esto se conoce como profundidad de la mediana y se define
como:
+1
=
2
Definimos la mediana, entonces, de la siguiente manera:
= =(+1)/2
La d es por deep: profundidad en ingls.

La mediana
Definimos la mediana, entonces, de la siguiente manera:
= =(+1)/2
Ntese que, si es impar, el resultado ser un valor entero; pero si
es par, entonces el resultado ser un valor intermedio entre dos
enteros.
Ante esto, para muestras de tamao par la mediana se define como
el promedio de los dos valores centrales.
En estos casos, la mediana tendr una profundidad inferior y una
superior:

+2
= ; =
2
2
Con lo que definimos la mediana de la siguiente manera:
=/2 + =(+2)/2
=
2

La mediana
Ejemplo: Nmero de hijos.
Tenemos un nmero par de observaciones ( = 50), por lo tanto:
=/2 + =(+2)/2 =50/2 + =(50+2)/2
=
=
2
2
=50/2 + =(50+2)/2 25 + 26
=
=
2
2
1+1 2
=
= =1
2
2
xi

fi

fai

pi

pai

Pi

Pai

20

20

0,4

0,4

40

40

15

35

0,3

0,7

30

70

10

45

0,2

0,9

20

90

50

0,1

1,0

10

100

Ntese que las profundidades 25 y 26


corresponden ambas a = 1.
En el caso de tablas de variables ordinales o
mtricas sin intervalos puede identificarse la
media sin necesidad de el clculo descrito.
Basta identificar el valor de variable en el que
Pi alcanza o supera el 50%.
En este caso Pa =0 =40 y Pa =1 =70,
por lo que sabemos que = 1.

La mediana
En el caso de tablas con intervalos, la mediana debe calcularse
utilizando la siguiente frmula:


2
= +

donde:
= lmite inferior del intervalo mediano.
= tamao de la muestra.
= frecuencia absoluta acumulada del intervalo bajo el mediano.
= frecuencia absoluta del intervalo mediano.
= amplitud del intervalo.
Para utilizarse se asume que todas las observaciones dentro del
intervalo mediano se distribuyen uniformemente: la distancia entre
cada observacin es igual a la amplitud del intervalo dividida por la
frecuencia de ste.

La mediana

En el siguiente ejemplo tenemos Pa(xci=1,5)=30 y Pa(xci=1,7)=70, por lo que


sabemos que la mediana se encuentra en el segundo intervalo.
As, tenemos:

50

15
25 15

2
2
= +
= 1,6 +
0,2 = 1,6 +
0,2

20
20

= 1,6 +

10
0,2 = 1,6 + 0,5 0,2 = 1,6 + 0,1 = ,
20

xi

xci

fi

fai

Pi

Pai

[1,4:1,6)

1,5

15

15

30

30

[1,6:1,8)

1,7

20

35

40

70

[1,8:2,0)

1,9

15

50

30

100

En esta ocasin la mediana


coincide con la marca de clase del
intervalo mediano, pero eso no es
siempre as.
Hay que hacer notar que si el Pa
del intervalo mediano es 50%, la
mediana coincidir con su lmite
superior.

La media aritmtica
Es un estadstico que slo puede calcularse en
variables mtricas.
Es el centro de gravedad de la distribucin de
frecuencias: la suma de los valores de las
observaciones bajo ella es igual a la de los valores
de las observaciones sobre ella.
Se define la media muestral como:

=1
=

En las tablas con intervalo se reemplaza por

La media aritmtica
xi

fi

20

15

10

Ejemplo: Nmero de hijos.

0 20 + 1 15 + 2 10 + 3 5
=1
=
=

50
0 + 15 + 20 + 15 50
=
=
=1
50
50

xi

xci

fi

[1,4:1,6)

1,5

15

[1,6:1,8)

1,7

20

[1,8:2,0)

1,9

15

Ejemplo: Altura en metros.

1,5 15 + 1,7 20 + 1,9 15


=1
=
=

50

22,5 + 34 + 28,5 85
=
=
= 1,7
50
50

Estadsticos de posicin
Separan la distribucin en segmentos de igual
porcentaje de observaciones.
Nos permiten saber qu tan lejanas en valor de
variable estn las observaciones a intervalos de
frecuencia regulares.
Con eso podemos hacernos una idea de la forma
de la distribucin.
Los tres ms utilizados son:
Cuartiles.
Deciles.
Percentiles o centiles.

Cuartiles
Dividen a la distribucin en cuatro secciones de
igual porcentaje de observaciones.
Son tres:
Cuartil 1 (Q1): valor de variable que deja bajo de s al
25% de las observaciones.
Cuartil 2 (Q2): valor de variable que deja bajo de s al
50% de las observaciones (coincide con la mediana).
Cuartil 3 (Q3): valor de variable que deja bajo de s al
75% de las observaciones.

Cuartiles
La profundidad del cuartil k se define como:
( + 1)/4.

En el caso de tablas con intervalos, el cuartil k debe


calcularse utilizando la siguiente frmula:


4
= +

donde, adems de lo definido para la media:


= nmero del cuartil.
= frecuencia absoluta acumulada del intervalo bajo el
crtico.
= frecuencia absoluta del intervalo crtico.

Cuartiles
Si la tabla es sin intervalos y la profundidad del cuartil en
cuestin no es un nmero entero, puede utilizarse la
siguiente frmula
+1
= +
( )
4
donde, adems de lo ya definido antes:
= valor de variable bajo el cuartil.
= valor de variable sobre el cuartil.
= frecuencia absoluta acumulada del valor bajo el
cuartil.

Cuartiles

En el siguiente ejemplo buscamos conocer el cuartil 3 (Q3).


tenemos Pa(xci=1,7)=70 y Pa(xci=1,9)=100, por lo que sabemos que Q3 se encuentra en el
tercer intervalo.
As, tenemos:

3
3 50

35

4
4
4
= +
3 = +
= 1,8 +
0,2

15
3 = 1,8 +

37,5 35
2,5
0,2 = 1,8 +
0,2 = 1,8 + 0,16 0,2 = 1,8 + 0, 3 = ,
15
15

xi

xci

fi

fai

Pi

Pai

[1,4:1,6)

1,5

15

15

30

30

[1,6:1,8)

1,7

20

35

40

70

[1,8:2,0)

1,9

15

50

30

100

Cuartiles
En el siguiente ejemplo buscamos conocer el cuartil 3 (Q3) de
la variable salario (en miles de pesos) en una muestra de 14
observaciones:
247 250 255 300 320 387 388 415 422 480 625 734 738 777

(+1)
4

3(14+1)
4

315
4

Tenemos
=
=
= 11,25; por lo que
sabemos que Q3 se encuentra entre la observacin 11 y la 12,
es decir, entre 625 y 734.
As, tenemos:
14 + 1
3 = 625 + 3
11 734 625
4
3 = 625 + 11,25 11 109
3 = 625 + 0,25 109 = 625 + 27,25 = ,

Deciles
Dividen a la distribucin en 10 secciones de igual
porcentaje de observaciones.
Son nueve:
Decil 1 (D1): valor de variable que deja bajo de s al 10% de
las observaciones.
Decil 2 (D2): valor de variable que deja bajo de s al 20% de
las observaciones.

Decil 5 (D5): valor de variable que deja bajo de s al 50% de


las observaciones (coincide con la mediana).

Decil 9 (D9): valor de variable que deja bajo de s al 90% de


las observaciones.

Percentiles
Dividen a la distribucin en 100 secciones de igual
porcentaje de observaciones.
Son noventa y nueve:
Percentil 1 (P1): valor de variable que deja bajo de s al 1%
de las observaciones.
Percentil 23 (P23): valor de variable que deja bajo de s al
23% de las observaciones.

Percentil 50 (P50): valor de variable que deja bajo de s al


50% de las observaciones (coincide con la mediana).

Percentil 89 (P89): valor de variable que deja bajo de s al


89% de las observaciones.

Deciles y percentiles
Para obtener deciles y percentiles se utilizan frmulas
similares a las de los cuartiles
La profundidad del decil o percentil k se define,
respectivamente, como:

+1
10

+1
100

En el caso de tablas con intervalos, el decil o percentil k


debe calcularse utilizando las siguientes frmula:
= +

10

= +

100

Deciles y percentiles
Si la tabla es sin intervalos y la profundidad del decil o
percentil en cuestin no es un nmero entero, puede
utilizarse la siguiente frmula
+1
= +

10
+1
= +
( )
100

Estadsticos de dispersin
Nos indican si las observaciones estn
cercanas o lejanas entre s.
Los ms utilizados son:
Desviacin estndar y varianza.
Coeficiente de variacin.
Rango intercuartlico (RIQ) y rango
semiintercuartlico (RSIQ).
Desviacin absoluta mediana (MAD) y desviacin
absoluta mediana normalizada (NMAD).

Desviacin estndar y varianza


La desviacin estndar (d.e.) de la muestra () se
define como el promedio de las desviaciones de las
observaciones respecto de la media de la muestra:

=1

=1

2
1

La varianza de la muestra (2) es el cuadrado de la


desviacin estndar:

2
2 2

=1
=1
2 = 2 =
=
1
1

Desviacin estndar y varianza


En una poblacin, la desviacin estndar se define en
forma anloga, pero cambia ligeramente la frmula:

=1

2
2

=1
=
=
2

La varianza de la poblacin (2) es el cuadrado de la


desviacin estndar:

2
2

=1
=1
2
2
= =
=
2

Ambos ndices de dispersin se utilizan junto a la media


cuando se describe una variable mtrica, aunque es la d.e.
la ms utilizada.

Desviacin estndar y varianza


Ejemplo: las notas finales en el curso de estadstica de una muestra de 9
estudiantes fueron las siguientes:
2,1; 5,1; 6,1; 5,1; 4,6; 6,1; 6,5; 5,0; 3,6
Sabiendo que su media es 4,91 obtenga la varianza y la d.e.
Utilizaremos la frmula breve, por lo que requerimos conocer =1 2.

2,1

4,41

5,1

26,01

6,1

37,21

5,1

26,01

4,6

21,16

6,1

37,21

6,5

42,25

5,0

25,00

3,6

12,96

Suma:

232,22

2 =
2 =

2
=1

2 232,22 9 4,912
=
1
91

232,22 216,9729 15,2471


=
= ,
8
8

Aplicando la raz cuadrada a la varianza podemos obtener la d.e.:

= 2 =

1,9058875 ,

Coeficiente de variacin
Una de las desventajas de la desviacin estndar y de
la varianza es que su valor (y, por ende, su
interpretacin) depende de la escala de la variable.
Otra desventaja es que estn expresadas en la unidad
de la variables (cms, pesos, gramos, etc), por lo que no
permiten comparar la dispersin de dos variables
distintas.
El coeficiente de variacin (cv) expresa la relacin entre
el tamao de la media y de la d.e., expresando esta
ltima como proporcin o porcentaje de la primera:

=
=
100

RIQ y RSIQ
Ambas son medidas de dispersin que se utilizan junto a la
mediana cuando se describe una variable mtrica.
El RIQ es la diferencia entre el Q3 y el Q1. Nos indica la distancia
que contiene al 50% central de la distribucin:
= 3 1
El RSIQ es la mitad del RIQ, que podramos considerar un
homlogo a la d.e. para la mediana:
3 1
=
2
Otras medidas de dispersin utilizadas son el rango percentil 1090 y el rango percentil 5-95, que indican la distancia entre estos
percentiles.
Todas estas medidas son tiles cuando existen algunos valores
extremos que distorsionan la media y/o la desviacin estndar.

CV, RIQ y RSIQ


Ejemplo: conocidas la media y la d.e. de las notas finales en el curso de estadstica
de un grupo de 9 estudiantes, podemos obtener el coeficiente de variacin de
este grupo:
1,3805
=
=
,

4,91
Para calcular el RIQ y el RSIQ necesitamos conocer los cuartiles 1 y 3:

2,1

3,6
4,6

Q1=4,1

5,0

9+1
9+1
=1
= 2,5 ; 3 = 3
= 7,5
4
4
Entonces:
= 6,1 4,1 =

5,1
5,1
6,1
6,1
6,5

Q3=6,1

6,1 4,1
=
2

MAD y NMAD
Comparten con el RIQ, el RSIQ y los rangos
percentiles mencionados anteriormente la
propiedad de ser robustos ante valores
extremos.
La MAD (median absolute deviation:
desviacin absoluta mediana) se define como
la mediana de las desviaciones absolutas
respecto de la mediana:
= ( () )

MAD y NMAD
Se puede utilizar la MAD para estimar la
desviacin estndar si la multiplicamos por
una constante k:

Para el caso de la distribucin normal esa
constante es 1,4826; obteniendo la desviacin
absoluta mediana normalizada (NMAD):
= 1,4826

MAD y NMAD

2,1
3,6

Ejemplo: ordenando las notas finales en el curso de estadstica de un grupo


de 9 estudiantes, podemos conocer la mediana (Md) y las desviaciones
absolutas (DA) respecto de ella:
9+1
=
= 5 = , ; = ()
2
Ordenamos las desviaciones absolutas y obtenemos su
mediana, que presenta la misma profundidad que la mediana

3,0
de los datos originales ya que es el mismo conjunto de
0,0
1,5
0,0
observaciones:

4,6

0,5

0,1

5,0

0,1

0,5

5,1

0,0

1,0

5,1

0,0

1,0

6,1

1,0

1,4

6,1

1,0

1,5

6,5

1,4

3,0

= = 5,1
= =
Obtenida la MAD podemos ahora hacer lo propio con la NMAD:
= 1,4826 MAD = 1,4826 1 = ,

Algunos comentarios sobre los ndices


de tendencia central y de dispersin
Podemos observar en estos ejemplos que de todas las medidas de
dispersin basadas en la mediana, es la NMAD la que ms se aproxima a la
d.e., por lo que es preferible a las dems si pretendemos estimar esta
ltima.
Si existen valores alejados a ambos extremos la media no se ve tan
afectada y puede ser confiable, pero la d.e. se amplifica y deja de serlo.
Si existen valores alejados slo en un extremo la media tambin deja de
ser confiable, ya que se aleja del centro de la distribucin, acercndose
hacia el extremo en cuestin.
En resumen: en caso de presencia de valores alejados, la media y la d.e.
son malos descriptores para una variable mtrica, por lo que debisemos
utilizar en estos casos la mediana y el NMAD.
As, la media y la d.e. son preferibles cuando la distribucin NO presenta
valores alejados, mientras que la mediana y la NMAD son preferibles en el
caso contrario ya que son robustas ante la presencia de estos valores.

Estadsticos de forma
Nos indican el grado en que la forma de la
distribucin de frecuencias se asemeja a la
distribucin normal.
Son slo dos:
Asimetra (skewness).
Apuntamiento o curtosis (kurtosis)

Para ambas existe ms de una frmula, que no


son equivalentes entre s.

Asimetra
Si dividimos cualquier distribucin por un punto de referencia
central (eje de simetra) y comparamos ambas partes, la
distribucin ser simtrica si ambas partes parecen el reflejo de la
otra, mientras que ser asimtrica en caso contrario.
En general, se observa asimetra cuando existen valores alejados en
una cola de la distribucin.
Si estos valores se alejan hacia abajo de la media, se denomina
asimetra negativa.
Si estos valores se alejan hacia arriba de la media, se denomina
asimetra positiva.

Apuntamiento o curtosis
Es una medida de forma que nos informa si la
dispersin de la distribucin es mayor o menor que la
esperada para un distribucin normal.
Si la dispersin es menor, la distribucin presentar
una forma apuntada, denominndose leptocrtica.
Si la dispersin es normal se denomina mesocrtica.
Si la dispersin es mayor, la distribucin presentar una
forma aplanada, denominndose platicrtica.

Asimetra y curtosis
Existen diversos ndices para calcular la asimetra y la
curtosis, pero revisaremos slo uno de cada uno.
Definimos el ndice de asimetra como:
3/
3 =
3
Si 3 < 0, la asimetra es negativa. Si 3 > 0, es positiva.
Si 3 = 0, es simtrica.
Definimos el ndice de curtosis como:
4/
4 =
3
4

Si 4 < 0, la distribucin es platicrtica. Si 4 > 0, es


leptocrtica. Si 4 = 0, es mesocrtica.

Asimetra y curtosis
Continuando con el ejemplo de las notas de estadstica de una muestra de
9 alumnos, sabemos que = 4,91 y = 1,38.
Calculamos, entonces, la asimetra:
3/ 17,061/9 1,896
3 =
=
=
= ,
3
1,383
2,628
Podemos concluir que la distribucin presenta asimetra negativa

2,1

-22,188

62,348

3,6

-2,248

2,945

4,6

-0,030

0,009

5,0

0,001

0,000

5,1

0,007

0,001

5,1

0,007

0,001

6,1

1,685

2,005

6,1

1,685

2,005

6,5

4,020

6,391

-17,061

75,705

Suma:

Calculamos ahora la curtosis:


4/
75,705/9
4 =

3
=
3
4
4

1,38
8,412
4 =
3 = 2,319 3 = ,
3,627
Podemos concluir que la distribucin es platicrtica.
Ntese que en este ejemplo ambos ndices
presentan magnitudes menores a la unidad.
Podemos decir, entonces, que tanto la asimetra
como la curtosis (negativas ambas) son leves.

Puntuaciones directas, diferenciales y


tpicas
La puntuacin directa es la atribuida a cada objeto al ser
sometido a cualquier medicin. Nos indica el grado en que
un objeto presenta una caracterstica.
La puntuacin diferencial es la puntuacin directa menos la
media u otro ITC. Nos indica cunto se desva un objeto
(magnitud) del centro y en qu direccin (signo).
La puntuacin tpica es la puntuacin diferencial dividida
por la d.e. Nos permite valorar la desviacin de un objeto
independiente de la escala (unidad) de las variables. Se
representa con la letra z minscula.
Puntuacin directa:
Puntuacin diferencial:

Puntuacin tpica:

-1

-3

= ( )/

0,5

-0,5

-1,5

1,5

Puntuacin tpica (z)

La puntuacin , dada su definicin, puede entenderse como la cantidad de


desviaciones estndar a las que un sujeto se encuentra de la media de su grupo.
Gracias a que respeta el signo de la diferencia, nos informa tambin acerca de la
direccin de esa desviacin.
Si consideramos que la media es el comportamiento normal (estadsticamente
hablando), podemos saber qu tan normal o desviada es una observacin.
Aquellas observaciones que se encuentran a menos de una d.e. de la media se
consideran normales.
Aquellas que se encuentran entre una y dos d.e. se consideran normales altas o
normales bajas (segn sea la direccin de la desviacin).
Aquellas que se encuentran a ms de dos d.e. se consideran anormales o
desviadas.
El correlato psicosocial de la desviacin estadstica suelen ser la discriminacin o
segregacin (de los normales hacia los desviados), o la autosegregacin (los
desviados simplemente no estn interesados en integrarse).

You might also like