You are on page 1of 20

Probabilidad y Estadstica Descriptiva

UNIDAD N3: REGRESIN Y CORRELACIN

Anlisis de regresin y correlacin

Hasta ahora nos hemos centrado en el estudio de una sola variable de respuestas numricas y
hemos aprendido a calcular o describir la variable en estudio mediante las medidas descriptivas.
Ahora centraremos nuestro estudio a dos variables numricas. Estudiaremos la relacin que hay
o no entre ellas y el grado de asociacin.
Con el anlisis de regresin observaremos si existe relacin entre las variables en estudio y de
que tipo es esa relacin.
El estudio de regresin se utiliza principalmente para hacer predicciones sobre los valores de
una variable que llamamos dependiente o de respuesta (Y) basada en los valores de otra variable
llamada independiente o explicativa (X).
En cambio, con el anlisis de correlacin simple, medimos la intensidad de esa relacin o
asociacin entre las variables numricas.

REGRESION
Diagrama de dispersin

Como tenemos dos variables, tendremos pares de valores (X,Y). El grafico para representar
estos pares de valores se llama diagrama de dispersin o diagrama de nubes de puntos.
En el eje de las abscisas colocamos la variable independiente y el eje de las ordenadas la
variable dependiente.
Veamos un ejemplo: al gerente de una compaa que fabrica autopartes le gustara realizar un
modelo estadstico para estimar el nmero de horas-trabajador requeridas para elaborar lotes de
tamaos variables. Se selecciono al azar 10 obreros y se obtuvieron la cantidad de lotes
elaborados con horas-trabajador. Con este ejemplo queremos desarrollar un modelo para
predecir la cantidad de horas-trabajador (Y), variable dependiente, basndonos en el tamao del
lote (X), variable independiente. Resulta la siguiente tabla:

Produccin
Obreros Tamao del lote (X) Horas-trabajador (Y)
1 30 73
2 32 67
3 40 87
4 47 95
5 50 108
6 55 112
7 60 128
8 64 135
9 70 148
10 75 160

1
Probabilidad y Estadstica Descriptiva

El diagrama de dispersin ser:

El diagrama de dispersin nos da una idea de tipo de relacin que tienen las variables. En
nuestro caso, la variable dependiente aumenta a medida que aumenta la variable independiente;
es decir, que a medida que aumenta el tamao del lote aumenta la cantidad de horas-trabajador.
Observamos que la nube de puntos nos da una idea que los puntos siguen la forma de una recta
lineal que llamamos recta de regresin lineal simple.

Distintos tipos de modelos de regresin

Podemos encontrarnos con diagramas de dispersin que nos muestren otros tipos de regresin,
con funciones matemticas ms complejas.
La relacin ms sencilla es una relacin lineal, por ejemplo:

Y
y
x
0

El modelo lineal (lnea recta) puede representarse como:

Y = 0 + i + 1
donde

0 = la interseccin Y para la poblacin


i = pendiente de la poblacin
1= error aleatorio en Y para la observacin

2
Probabilidad y Estadstica Descriptiva

En el modelo que vemos, 1 me indica la pendiente de la recta, representa el cambio indicado en


Y por unidades de cambio en X, es decir que representa la cantidad que cambia la variable Y
(sea esta positiva o negativa) con respecto a una unidad de cambio particular en X.
La interseccin con el eje Y (0) representa el valor promedio de Y cuando X es igual a cero.
1 representa el error aleatorio en Y por cada observacin i que se presenta.
El modelo matemtico apropiado que se debe seleccionar esta influenciado por la distribucin
de los valores X e Yen el diagrama de dispersin.
Podemos encontrarnos con diagramas de dispersin como se presentas a continuacin:
1)

Observamos que los valores Y aumentan a medida que incrementa X, la relacin es lineal y
positiva.

2)

En la medida que X aumenta va disminuyendo laos valores Y, tenemos una relacin lineal y
negativa.

3)

Muestra un grupo de datos en los cuales hay muy poca o no hay relacin en la variables X e Y,
observamos valores altos y bajos de Y para cada valor de X.

3
Probabilidad y Estadstica Descriptiva

4)

Nos muestra curvilnea positiva entre X e Y. Los valores de Y aumentan al incrementarse los
valores de X, pero este incremento disminuye cuando se sobrepasan ciertos valores de X.

5)

Se muestra una relacin parablica entre X e Y. vemos que x aumenta, al principio y disminuye,
pero que a medida que X sigue incrementndose Y no solamente deja de disminuir sino que en
realidad aumenta por encima de su valor mnimo.

6)

Se presenta una relacin exponencial o curvilnea negativa. Y disminuye muy rpidamente en la


medida que X aumenta inicialmente, pero luego su disminucin se hace mas lenta conforme X
sigue aumentado.

Ecuacin de regresin lineal

El problema que debe enfrentarse en el anlisis de regresin implica la determinacin del


modelo particular de lnea recta que se ajusta mejor a los datos.
Como generalmente trabajamos muestras aleatorias de la poblacin y ciertas suposiciones que
veremos mas adelante, son validas (lineal, normalidad, independencia).
La ecuacin de regresin de la muestra que representa al modelo de regresin lineal es:
i = b0 + b1Xi
i = valor predicho de Y para observaciones i
b0 = interseccin con Y
b1 = la pendiente
4
Probabilidad y Estadstica Descriptiva

Cuando se han obtenido b0 y b1 ya se conoce la lnea de regresin y puede ser graficada en el


diagrama de dispersin; realizado esto observaremos si los datos originales estn cerca o lejos
de la recta. Recordaremos que el anlisis de regresin lineal tiene que ver con encontrar la recta
que mejor me ajusta los valores; buscar esta recta es minimizar las distancias de cada punto a la
recta de regresin. Como estas diferencias son positivas y negativas para las diferentes
observaciones, minimizaos matemticamente la expresin:
(Yi - i)2
en la Yi que es el valor real de Y para la observacin i ; la i es el valor predicho de Y para la
observacin isima. Reemplazando i queda:
[Yi (b0 + b1Xi)]2
donde las incgnitas son b0 y b1.

Mtodo de mnimos cuadrados

El mtodo de mnimos cuadrados es la tcnica matemtica utilizada para determinar los valores
de b0 y b1 que mejor se ajusta a los datos observados. Al utilizar el mtodo de los mnimos
cuadrados obtenemos dos ecuaciones conocidas como ecuaciones normales. Las resolvemos y
obtenemos las siguientes formulas:

XiYi n X Y
b1 =
Xi2 n X2

b0 = Y - b1X
donde
Yi Xi
Y= y X= n
n

La pendiente b1 representa el cambio estimado en Y por un incremento unitario en X y


b0 la ordenada al origen y es el valor de Y donde la recta de mejor ajuste corta al eje vertical Y.
Ejemplo: un contador que trabaja para una fbrica de automviles desea desarrollar un modelo
estadstico para predecir el tiempo de entrega (la cantidad de das transcurridos desde el pedido
de un automvil y la entrega real del mismo) de los pedidos de automviles nuevos. El
profesional piensa que existe una relacin lineal entre el nmero de opciones pedidas y el
tiempo de entrega. Se selecciona una muestra aleatoria de 16 automviles, con los resultados
obtenidos se pide:
a) Construya un diagrama de dispersin.-
b) Calcule los coeficientes de regresin, b0 y b1.-
c) Interprete el significado de la interseccin con el eje Y ( b0) y la pendiente (b1) de este
problema.-
d) Si se tiene un pedido de un automvil con 18 opciones Cuntos das predecir usted
que tardar la entrega?

5
Probabilidad y Estadstica Descriptiva

Automviles N de opciones pedidas (X) Tiempo de entrega en das(Y)


1 3 25
2 4 32
3 4 26
4 7 38
5 7 34
6 8 41
7 9 39
8 11 46
9 12 44
10 12 51
11 14 53
12 16 58
13 17 61
14 20 64
15 23 66
16 25 70

N X Y X2 Y2 XY
1 3 25 625 75
2 4 32 1024 128
3 4 26 676 104
4 7 38 1444 266
5 7 34 1156 238
6 8 41 1681 328
7 9 39 1521 351
8 11 46 2116 506
9 12 44 1936 528
10 12 51 2601 612
11 14 53 2809 742
12 16 58 3364 928
13 14 61 3721 1037
14 20 64 4096 1280
15 23 66 4359 1518
16 25 70 4900 1750
Total 192 748 2988 38029 10391

6
Probabilidad y Estadstica Descriptiva

Calculamos la media de X e Y:
Yi 748 Xi 192
Y= = = 46,75 X= = = 12
n 16 n 16
Luego:

XiYi n X Y
b1 =
Xi2 n X2
10391 (16). (12). (46,75)
b1 =
2988 16. (144)

10391 - 8976 1415


b1 = = = 2,069 2,07
2988 - 2304 684

b0 = Y - b1X

b0 = 46,75 2,07 (12) = 46,75 24,84 = 21,91


Ahora podemos definir nuestra recta de mejor ajuste:

i = b0 + b1Xi
i = 21,91 + 2,07 Xi
c) Si los automviles no tienen aditamentos, el tiempo de entrega tiene un promedio de 22 das
aproximadamente; por cada aditamento pedido el tiempo de entrega aumenta en 2,07 das.

d) i = 21,91 + 2,07 Xi
i = 21,91 + 2,07 (18)
i = 21,91 + 37,26 = 59,17 das
Como se ha dicho, uno de los objetivos mas importantes por lo que obtiene una ecuacin de
regresin, es de hacer predicciones. Una vez establecida una relacin lineal y conociendo el
valor de la variable X es posible predecir un valor de Y, mediante i , como se ha visto en el
punto c) del ejemplo.
Al hacer predicciones con base en la recta del mejor ajuste, es necesario observar las siguientes
restricciones:
1) La ecuacin debe usarse para hacer prediccin solo acerca de
la poblacin de la cua se extrajo la muestra.
2) La ecuacin debe usarse solo dentro del dominio muestral de
la variable X. En este caso entre 3 y 25 numero de opciones de pedidos.
3) Si la muestra fue tomada ahora, no espere que los resultados
sean validos para el ao 1990 o el 2005. Las situaciones de esos aos pueden ser
distintas al actual.

7
Probabilidad y Estadstica Descriptiva

El error estndar de estimacin

Se ha visto que hemos utilizado el mtodo de mnimo cuadrados para estimar la recta de
regresin lineal de mejor ajuste, que con este mtodo minimizbamos las variaciones de los
puntos a la recta, pero esta recta no es pronosticador perfecto, salvo que todos los puntos caigan
sobre la recta de regresin.
Como no podamos predecir que todos los puntos caigan sobre la recta de regresin y esta solo
nos sirve para poder predecir en forma bastante aproximada un valor de Y dado X, debemos
desarrollar un estadstico que nos mida la variabilidad de los valores reales de Yi a partir de sus
valores predichos, como hacemos con el desvi estndar para calcular la variacin de cada
observacin con su media. La medida de variabilidad alrededor de la lnea de regresin se
conoce con el nombre de error estndar de la estimacin.
Cuando trazamos la recta de regresin predicha de mejor ajuste, observamos que hay muchos
puntos que caen sobre ella, otro por debajo y otro por encima; de este modo:
(Yi ) = 0
El error estndar de la estimacin, que simbolizamos Sxy, ser:


(Yi - i)2
Sxy =
n-2

donde Yi = valor real de Y para un valor dado de Yi.


i = valor predicho de Y para un valor dado de Xi.
Pero sabemos que:
(Yi - i)2 = Yi2 b0 Yi b1 XiYi
Reemplazamos en la formula anterior tendremos una formula ms sencilla para el clculo, que
ser:


Yi2 b0 Yi b1 XiYi
Sxy = n-2


38029 (21,91 * 748) (2,07*10391)
Sxy = = 3,06
16 - 2

8
Probabilidad y Estadstica Descriptiva

La interpretacin del error estndar de la estimacin, es anloga a la desviacin de la media, el


error estndar de la estimacin mide la variabilidad alrededor de la lnea de regresin ajustada.
Mas adelante veremos que el Sxy, error estndar de la estimacin se utiliza para hacer
inferencias.

Mediacin de la variacin en regresin

Para medir que tan bien una variable independiente predice a la variable dependiente en nuestro
modelo estadstico es necesario desarrollar alguna medida de variacin.
La primera de ella que veremos es la SUMA TOTAL DE CUADRADOS (SCT) que es una
medida de la variacin de los valores Yi alrededor de su media Y.
En el anlisis de regresin, la suma total de cuadrados (SCT) puede dividirse en la variacin
explicada o tambin llamada SUM DE CUADRADO DEBIDO A LA REGRESION (SCR), que
se puede atribuir a la relacin entre la variable X e Y.
La variacin no explicada o SUMA DE CUADRADO DE ERROR (SCE), que se puede atribuir
a factores diferentes a la relacin entre X e Y. en un grafica seria:

Yi i = b0 + b1Xi
SCE
SCT
SCR
Y

Xi
La SCR representa la diferencia entre Y (promedio de la variable Yi) y i (el valor promedio de
Y que sera predicho a partir de la relacin de regresin.
La SCE representa aquella parte de la variacin de Y que no es explicada por la regresin. Estas
basadas en la diferencia entre el punto Yi y la recta estima i.
Estas medidas de variacin las podemos ahora representar de la siguiente manera:

SCT = SCR + SCE


Donde

SCT = (Yi Y)2 = Yi2 n Y2

SCE = (Yi )2 = Yi2 b0 Yi b1 YiXi


Y adems

SCR = (i Y)2 = b0 Yi b1 YiXi n Y2


Que surge de hacer:
SCR = SCT - SCE
9
Probabilidad y Estadstica Descriptiva

El coeficiente entre SCR y SCT determina lo que llamamos el Coeficiente de determinacin,


que simbolizamos con r2.
Entonces
SCR
r2 =
SCT
Este coeficiente mide la porcin de variacin que es explicada por la variable independiente del
modelo de regresin.
En nuestro ejemplo, esto sera:
SCT = Yi2 n Y2
= 38029 - 16 (46,75)2
= 38029 - 16 * 2185,56
= 38029 - 34968,96
SCT = 3057,04

Calculamos ahora CSR:


SCR = b0 Yi b1 YiXi n Y2
= (21,92) * 748 + (2,07) * 10391 16 * (2185,56)
= 16396,16 + 21509,37 34968,96
SCR = 2936,57
Luego:
SCR 2936,57
r2 = = = 0,9572
SCT 3057,04

Nos indica que el 95,75% de la variacin del tiempo de entrega puede ser explicado por la
variacin en el nmero de aditamentos pedidos.
Adems este valor tan alto me esta indicando que existe una fuerte relacin entre las variables
estudiadas, puesto que el uso de un modelo de regresin ha reducido la variabilidad en la
prediccin del tiempo de entrega en 95,72%. Solamente el 4,28% de la variabilidad de la
muestra puede explicarse mediante factores diferentes a los del mtodo de regresin lineal.

CORRELACIN

Correlacin es el estudio de grado o intensidad de la relacin que existe entre dos variables, es
decir que la correlacin tiene que ver con relacin con la relacin y la intensidad de esa relacin
entre dos variables.

Clases de correlacin

Las correlaciones se clasifican desde distintos puntos de vistas:


1) Teniendo en cuenta los fenmenos que relacionan, la
correlacin es simple, mltiple o parcial.
2) Segn la expresin que manifiesta la tendencia de la
correlacin, puede ser lineal o no lineal.
3) Segn el signo la correlacin puede ser positiva o directa y
negativa o indirecta.
4) Segn la cantidad de relacin entre los fenmenos que
estudiamos, las correlaciones pueden ser perfectas, imperfectas o nulas.

10
Probabilidad y Estadstica Descriptiva

El diagrama de dispersin

Es la expresin ms usada por ser la ms expresiva para interpretar la correlacin. Consiste en


un cuadro de doble entrada, una de las series de los resultados se inscribe verticalmente y la otra
en sentido horizontal. Cada alumno se halla representado por un trozo, que se sita en el punto
en que coinciden, segn las puntuaciones, las dos series. Por ejemplo, los resultados obtenidos
en 24 alumnos tomados al azar, de los 110 de la muestra, se les aplica el Test de Inteligencia de
Terman, que como sabemos da su calificacin en aos de edad mental y en la variable X
colocamos las puntuaciones obtenidas.

En la tabla siguiente damos las Calificaciones de 24 alumnos ordenadas segn las puntuaciones
obtenidas en la prueba de Instruccin.

Alumno Instruccin X Inteligencia Y


1 50 15
2 45 15
3 46 14
4 40 14
5 36 14
6 38 13
7 35 13
8 30 13
9 25 13
10 40 12
11 34 12
12 30 12
13 27 12
14 22 12
15 35 11
16 30 11
17 25 11
18 23 11
19 20 11
20 25 10
21 20 10
22 17 10
23 15 9
24 12 9

Donde

X = 29,92 puntos Y = 11,92 puntos

11
Probabilidad y Estadstica Descriptiva

El diagrama de dispersin ser el siguiente:

Test de Inteligencia Y

18
16
14
12
10
8
6
4
2
0 5 10 15 20 25 30 35 40 45 50

Prueba de Instruccin X

Como podemos apreciar hemos trazado por los puntos de X e Y, los valores de cada una de sus
medias, con lo que la distribucin nos ha quedado dividida en cuatro cuadrantes:

(+y, -x), (-x, +y). (-y, +x), (-x, +y)

De ste modo podemos apreciar que:

Que por ser correlacin alta, aunque imperfecta, la mayora de los sujetos se encuentran por
encima de la media de una de las variables y tambin por encima de la media de la otra variable
y viceversa, que la mayora de los sujetos que se encuentran por debajo de la media de una
variable, tambin se encuentran por debajo de la media de la otra variable. En los otros dos
cuadrantes en donde una variable es positiva y la otra negativa, se encuentran otros sujetos. Los
pocos alumnos que se encuentran en donde las variables tienen distintos signos representan
algo no corriente o anormal, debe indagarse el motivo que lo produce.

Por ejemplo vemos que el alumno que ocupa el lugar 15 de nuestra tabla, ha superado en
bastante con su instruccin a su inteligencia y por consiguiente tiene un extraordinario
rendimiento.

Se ve claro, que en ste alumno operan factores que compensan su menor inteligencia, tales
como voluntad fuerte, gran inters, enseanza muy adaptada o ambiente familiar muy favorable,
etc., haciendo que su cociente de rendimiento sea muy alto.

En cambio, los alumnos situados en el otro cuadrante, (+y, -x), tienen una instruccin inferior de
lo que corresponde a su inteligencia. Por ejemplo, el alumno 9, manifiesta factores que impiden
el normal aprendizaje, quiz falta de escolaridad, o de adaptacin, o de salud o existen
dificultades en el hogar, etc.

En resumen el diagrama de dispersin adems de indicar el tipo y grado de correlacin seala


qu alumnos se separan o dispersan, invitando as al maestro a que se fije en esos casos que se
apartan de la correlacin para que comience a indagar:

12
Probabilidad y Estadstica Descriptiva

a) Qu significa esa separacin


b) Qu factores estn influyendo en ella
c) Cmo debe obrar en consecuencia

Como conclusin del diagrama de dispersin podemos decir que por medio de la ubicacin
de puntos de X e Y, establecemos qu tipo de correlacin existe. Veamos ejemplos:
Supongamos tener las tres distribuciones siguientes:

Alumno Test A Test B Alumno Test A Test C Alumno Test A Test D


X Y X Y X Y
1 2 9 1 10 10 1 10 10
2 3 8 2 9 9 2 2 9
3 4 7 3 8 8 3 7 8
4 5 6 4 7 7 4 1 7
5 6 5 5 6 6 5 3 5
6 5 4 6 5 5 6 2 5
7 1 4 7 4 4 7 9 4
8 7 3 8 3 3 8 5 3
9 8 2 9 2 2 9 8 2
10 9 1 10 1 1 10 6 1
Realizar los diagramas de dispersin correspondientes a stas distribuciones

El coeficiente de correlacin

La expresin numrica de la correlacin se denomina coeficiente de correlacin. El coeficiente


de correlacin que expresa una correlacin perfecta s igual a uno. Segn que la correlacin
perfecta sea positiva o negativa ser igual a ms uno o menos uno.
Si el coeficiente de correlacin es igual a cero significa que no existe correlacin entre las
variables.
Existe distintas formas para calcular el coeficiente de correlacin, pero todos se rigen por el
siguiente cuadro:
Tabla para el coeficiente de correlacin
De 0,0 a 0,20 Asociacin Indiferente
De 0,20 a 0,40 Asociacin Baja
De 0,40 a 0,70 Asociacin Marcada
De 0,70 a 1,0 Asociacin Alta

Calculo del coeficiente de correlacin de Pearson

El coeficiente e correlacin es independiente de las unidades de medicin. Es un nmero


abstracto. Representaremos el coeficiente de correlacin de Pearson r, y lo calcularemos
aplicando la siguiente formula:

XiYi n X Y
r=
Xi2 n X2 Yi2 n Y2

13
Probabilidad y Estadstica Descriptiva

Ejemplo: a un grupo de 10 estudiantes le aplicamos en una prueba de dibujo y otro de


imaginacin creador, nos interesa buscar la correlacin entre esas dos variables. Realizar el
diagrama de dispersin y obtener el coeficiente de correlacin de Pearson.

Alumnos Dibujo Imaginacin XY Xi2 Yi2


X Y
1 13 11 143 169 121
2 12 14 168 144 196
3 10 11 110 100 121
4 10 7 70 100 49
5 8 9 72 64 81
6 6 11 66 36 121
7 6 3 18 36 9
8 5 7 35 25 49
9 3 6 18 9 36
10 2 1 2 4 1
Total 75 80 702 687 784

75 80
X= Y=
10 10

X= 7,5 Y= 8

XiYi n X Y
r=
Yi2 n Y2 Xi2 n X2

702 10 * 7,5 * 8
r=
687 [10 * (7,52)] 784 [10 * (82)]

102
r= = 0,76
124,5 144

14
Probabilidad y Estadstica Descriptiva

Calculo de la correlacin por la frmula de Bravais Pearson

Otra forma de calcular la correlacin es mediante la frmula de Bravais Pearson, donde las
correlaciones estn tomadas de la medias de ambas distribuciones, su frmula es:

Zx Zy
Br =
(Zx)2 * (Zy)2
Este procedimiento queda abreviado cuando se conoce de antemano la desviacin tpica de cada
serie de la muestra, entonces la frmula dada se sustituye por:

Zx Zy
Br =
n Sx S y

Ejemplo: queremos calcular la correlacin entre los puntajes tomados por 12 adultos en dos test
de asociacin controlada.

Sujetos Test1 (X) Test2 (Y) Zx Zy (Zx)2 (Zy)2 Zx Zy


A 50 22 -12,5 -8,42 156,25 70,9 105,25
B 54 25 -8,5 -5,42 72,25 29,38 46,07
C 56 34 -6,5 3,58 42,25 12,82 -23,27
D 59 28 -3,5 -2,42 12,25 5,86 8,47
E 60 26 -2,5 -4,42 6,25 19,54 11,05
F 62 30 -0,5 -0,42 0,25 0,18 0,21
G 61 32 -1,5 1,58 2,25 2,5 -2,37
H 65 30 2,5 -0,42 6,25 0,18 -1,05
I 67 28 4,5 -2,42 20,25 5,86 -10,89
J 71 34 8,5 3,58 72,25 12,82 30,43
K 71 36 8,5 5,58 75,25 31,14 47,43
L 74 40 11,5 9,58 132,25 91,78 110,17
Total 750 365 ----------- ----------- 595 282,96 321,5

15
Probabilidad y Estadstica Descriptiva

750
M(x) = 12 = 62,5
321,5
Br = = 0,78
365
595 * 282,96
M(y) = 12 = 30,42

Coeficiente de correlacin por rango o coeficiente de correlacin de Spearman

Consiste en:
a. Convertir las puntuaciones ordinales a posicin de orden o rango, asignando un rango
de uno al puntaje menor, un rango de dos al siguiente y as sucesivamente, el puntaje
mayor tendr un rango igual a n. esto se hace para ambas variables.
b. Calculamos el coeficiente de Spearman entre rangos.
Tenemos d que es la diferencia entre los rangos que han comprendido a cada una de las
unidades de observaciones. Este coeficiente, al igual que los anteriores varia entre -1 y 1
y Sr=0 indica ausencia de correlacin.

6 * d2
Sr = 1-
n * (n2-1)

Ejemplo: tenemos las notas de evaluacin de 15 alumnos en matemticas y lectura:

Alumnos Matem.(X) Lect.(Y) Rango d d2


X Y X-d
A 42 47 2 2 0 0
B 52 55 6 8 -2 4
C 41 57 1 9 -8 64
D 56 50 7 4 3 9
E 45 43 4 1 3 9
F 48 49 5 3 2 4
G 57 61 8 12 -4 16
H 64 63 14 13 1 1
I 61 58 11 10 1 1
J 59 54 9 7 2 4
K 60 59 10 11 1 1
L 44 51 3 5 -2 4
M 62 65 12 14 -2 4
N 63 53 13 6 7 49
Total ----------------- ---------------- --------- -------- ------------- 170

6 * 170
Sr = 1 -
14 * (142 1)

16
Probabilidad y Estadstica Descriptiva

Sr = 0,63

Asociacin de variable para medicin en escala nominal

Para este anlisis recurrimos a las tablas de doble entrada o tabla de contingencia, ya vistas, en
donde una variable era dispuesta en fila y la otra en columna.
A pesar de que tan solo el anlisis de la tabla puede sacar una conclusin, se hace necesario
calcular un coeficiente de asociacin que nos indicara el grado de asociacin de dos atributos.
El coeficiente de asociacin entre dos atributos es el Q de Kendall, que lo calculamos para
tablas de 2X2. Se lo define como:
A B
A*DB*C
Q=
C D A*D+B*C

Veamos un ejemplo: se realiza un estudio sobre una muestra de hogares para ver el rendimiento
escolar de nios en funcin de si la madre trabaja o no. Resulto la siguiente tabla:
rendimiento La madre trabaja Total
Si No
Bueno 37 51 88
Regular 12 14 26
Total 49 65 114
37 * 14 51 * 12
Q= = -0,08
37 * 14 + 51 * 12
Coeficiente de contingencia

Veamos un ejemplo: un grado que esta integrado por 33 alumnos a sido clasificado en lectura y
escritura con muy bueno (MB), bueno (B), regula (R) y malo (M). Esos 33 alumnos estn
distribuidos como indica la siguiente tabla:
Lectura
M R B MB Total
MB 0 0 2 4 6
Escritura

B 0 1 4 2 7
R 2 5 3 0 10
M 6 3 1 0 10
Total 8 9 10 6 33

En esta tabla podemos observar como se distribuidos las notas. Para hallar el coeficiente de
contingencia, se halla el cuadrado de cada nmero que expresa los alumnos que han obtenido
determinada calificacin y se divide por el producto de los totales de fila por columna
obtenemos de esta manera la siguiente tabla:

17
Probabilidad y Estadstica Descriptiva

Lectura
M R B MB Total
MB 0 0 22
42

10*6 6*6
B 0 12 42 22
Escritura

9*7 10*7 6*7


R 22 52 32 0
8*10 9*10 10*10
M 62 32 12 0
8*10 9*10 10*10

Resolviendo cada casillero de la tabla, tenemos:


Lectura
M R B MB Total
Escritura

MB 0 0 0,066 0,444 0,510


B 0 0,015 0,228 0,095 0,338
R 0,050 0,277 0,090 0 0,417
M 0,450 0,100 0,010 0 0,560
Total 0,500 0,392 0,394 0,539 1,825

El clculo de coeficiente de contingencia que representamos con C es debido a Pearson y se


calcula:


S-1
C= S

Donde S es el total de la tabla


1,825 - 1
C= 1,825 C =0,67

Esto nos indica que hay asociacin entre las variables estudiadas.
En este tipo de tablas el valor mximo que puede tomar C es 0,707 que significa alta asociacin
entre las variables.

Coeficiente V de Cramer

Es uno de los coeficientes ms convenientes para tablas de doble entrada, pues sus limites son 0
y 1, donde el 0 indica ausencia de asociacin.
Su frmula de clculo es:


X2
V= n * min (h 1; c 1)

Donde X2 o la distribucin conocida como chi cuadrado y es

2
(fo ft)2 nc * nf
X = ft y ft = n
18
Probabilidad y Estadstica Descriptiva

fc = frecuencia observada
h = numero de filas
c = numero de columnas
nc = total de columnas
nf = total de filas
n = total de la de la muestra
min (h -1; c 1) se refiere a un solo valor, el menor entre h 1 o c 1.

Veamos un ejemplo: relacin de xito-fracaso en la carrera de haber recibido o no orientacin


vacacional.
xitos Fracasos Total
Orientacin 19 11 30
No Orientacin 5 15 20
Total 24 26 50

nc * n f
ft = n
24 * 30 26 * 20 24 * 20 26 * 20
ft = 50 ; 50 ; 50 ; 50

ft = 14,4 ; 15,6 ; 9,6 ; 10,4

2
(fo ft)2 (19 14,4)2 (11 15,6)2 (5 9,6)2 (15 10,4)2
X = ft = 14,4 + 15,6 + 9,6 + 10,4

X2 = 1,47 + 1,36 + 2,20 + 2,03


X2 = 7,06


X2 7,06
V= n * min (h 1; c 1) = 50,1 = 0,37

Covarianza

La covarianza es una medida que nos permite saber si la relacin entre las variables es directa o
inversa y si dicha relacin puede ser lineal o no. Se lo conoce como varianza conjunta. Se nota
como Cov y su frmula es la siguiente:

Cov = n XY
19
Probabilidad y Estadstica Descriptiva

Si la varianza es positiva, la relacin entre las dos variables es directa, es decir que si crece una
variable crece la otra, y si es negativa la relacin es inversa.
Segn la definicin dada la covarianza, el signo y su valor dependern del signo de las
diferencias (Xi X) e (Yj- Y). Para ilustrarlo consideremos los siguientes grficos:

El binomio (X. Y) es el punto de gravedad de la distribucin.


En el grafico B, la covarianza ser alta puesto que los puntos de la distribucin se concentran en
el 1 y 3 cuadrante, que son definidos al trazar los ejes por el punto (X, Y), por lo que el signo
de las dos diferencias ser el mismo, contribuyendo el producto de ambas positivamente a la
suma.
En cambio en los casos A y C no existe relacin lineal, los puntos estn repartidos en distintos
cuadrantes por lo que la suma de los productos respectivos se anularan uno con otro, o bien el
resultado se dicha suma se har prximo a cero.
Ejemplo:
Llamamos X a la variable n de horas viendo televisin e Y a la variable n de horas durmiendo.
Y Total
6 7 8 9 10
1 - - - - 1 1
X 2 - - - 10 - 10
3 - 16 20 - - 36
4 3 - - - - 3
Total 3 16 20 10 1 30

3 * 4 + 16 * 3 + 20 * 3 + 10 * 2 + 1 * 1
X= 50

X = 2,82

3 * 6 + 16 * 7 + 20 * 8 + 10 * 9 + 10 * 1
Y=
50
Y = 7,8

Cov = 4*3*6+3*16*7+3*20*8+2*10*9+1*1*10 - 2,82*7,8


50
Cov = -0,436

20

You might also like