Regresion Correlacion Unidad 3 2008

Probabilidad y Estadstica Descriptiva
UNIDAD N3: REGRESIN Y CORRELACIN
Anlisis de regresin y correlacin
Hasta ahora nos hemos centrado en el estudio de una sola variable de respuestas numricas y
hemos aprendido a calcular o describir la variable en estudio mediante las medidas descriptivas.
Ahora centraremos nuestro estudio a dos variables numricas. Estudiaremos la relacin que hay
o no entre ellas y el grado de asociacin.
Con el anlisis de regresin observaremos si existe relacin entre las variables en estudio y de
que tipo es esa relacin.
El estudio de regresin se utiliza principalmente para hacer predicciones sobre los valores de
una variable que llamamos dependiente o de respuesta (Y) basada en los valores de otra variable
llamada independiente o explicativa (X).
En cambio, con el anlisis de correlacin simple, medimos la intensidad de esa relacin o
asociacin entre las variables numricas.
REGRESION
Diagrama de dispersin
Como tenemos dos variables, tendremos pares de valores (X,Y). El grafico para representar
estos pares de valores se llama diagrama de dispersin o diagrama de nubes de puntos.
En el eje de las abscisas colocamos la variable independiente y el eje de las ordenadas la
variable dependiente.
Veamos un ejemplo: al gerente de una compaa que fabrica autopartes le gustara realizar un
modelo estadstico para estimar el nmero de horas-trabajador requeridas para elaborar lotes de
tamaos variables. Se selecciono al azar 10 obreros y se obtuvieron la cantidad de lotes
elaborados con horas-trabajador. Con este ejemplo queremos desarrollar un modelo para
predecir la cantidad de horas-trabajador (Y), variable dependiente, basndonos en el tamao del
lote (X), variable independiente. Resulta la siguiente tabla:
Produccin
Obreros Tamao del lote (X) Horas-trabajador (Y)
1 30 73
2 32 67
3 40 87
4 47 95
5 50 108
6 55 112
7 60 128
8 64 135
9 70 148
10 75 160
1
El diagrama de dispersin ser:
El diagrama de dispersin nos da una idea de tipo de relacin que tienen las variables. En
nuestro caso, la variable dependiente aumenta a medida que aumenta la variable independiente;
es decir, que a medida que aumenta el tamao del lote aumenta la cantidad de horas-trabajador.
Observamos que la nube de puntos nos da una idea que los puntos siguen la forma de una recta
lineal que llamamos recta de regresin lineal simple.
Distintos tipos de modelos de regresin
Podemos encontrarnos con diagramas de dispersin que nos muestren otros tipos de regresin,
con funciones matemticas ms complejas.
La relacin ms sencilla es una relacin lineal, por ejemplo:
Y
y
x
0
El modelo lineal (lnea recta) puede representarse como:
Y = 0 + i + 1
donde
0 = la interseccin Y para la poblacin

i = pendiente de la poblacin
1= error aleatorio en Y para la observacin
2
En el modelo que vemos, 1 me indica la pendiente de la recta, representa el cambio indicado en

Y por unidades de cambio en X, es decir que representa la cantidad que cambia la variable Y
(sea esta positiva o negativa) con respecto a una unidad de cambio particular en X.
La interseccin con el eje Y (0) representa el valor promedio de Y cuando X es igual a cero.
1 representa el error aleatorio en Y por cada observacin i que se presenta.
El modelo matemtico apropiado que se debe seleccionar esta influenciado por la distribucin
de los valores X e Yen el diagrama de dispersin.
Podemos encontrarnos con diagramas de dispersin como se presentas a continuacin:
1)
Observamos que los valores Y aumentan a medida que incrementa X, la relacin es lineal y
positiva.
2)
En la medida que X aumenta va disminuyendo laos valores Y, tenemos una relacin lineal y
negativa.
3)
Muestra un grupo de datos en los cuales hay muy poca o no hay relacin en la variables X e Y,
observamos valores altos y bajos de Y para cada valor de X.
3
4)
Nos muestra curvilnea positiva entre X e Y. Los valores de Y aumentan al incrementarse los
valores de X, pero este incremento disminuye cuando se sobrepasan ciertos valores de X.
5)
Se muestra una relacin parablica entre X e Y. vemos que x aumenta, al principio y disminuye,
pero que a medida que X sigue incrementndose Y no solamente deja de disminuir sino que en
realidad aumenta por encima de su valor mnimo.
6)
Se presenta una relacin exponencial o curvilnea negativa. Y disminuye muy rpidamente en la

medida que X aumenta inicialmente, pero luego su disminucin se hace mas lenta conforme X
sigue aumentado.
Ecuacin de regresin lineal
El problema que debe enfrentarse en el anlisis de regresin implica la determinacin del

modelo particular de lnea recta que se ajusta mejor a los datos.
Como generalmente trabajamos muestras aleatorias de la poblacin y ciertas suposiciones que
veremos mas adelante, son validas (lineal, normalidad, independencia).
La ecuacin de regresin de la muestra que representa al modelo de regresin lineal es:
i = b0 + b1Xi
i = valor predicho de Y para observaciones i
b0 = interseccin con Y
b1 = la pendiente
4
Cuando se han obtenido b0 y b1 ya se conoce la lnea de regresin y puede ser graficada en el

diagrama de dispersin; realizado esto observaremos si los datos originales estn cerca o lejos
de la recta. Recordaremos que el anlisis de regresin lineal tiene que ver con encontrar la recta
que mejor me ajusta los valores; buscar esta recta es minimizar las distancias de cada punto a la
recta de regresin. Como estas diferencias son positivas y negativas para las diferentes
observaciones, minimizaos matemticamente la expresin:
(Yi - i)2
en la Yi que es el valor real de Y para la observacin i ; la i es el valor predicho de Y para la
observacin isima. Reemplazando i queda:
[Yi (b0 + b1Xi)]2
donde las incgnitas son b0 y b1.
Mtodo de mnimos cuadrados
El mtodo de mnimos cuadrados es la tcnica matemtica utilizada para determinar los valores
de b0 y b1 que mejor se ajusta a los datos observados. Al utilizar el mtodo de los mnimos
cuadrados obtenemos dos ecuaciones conocidas como ecuaciones normales. Las resolvemos y
obtenemos las siguientes formulas:
XiYi n X Y
b1 =
Xi2 n X2
b0 = Y - b1X
donde
Yi Xi
Y= y X= n
n
La pendiente b1 representa el cambio estimado en Y por un incremento unitario en X y

b0 la ordenada al origen y es el valor de Y donde la recta de mejor ajuste corta al eje vertical Y.
Ejemplo: un contador que trabaja para una fbrica de automviles desea desarrollar un modelo
estadstico para predecir el tiempo de entrega (la cantidad de das transcurridos desde el pedido
de un automvil y la entrega real del mismo) de los pedidos de automviles nuevos. El
profesional piensa que existe una relacin lineal entre el nmero de opciones pedidas y el
tiempo de entrega. Se selecciona una muestra aleatoria de 16 automviles, con los resultados
obtenidos se pide:
a) Construya un diagrama de dispersin.-
b) Calcule los coeficientes de regresin, b0 y b1.-
c) Interprete el significado de la interseccin con el eje Y ( b0) y la pendiente (b1) de este
problema.-
d) Si se tiene un pedido de un automvil con 18 opciones Cuntos das predecir usted
que tardar la entrega?
5
Automviles N de opciones pedidas (X) Tiempo de entrega en das(Y)

1 3 25
2 4 32
3 4 26
4 7 38
5 7 34
6 8 41
7 9 39
8 11 46
9 12 44
10 12 51
11 14 53
12 16 58
13 17 61
14 20 64
15 23 66
16 25 70
N X Y X2 Y2 XY
1 3 25 625 75
2 4 32 1024 128
3 4 26 676 104
4 7 38 1444 266
5 7 34 1156 238
6 8 41 1681 328
7 9 39 1521 351
8 11 46 2116 506
9 12 44 1936 528
10 12 51 2601 612
11 14 53 2809 742
12 16 58 3364 928
13 14 61 3721 1037
14 20 64 4096 1280
15 23 66 4359 1518
16 25 70 4900 1750
Total 192 748 2988 38029 10391
6
Calculamos la media de X e Y:
Yi 748 Xi 192
Y= = = 46,75 X= = = 12
n 16 n 16
Luego:
XiYi n X Y
b1 =
Xi2 n X2
10391 (16). (12). (46,75)
b1 =
2988 16. (144)
10391 - 8976 1415

b1 = = = 2,069 2,07
2988 - 2304 684
b0 = Y - b1X
b0 = 46,75 2,07 (12) = 46,75 24,84 = 21,91

Ahora podemos definir nuestra recta de mejor ajuste:
i = b0 + b1Xi
i = 21,91 + 2,07 Xi
c) Si los automviles no tienen aditamentos, el tiempo de entrega tiene un promedio de 22 das
aproximadamente; por cada aditamento pedido el tiempo de entrega aumenta en 2,07 das.
d) i = 21,91 + 2,07 Xi
i = 21,91 + 2,07 (18)
i = 21,91 + 37,26 = 59,17 das
Como se ha dicho, uno de los objetivos mas importantes por lo que obtiene una ecuacin de
regresin, es de hacer predicciones. Una vez establecida una relacin lineal y conociendo el
valor de la variable X es posible predecir un valor de Y, mediante i , como se ha visto en el
punto c) del ejemplo.
Al hacer predicciones con base en la recta del mejor ajuste, es necesario observar las siguientes
restricciones:
1) La ecuacin debe usarse para hacer prediccin solo acerca de
la poblacin de la cua se extrajo la muestra.
2) La ecuacin debe usarse solo dentro del dominio muestral de
la variable X. En este caso entre 3 y 25 numero de opciones de pedidos.
3) Si la muestra fue tomada ahora, no espere que los resultados
sean validos para el ao 1990 o el 2005. Las situaciones de esos aos pueden ser
distintas al actual.
7
El error estndar de estimacin
Se ha visto que hemos utilizado el mtodo de mnimo cuadrados para estimar la recta de
regresin lineal de mejor ajuste, que con este mtodo minimizbamos las variaciones de los
puntos a la recta, pero esta recta no es pronosticador perfecto, salvo que todos los puntos caigan
sobre la recta de regresin.
Como no podamos predecir que todos los puntos caigan sobre la recta de regresin y esta solo
nos sirve para poder predecir en forma bastante aproximada un valor de Y dado X, debemos
desarrollar un estadstico que nos mida la variabilidad de los valores reales de Yi a partir de sus
valores predichos, como hacemos con el desvi estndar para calcular la variacin de cada
observacin con su media. La medida de variabilidad alrededor de la lnea de regresin se
conoce con el nombre de error estndar de la estimacin.
Cuando trazamos la recta de regresin predicha de mejor ajuste, observamos que hay muchos
puntos que caen sobre ella, otro por debajo y otro por encima; de este modo:
(Yi ) = 0
El error estndar de la estimacin, que simbolizamos Sxy, ser:

(Yi - i)2
Sxy =
n-2
donde Yi = valor real de Y para un valor dado de Yi.

i = valor predicho de Y para un valor dado de Xi.
Pero sabemos que:
(Yi - i)2 = Yi2 b0 Yi b1 XiYi
Reemplazamos en la formula anterior tendremos una formula ms sencilla para el clculo, que
ser:

Yi2 b0 Yi b1 XiYi
Sxy = n-2

38029 (21,91 * 748) (2,07*10391)
Sxy = = 3,06
16 - 2
8
La interpretacin del error estndar de la estimacin, es anloga a la desviacin de la media, el

error estndar de la estimacin mide la variabilidad alrededor de la lnea de regresin ajustada.
Mas adelante veremos que el Sxy, error estndar de la estimacin se utiliza para hacer
inferencias.
Mediacin de la variacin en regresin
Para medir que tan bien una variable independiente predice a la variable dependiente en nuestro
modelo estadstico es necesario desarrollar alguna medida de variacin.
La primera de ella que veremos es la SUMA TOTAL DE CUADRADOS (SCT) que es una
medida de la variacin de los valores Yi alrededor de su media Y.
En el anlisis de regresin, la suma total de cuadrados (SCT) puede dividirse en la variacin
explicada o tambin llamada SUM DE CUADRADO DEBIDO A LA REGRESION (SCR), que
se puede atribuir a la relacin entre la variable X e Y.
La variacin no explicada o SUMA DE CUADRADO DE ERROR (SCE), que se puede atribuir
a factores diferentes a la relacin entre X e Y. en un grafica seria:
Yi i = b0 + b1Xi
SCE
SCT
SCR
Y
Xi
La SCR representa la diferencia entre Y (promedio de la variable Yi) y i (el valor promedio de
Y que sera predicho a partir de la relacin de regresin.
La SCE representa aquella parte de la variacin de Y que no es explicada por la regresin. Estas
basadas en la diferencia entre el punto Yi y la recta estima i.
Estas medidas de variacin las podemos ahora representar de la siguiente manera:
SCT = SCR + SCE

Donde
SCT = (Yi Y)2 = Yi2 n Y2
SCE = (Yi )2 = Yi2 b0 Yi b1 YiXi

Y adems
SCR = (i Y)2 = b0 Yi b1 YiXi n Y2

Que surge de hacer:
SCR = SCT - SCE
9
El coeficiente entre SCR y SCT determina lo que llamamos el Coeficiente de determinacin,

que simbolizamos con r2.
Entonces
SCR
r2 =
SCT
Este coeficiente mide la porcin de variacin que es explicada por la variable independiente del
modelo de regresin.
En nuestro ejemplo, esto sera:
SCT = Yi2 n Y2
= 38029 - 16 (46,75)2
= 38029 - 16 * 2185,56
= 38029 - 34968,96
SCT = 3057,04
Calculamos ahora CSR:

SCR = b0 Yi b1 YiXi n Y2
= (21,92) * 748 + (2,07) * 10391 16 * (2185,56)
= 16396,16 + 21509,37 34968,96
SCR = 2936,57
Luego:
SCR 2936,57
r2 = = = 0,9572
SCT 3057,04
Nos indica que el 95,75% de la variacin del tiempo de entrega puede ser explicado por la
variacin en el nmero de aditamentos pedidos.
Adems este valor tan alto me esta indicando que existe una fuerte relacin entre las variables
estudiadas, puesto que el uso de un modelo de regresin ha reducido la variabilidad en la
prediccin del tiempo de entrega en 95,72%. Solamente el 4,28% de la variabilidad de la
muestra puede explicarse mediante factores diferentes a los del mtodo de regresin lineal.
CORRELACIN
Correlacin es el estudio de grado o intensidad de la relacin que existe entre dos variables, es
decir que la correlacin tiene que ver con relacin con la relacin y la intensidad de esa relacin
entre dos variables.
Clases de correlacin
Las correlaciones se clasifican desde distintos puntos de vistas:

1) Teniendo en cuenta los fenmenos que relacionan, la
correlacin es simple, mltiple o parcial.
2) Segn la expresin que manifiesta la tendencia de la
correlacin, puede ser lineal o no lineal.
3) Segn el signo la correlacin puede ser positiva o directa y
negativa o indirecta.
4) Segn la cantidad de relacin entre los fenmenos que
estudiamos, las correlaciones pueden ser perfectas, imperfectas o nulas.
10
El diagrama de dispersin
Es la expresin ms usada por ser la ms expresiva para interpretar la correlacin. Consiste en

un cuadro de doble entrada, una de las series de los resultados se inscribe verticalmente y la otra
en sentido horizontal. Cada alumno se halla representado por un trozo, que se sita en el punto
en que coinciden, segn las puntuaciones, las dos series. Por ejemplo, los resultados obtenidos
en 24 alumnos tomados al azar, de los 110 de la muestra, se les aplica el Test de Inteligencia de
Terman, que como sabemos da su calificacin en aos de edad mental y en la variable X
colocamos las puntuaciones obtenidas.
En la tabla siguiente damos las Calificaciones de 24 alumnos ordenadas segn las puntuaciones
obtenidas en la prueba de Instruccin.
Alumno Instruccin X Inteligencia Y

1 50 15
2 45 15
3 46 14
4 40 14
5 36 14
6 38 13
7 35 13
8 30 13
9 25 13
10 40 12
11 34 12
12 30 12
13 27 12
14 22 12
15 35 11
16 30 11
17 25 11
18 23 11
19 20 11
20 25 10
21 20 10
22 17 10
23 15 9
24 12 9
Donde
X = 29,92 puntos Y = 11,92 puntos
11
El diagrama de dispersin ser el siguiente:
Test de Inteligencia Y
18
16
14
12
10
8
6
4
2
0 5 10 15 20 25 30 35 40 45 50
Prueba de Instruccin X
Como podemos apreciar hemos trazado por los puntos de X e Y, los valores de cada una de sus
medias, con lo que la distribucin nos ha quedado dividida en cuatro cuadrantes:
(+y, -x), (-x, +y). (-y, +x), (-x, +y)
De ste modo podemos apreciar que:
Que por ser correlacin alta, aunque imperfecta, la mayora de los sujetos se encuentran por
encima de la media de una de las variables y tambin por encima de la media de la otra variable
y viceversa, que la mayora de los sujetos que se encuentran por debajo de la media de una
variable, tambin se encuentran por debajo de la media de la otra variable. En los otros dos
cuadrantes en donde una variable es positiva y la otra negativa, se encuentran otros sujetos. Los
pocos alumnos que se encuentran en donde las variables tienen distintos signos representan
algo no corriente o anormal, debe indagarse el motivo que lo produce.
Por ejemplo vemos que el alumno que ocupa el lugar 15 de nuestra tabla, ha superado en
bastante con su instruccin a su inteligencia y por consiguiente tiene un extraordinario
rendimiento.
Se ve claro, que en ste alumno operan factores que compensan su menor inteligencia, tales
como voluntad fuerte, gran inters, enseanza muy adaptada o ambiente familiar muy favorable,
etc., haciendo que su cociente de rendimiento sea muy alto.
En cambio, los alumnos situados en el otro cuadrante, (+y, -x), tienen una instruccin inferior de
lo que corresponde a su inteligencia. Por ejemplo, el alumno 9, manifiesta factores que impiden
el normal aprendizaje, quiz falta de escolaridad, o de adaptacin, o de salud o existen
dificultades en el hogar, etc.
En resumen el diagrama de dispersin adems de indicar el tipo y grado de correlacin seala

qu alumnos se separan o dispersan, invitando as al maestro a que se fije en esos casos que se
apartan de la correlacin para que comience a indagar:
12
a) Qu significa esa separacin

b) Qu factores estn influyendo en ella
c) Cmo debe obrar en consecuencia
Como conclusin del diagrama de dispersin podemos decir que por medio de la ubicacin
de puntos de X e Y, establecemos qu tipo de correlacin existe. Veamos ejemplos:
Supongamos tener las tres distribuciones siguientes:
Alumno Test A Test B Alumno Test A Test C Alumno Test A Test D

X Y X Y X Y
1 2 9 1 10 10 1 10 10
2 3 8 2 9 9 2 2 9
3 4 7 3 8 8 3 7 8
4 5 6 4 7 7 4 1 7
5 6 5 5 6 6 5 3 5
6 5 4 6 5 5 6 2 5
7 1 4 7 4 4 7 9 4
8 7 3 8 3 3 8 5 3
9 8 2 9 2 2 9 8 2
10 9 1 10 1 1 10 6 1
Realizar los diagramas de dispersin correspondientes a stas distribuciones
El coeficiente de correlacin
La expresin numrica de la correlacin se denomina coeficiente de correlacin. El coeficiente

de correlacin que expresa una correlacin perfecta s igual a uno. Segn que la correlacin
perfecta sea positiva o negativa ser igual a ms uno o menos uno.
Si el coeficiente de correlacin es igual a cero significa que no existe correlacin entre las
variables.
Existe distintas formas para calcular el coeficiente de correlacin, pero todos se rigen por el
siguiente cuadro:
Tabla para el coeficiente de correlacin
De 0,0 a 0,20 Asociacin Indiferente
De 0,20 a 0,40 Asociacin Baja
De 0,40 a 0,70 Asociacin Marcada
De 0,70 a 1,0 Asociacin Alta
Calculo del coeficiente de correlacin de Pearson
El coeficiente e correlacin es independiente de las unidades de medicin. Es un nmero

abstracto. Representaremos el coeficiente de correlacin de Pearson r, y lo calcularemos
aplicando la siguiente formula:
XiYi n X Y
r=
Xi2 n X2 Yi2 n Y2
13
Ejemplo: a un grupo de 10 estudiantes le aplicamos en una prueba de dibujo y otro de

imaginacin creador, nos interesa buscar la correlacin entre esas dos variables. Realizar el
diagrama de dispersin y obtener el coeficiente de correlacin de Pearson.
Alumnos Dibujo Imaginacin XY Xi2 Yi2

X Y
1 13 11 143 169 121
2 12 14 168 144 196
3 10 11 110 100 121
4 10 7 70 100 49
5 8 9 72 64 81
6 6 11 66 36 121
7 6 3 18 36 9
8 5 7 35 25 49
9 3 6 18 9 36
10 2 1 2 4 1
Total 75 80 702 687 784
75 80
X= Y=
10 10
X= 7,5 Y= 8
XiYi n X Y
r=
Yi2 n Y2 Xi2 n X2
702 10 * 7,5 * 8
r=
687 [10 * (7,52)] 784 [10 * (82)]
102
r= = 0,76
124,5 144
14
Calculo de la correlacin por la frmula de Bravais Pearson
Otra forma de calcular la correlacin es mediante la frmula de Bravais Pearson, donde las
correlaciones estn tomadas de la medias de ambas distribuciones, su frmula es:
Zx Zy
Br =
(Zx)2 * (Zy)2
Este procedimiento queda abreviado cuando se conoce de antemano la desviacin tpica de cada
serie de la muestra, entonces la frmula dada se sustituye por:
Zx Zy
Br =
n Sx S y
Ejemplo: queremos calcular la correlacin entre los puntajes tomados por 12 adultos en dos test
de asociacin controlada.
Sujetos Test1 (X) Test2 (Y) Zx Zy (Zx)2 (Zy)2 Zx Zy

A 50 22 -12,5 -8,42 156,25 70,9 105,25
B 54 25 -8,5 -5,42 72,25 29,38 46,07
C 56 34 -6,5 3,58 42,25 12,82 -23,27
D 59 28 -3,5 -2,42 12,25 5,86 8,47
E 60 26 -2,5 -4,42 6,25 19,54 11,05
F 62 30 -0,5 -0,42 0,25 0,18 0,21
G 61 32 -1,5 1,58 2,25 2,5 -2,37
H 65 30 2,5 -0,42 6,25 0,18 -1,05
I 67 28 4,5 -2,42 20,25 5,86 -10,89
J 71 34 8,5 3,58 72,25 12,82 30,43
K 71 36 8,5 5,58 75,25 31,14 47,43
L 74 40 11,5 9,58 132,25 91,78 110,17
Total 750 365 ----------- ----------- 595 282,96 321,5
15
750
M(x) = 12 = 62,5
321,5
Br = = 0,78
365
595 * 282,96
M(y) = 12 = 30,42
Coeficiente de correlacin por rango o coeficiente de correlacin de Spearman
Consiste en:
a. Convertir las puntuaciones ordinales a posicin de orden o rango, asignando un rango
de uno al puntaje menor, un rango de dos al siguiente y as sucesivamente, el puntaje
mayor tendr un rango igual a n. esto se hace para ambas variables.
b. Calculamos el coeficiente de Spearman entre rangos.
Tenemos d que es la diferencia entre los rangos que han comprendido a cada una de las
unidades de observaciones. Este coeficiente, al igual que los anteriores varia entre -1 y 1
y Sr=0 indica ausencia de correlacin.
6 * d2
Sr = 1-
n * (n2-1)
Ejemplo: tenemos las notas de evaluacin de 15 alumnos en matemticas y lectura:
Alumnos Matem.(X) Lect.(Y) Rango d d2

X Y X-d
A 42 47 2 2 0 0
B 52 55 6 8 -2 4
C 41 57 1 9 -8 64
D 56 50 7 4 3 9
E 45 43 4 1 3 9
F 48 49 5 3 2 4
G 57 61 8 12 -4 16
H 64 63 14 13 1 1
I 61 58 11 10 1 1
J 59 54 9 7 2 4
K 60 59 10 11 1 1
L 44 51 3 5 -2 4
M 62 65 12 14 -2 4
N 63 53 13 6 7 49
Total ----------------- ---------------- --------- -------- ------------- 170
6 * 170
Sr = 1 -
14 * (142 1)
16
Sr = 0,63
Asociacin de variable para medicin en escala nominal
Para este anlisis recurrimos a las tablas de doble entrada o tabla de contingencia, ya vistas, en
donde una variable era dispuesta en fila y la otra en columna.
A pesar de que tan solo el anlisis de la tabla puede sacar una conclusin, se hace necesario
calcular un coeficiente de asociacin que nos indicara el grado de asociacin de dos atributos.
El coeficiente de asociacin entre dos atributos es el Q de Kendall, que lo calculamos para
tablas de 2X2. Se lo define como:
A B
A*DB*C
Q=
C D A*D+B*C
Veamos un ejemplo: se realiza un estudio sobre una muestra de hogares para ver el rendimiento
escolar de nios en funcin de si la madre trabaja o no. Resulto la siguiente tabla:
rendimiento La madre trabaja Total
Si No
Bueno 37 51 88
Regular 12 14 26
Total 49 65 114
37 * 14 51 * 12
Q= = -0,08
37 * 14 + 51 * 12
Coeficiente de contingencia
Veamos un ejemplo: un grado que esta integrado por 33 alumnos a sido clasificado en lectura y
escritura con muy bueno (MB), bueno (B), regula (R) y malo (M). Esos 33 alumnos estn
distribuidos como indica la siguiente tabla:
Lectura
M R B MB Total
MB 0 0 2 4 6
Escritura
B 0 1 4 2 7
R 2 5 3 0 10
M 6 3 1 0 10
Total 8 9 10 6 33
En esta tabla podemos observar como se distribuidos las notas. Para hallar el coeficiente de
contingencia, se halla el cuadrado de cada nmero que expresa los alumnos que han obtenido
determinada calificacin y se divide por el producto de los totales de fila por columna
obtenemos de esta manera la siguiente tabla:
17
Lectura
M R B MB Total
MB 0 0 22
42
10*6 6*6
B 0 12 42 22
Escritura
9*7 10*7 6*7

R 22 52 32 0
8*10 9*10 10*10
M 62 32 12 0
8*10 9*10 10*10
Resolviendo cada casillero de la tabla, tenemos:

Lectura
M R B MB Total
Escritura
MB 0 0 0,066 0,444 0,510

B 0 0,015 0,228 0,095 0,338
R 0,050 0,277 0,090 0 0,417
M 0,450 0,100 0,010 0 0,560
Total 0,500 0,392 0,394 0,539 1,825
El clculo de coeficiente de contingencia que representamos con C es debido a Pearson y se

calcula:

S-1
C= S
Donde S es el total de la tabla

1,825 - 1
C= 1,825 C =0,67
Esto nos indica que hay asociacin entre las variables estudiadas.
En este tipo de tablas el valor mximo que puede tomar C es 0,707 que significa alta asociacin
entre las variables.
Coeficiente V de Cramer
Es uno de los coeficientes ms convenientes para tablas de doble entrada, pues sus limites son 0
y 1, donde el 0 indica ausencia de asociacin.
Su frmula de clculo es:

X2
V= n * min (h 1; c 1)
Donde X2 o la distribucin conocida como chi cuadrado y es
2
(fo ft)2 nc * nf
X = ft y ft = n
18
fc = frecuencia observada
h = numero de filas
c = numero de columnas
nc = total de columnas
nf = total de filas
n = total de la de la muestra
min (h -1; c 1) se refiere a un solo valor, el menor entre h 1 o c 1.
Veamos un ejemplo: relacin de xito-fracaso en la carrera de haber recibido o no orientacin

vacacional.
xitos Fracasos Total
Orientacin 19 11 30
No Orientacin 5 15 20
Total 24 26 50
nc * n f
ft = n
24 * 30 26 * 20 24 * 20 26 * 20
ft = 50 ; 50 ; 50 ; 50
ft = 14,4 ; 15,6 ; 9,6 ; 10,4
2
(fo ft)2 (19 14,4)2 (11 15,6)2 (5 9,6)2 (15 10,4)2
X = ft = 14,4 + 15,6 + 9,6 + 10,4
X2 = 1,47 + 1,36 + 2,20 + 2,03

X2 = 7,06

X2 7,06
V= n * min (h 1; c 1) = 50,1 = 0,37
Covarianza
La covarianza es una medida que nos permite saber si la relacin entre las variables es directa o
inversa y si dicha relacin puede ser lineal o no. Se lo conoce como varianza conjunta. Se nota
como Cov y su frmula es la siguiente:
Cov = n XY
19
Si la varianza es positiva, la relacin entre las dos variables es directa, es decir que si crece una
variable crece la otra, y si es negativa la relacin es inversa.
Segn la definicin dada la covarianza, el signo y su valor dependern del signo de las
diferencias (Xi X) e (Yj- Y). Para ilustrarlo consideremos los siguientes grficos:
El binomio (X. Y) es el punto de gravedad de la distribucin.

En el grafico B, la covarianza ser alta puesto que los puntos de la distribucin se concentran en
el 1 y 3 cuadrante, que son definidos al trazar los ejes por el punto (X, Y), por lo que el signo
de las dos diferencias ser el mismo, contribuyendo el producto de ambas positivamente a la
suma.
En cambio en los casos A y C no existe relacin lineal, los puntos estn repartidos en distintos
cuadrantes por lo que la suma de los productos respectivos se anularan uno con otro, o bien el
resultado se dicha suma se har prximo a cero.
Ejemplo:
Llamamos X a la variable n de horas viendo televisin e Y a la variable n de horas durmiendo.
Y Total
6 7 8 9 10
1 - - - - 1 1
X 2 - - - 10 - 10
3 - 16 20 - - 36
4 3 - - - - 3
Total 3 16 20 10 1 30
3 * 4 + 16 * 3 + 20 * 3 + 10 * 2 + 1 * 1
X= 50
X = 2,82
3 * 6 + 16 * 7 + 20 * 8 + 10 * 9 + 10 * 1
Y=
50
Y = 7,8
Cov = 4*3*6+3*16*7+3*20*8+2*10*9+1*1*10 - 2,82*7,8

50
Cov = -0,436
20

Regresion Correlacion Unidad 3 2008

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresion Correlacion Unidad 3 2008

Uploaded by

Copyright:

Available Formats

Probabilidad y Estadstica Descriptiva

UNIDAD N3: REGRESIN Y CORRELACIN

Anlisis de regresin y correlacin

El diagrama de dispersin ser:

Distintos tipos de modelos de regresin

El modelo lineal (lnea recta) puede representarse como:

0 = la interseccin Y para la poblacin

En el modelo que vemos, 1 me indica la pendiente de la recta, representa el cambio indicado en

Se presenta una relacin exponencial o curvilnea negativa. Y disminuye muy rpidamente en la

Ecuacin de regresin lineal

El problema que debe enfrentarse en el anlisis de regresin implica la determinacin del

Cuando se han obtenido b0 y b1 ya se conoce la lnea de regresin y puede ser graficada en el

Mtodo de mnimos cuadrados

La pendiente b1 representa el cambio estimado en Y por un incremento unitario en X y

Automviles N de opciones pedidas (X) Tiempo de entrega en das(Y)

10391 - 8976 1415

b0 = 46,75 2,07 (12) = 46,75 24,84 = 21,91

El error estndar de estimacin

donde Yi = valor real de Y para un valor dado de Yi.

La interpretacin del error estndar de la estimacin, es anloga a la desviacin de la media, el

Mediacin de la variacin en regresin

SCT = SCR + SCE

SCT = (Yi Y)2 = Yi2 n Y2

SCE = (Yi )2 = Yi2 b0 Yi b1 YiXi

SCR = (i Y)2 = b0 Yi b1 YiXi n Y2

El coeficiente entre SCR y SCT determina lo que llamamos el Coeficiente de determinacin,

Calculamos ahora CSR:

Las correlaciones se clasifican desde distintos puntos de vistas:

Es la expresin ms usada por ser la ms expresiva para interpretar la correlacin. Consiste en

Alumno Instruccin X Inteligencia Y

X = 29,92 puntos Y = 11,92 puntos

El diagrama de dispersin ser el siguiente:

(+y, -x), (-x, +y). (-y, +x), (-x, +y)

De ste modo podemos apreciar que:

En resumen el diagrama de dispersin adems de indicar el tipo y grado de correlacin seala

a) Qu significa esa separacin

Alumno Test A Test B Alumno Test A Test C Alumno Test A Test D

La expresin numrica de la correlacin se denomina coeficiente de correlacin. El coeficiente

Calculo del coeficiente de correlacin de Pearson

El coeficiente e correlacin es independiente de las unidades de medicin. Es un nmero

Ejemplo: a un grupo de 10 estudiantes le aplicamos en una prueba de dibujo y otro de

Alumnos Dibujo Imaginacin XY Xi2 Yi2

Calculo de la correlacin por la frmula de Bravais Pearson

Sujetos Test1 (X) Test2 (Y) Zx Zy (Zx)2 (Zy)2 Zx Zy

Coeficiente de correlacin por rango o coeficiente de correlacin de Spearman

Ejemplo: tenemos las notas de evaluacin de 15 alumnos en matemticas y lectura:

Alumnos Matem.(X) Lect.(Y) Rango d d2

Asociacin de variable para medicin en escala nominal

9*7 10*7 6*7

Resolviendo cada casillero de la tabla, tenemos:

MB 0 0 0,066 0,444 0,510

El clculo de coeficiente de contingencia que representamos con C es debido a Pearson y se

Donde S es el total de la tabla

Donde X2 o la distribucin conocida como chi cuadrado y es

Veamos un ejemplo: relacin de xito-fracaso en la carrera de haber recibido o no orientacin

ft = 14,4 ; 15,6 ; 9,6 ; 10,4

X2 = 1,47 + 1,36 + 2,20 + 2,03

El binomio (X. Y) es el punto de gravedad de la distribucin.

Cov = 4*3*6+3*16*7+3*20*8+2*10*9+1*1*10 - 2,82*7,8

You might also like

97 107 6*7

Cov = 436+3167+3208+2109+1110 - 2,82*7,8