You are on page 1of 44

Regresión y Correlación

Regresión y Correlación
Relaciones entre variables

El término regresión fue introducido por Galton en su libro


“Natural inheritance” (1889) refiriéndose a la “ley de la
regresión universal”

Francis Galton
•Primo de Darwin
“Cada peculiaridad en un hombre es compartida por sus •Estadístico y aventure
descendientes, pero en promedio , en un grado menor. Regresión a la •Fundador (con otros)
la estadística moderna
media”
para explicar las teoría
de Darwin.

Regresión y Correlación
Conclusión

Padres muy altos tienen tendencia a tener hijos que heredan


parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres
muy bajos.

Hoyen día el sentido de regresión es el de predicción de una


medida basándonos en el conocimiento de otra.

Regresión y Correlación
Modelo de Regresión Lineal

• El Modelo es la expresión teórica del comportamiento de la


población

Yi     xi   i
Error
Residual
Parámetros

Parte
sistemática
Regresión y Correlación
Elementos del Modelo

 = Es el valor medio teórico que asume la variable Y cuando


x=0

 = Es el valor medio teórico del aumento o decremento de la


variable Y cuando x varia una unidad.

 = Es el término de error en él se incluyen los errores


casuales, de medición, deficiencias del modelo, etc.

Regresión y Correlación
Supuestos del Modelo

• La variable "explicativa" X toma valores predeterminados por el


investigador.

• Para cada valor fijo de X , la variable Y se distribuye Normal .

• La relación entre las variables X e Y es lineal , es decir, la regresión del


promedio es lineal Simbólicamente : E(Y/X) = α + .X , ya que E() = 0

• Los valores de la variable Y son independientes entre si ya que existe


Homocedasticidad ,significa que la variancia de los errores es constante ,
no depende del valor de X. La variancia de Y no depende del valor que
tome la variable X

Regresión y Correlación
CALCULO DE LA RECTA DE REGRESIÓN

( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )

Yi     xi   i
Modelo de Regresión

yi ~ N ( E (Y / xi ),  2 )


Recta de Estimación y  a  b. x

Regresión y Correlación
Regresión Lineal
Algebra de la Muestra.

• El análisis de regresión sirve para predecir una medida en función


de otra medida (o varias).
– Y = Variable dependiente
• Predicha
• Explicada

– X = Variable independiente
• Predictora
• Explicativa

Regresión y Correlación
Estudio conjunto de dos variables

fila = datos de un individuo


Altura Peso
columna =representa los valores que toma una en cm. en Kg.
variable sobre los mismos. 162 61
154 60
180 78
Las individuos no muestran ningún orden particular.
158 62
171 66
Las observaciones se representan en un diagrama de 169 60
dispersión. 166 54
176 84
Objetivo será intentar reconocer a partir del mismo si hay 163 68
relación entre las variables, de qué tipo, y si es posible ... ...
predecir el valor de una de ellas en función de la otra.

Regresión y Correlación
Diagramas de dispersión o nube de puntos

Alturas y pesos de 30 individuos representados en un diagrama de


dispersión.

100
90
80 Pesa 76 kg.

70

Mide 187 cm.


60
50Pesa 50 kg.
40
Mide 161 cm.
30
140 150 160 170 180 190 200

Regresión y Correlación
Relación entre variables.

100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Regresión y Correlación
Predicción de una variable en función de la otra.

El peso aumenta 10Kg por cada 10 cm de altura... o sea,


el peso aumenta en una unidad por cada unidad de altura.

100
90
80
70
10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
Regresión y Correlación
Estimación
a  ˆ Existen dos métodos para hallar los estimadores de  y
 que dan los mismos resultados.

b  ˆ
Método de Máxima
Verosimilitud

Método de los Mínimos Cuadrados


n
 2 n 2
 ( yi  yi )   ei  mínimo
yˆ  a  b. xi i 1 i 1

n
 2 n
Regresión y Correlación
 i i  i
( y  y )  [ y  (a  b. x i )] 2

i 1 i 1
n
 (a, b)  [ yi  a  b. xi ]2  mín
i 1

 (a, b)
0
a

 (a, b)
0
a  Y  b.X
b
n n
 xi . yi  n.X .Y  ( xi .  X ).( yi  Y ) Cov( x, y )
b i 1
n
 i 1
n

V ( x)
x 2
i  n. X 2
 ( xi  X ) 2
i 1 i 1

Regresión y Correlación
Covarianza de X e Y
1
cov( x, y)   ( xi  x )( yi  y)
n i

• La covarianza entre dos variables, Cov(x,y), nos indica si la posible relación


entre dos variables es directa o inversa.

– Directa: Cov(x,y), >0

– Inversa: Cov(x,y), <0

– No existe relación : Cov(x,y), =0

• El signo de la covarianza indica el comportamiento entre las variables. Esta


puede ser directa, inversa o que no exista relación lineal.

Regresión y Correlación
Relación directa e inversa.
330 100

280 90
80
230
70
180
60
130 50
80 40

30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Para valores de X por encima de la media •Para los valores de X mayores que la media le
tenemos valores de Y por encima y por corresponden valores de Y mayores también.
debajo en cantidades similares. No existe
relación •Para los valores de X menores que la media le
corresponden valores de Y menores también.

•Esto se llama relación directa o creciente entre X


80 e Y.
70
60
50
40
30 Para los valores de X mayores que la
20
media le corresponden valores de Y
10
0 menores. Esto es relación inversa o
140 150 160 170 180 190 200
decreciente.
Regresión y Correlación
Supuestos de los errores

e i  yo  yc 16

14

12

10

yo
 i ~ N (0, )
8
2 6

2
0
0 1 2 3 4 5 6

cov( i ,  j )  0 i  j

Regresión y Correlación
100
90
80
70
ei en

yˆ  a  bx
60 e1
50
40
30
140 150 160 170 180 190 200

Regresión y Correlación
Interpretación de los coeficientes

• a = ordenada al origen cuando x=0 ; y=a

• b= pendiente de la recta

b>0 :existe una relación lineal directa entre las variables

b<0: existe una relación lineal inversa entre las variables

b=0 no existe relación lineal entre las variables .

Regresión y Correlación
Otros modelos de Regresión

¿recta o parábola?

• Se pueden considerar otros tipos de


modelos, en función del aspecto que
presente el diagrama de dispersión
(regresión no lineal)
140 150 160 170 180 190 200

¿recta o cúbica?

• Incluso se puede considerar el que una


variable dependa de varias (regresión
múltiple).

140 150 160 170 180 190 200

Regresión y Correlación
Interpretación de la variabilidad en Y

En primer lugar olvidemos que existe Y


la variable X. Veamos cuál es la
variabilidad en el eje Y.

La franja sombreada indica la zona


donde varían los valores de Y.

Proyección sobre el eje Y = olvidar X y

Regresión y Correlación
Interpretación del residuo
Ahora en los errores de predicción (líneas
verticales). Los proyectamos sobre el eje Y. Y

Se observa que los errores de predicción,


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los


residuos,
mejor será la bondad del ajuste.

Regresión y Correlación
Coeficiente de Determinación = r2
100
90 ŷ
80 Error no yo
Explicado
Error
70 Error Explicado total
60
50 y
40
30
140 150 160 170 180 190 200

Regresión y Correlación
Error = Error no + Error Explicado

y  Y    yi  yˆ i    yˆ i  Y 
total Explicado

y  Y    yi  y ˆ i  Y 
ˆi  y
2 2
i

 y     yi  y ˆ i  Y 
ˆi  y
n n
2 2
i Y
i 1 i 1

  yi  Y     yi  yˆ i     yˆ i  Y 
n n n
2 2 2

i 1 i 1 i 1

V .T .V . N .E V .E .

Regresión y Correlación
V .T . V . N .E .V .E . V . N .E . V .E .
 1 
V .T . V .T . V .T . V .T .

V . N .E . V .E .
1  r 2

V .T . V .T .

0  r2 1
r 2  0  VE  0  VNE  VT
r 2  1  VE  VT  VNE  0
No detecta el tipo de relacion
Regresión y Correlación
Coeficiente de Determinación

Resumiendo: Y

• La dispersión del error residual será una


fracción de la dispersión original de Y

•Cuanto menor sea la dispersión del error


residual
mejor será el ajuste de regresión.

Eso hace que definamos como medida de


bondad de un ajuste de regresión,
o coeficiente de determinación a:

VNE
R  1
2

VT
S 2
e  S 2
Y
Regresión y Correlación
Resumen sobre bondad de un ajuste

• La bondad de un ajuste de un modelo de regresión se mide usando el


coeficiente de determinación r2

• r2 es una medida adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, r2 será cercano a uno.

• Cuando un ajuste es malo r2 será cercano a cero.

• A r2 también se le denomina porcentaje de variabilidad explicado por el


modelo de regresión.

Regresión y Correlación
Coef. de correlación lineal de Pearson

• La coeficiente de correlación lineal de Pearson de dos variables, r,


nos indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).

• tiene el mismo signo que cov(x,y) por tanto de su signo obtenemos


el que la posible relación sea directa o inversa.

• r es útil para determinar si hay relación lineal entre dos variables,


pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)

cov( x, y )
r
Sx Sy
Regresión y Correlación
Coeficiente de Correlación :r

• X e Y son variables aleatorias . Luego, no existe una variable explicativa y


otra explicada.

• La población de la cual se extrae la muestra es Normal Bivariada .

• Existe una relación lineal entre las variables, la cual está medida por el
coeficiente de correlación poblacional definido como :

X e Y están Normalment e distribuíd as con


E( x )   x V( x )   2x y E( y)   y V( y)   2y
Coeficient e de Correlació n Poblaciona l
Cov( x, y) E[( X   x )( Y   y )]
  1    1
xy E[( X   x ) 2 ]E[( Y   y ) 2 ]

r  ˆ Coeficient e de Corr. Muestral


Regresión y Correlación
1 n n

cov( x, y) 
n i 1
( xi  X )( yi  Y )  xi yi  nXY
r  r i 1
1  r  1
S ( x ).S ( y) 1 n
( x  nX )( y  nY )
2 2 2 2

n
 ( x i  X ) 2  ( yi  Y ) 2 i i
i 1

r =-1 *Existe relación inversa y perfecta entre las variables

r =1 *Existe relación directa y perfecta entre variables

r =0 *No existe relación lineal entre las variables -Variables no correlacionadas

-1 < r < 0 *Existe relación inversa entre las variables

0 < r < 1 * Existe relación directa entre las variables

2 2 2
Regresión y Correlación r  (r )  0  r  1;  1  r  1
Correlaciones Negativas

90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Regresión y Correlación
correlaciones positivas

330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

110 100
100 90
90 80
80
70
70
60
60
50 50

40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

Regresión y Correlación
casi perfectas y positivas

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200

Regresión y Correlación
Animación: Residuos del modelo de regresión

Regresión y Correlación
INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIÓN
Distribución del coeficiente de correlación muestral r

Para  = r es simétrica alrededor


n . Normal
0 de

r
~ t n2
( n ) es pequeño 1 r2

n2

H0 :  = 0 H0 : X e Y son independientes

H1 :   0 H1 : X e Y no son independientes

Regresión y Correlación
DISTRIBUCIÓN DE LOS ESTIMADORES DE  y 

a ~ N ( ,  a )
a 
~ N (0,1) con  a   e.  xi2  e es desconocido
a n. ( xi  X ) 2

a 
entonces ~ t n2
Sa

b e
b ~ N ( , b ) ~ N (0,1) como  b   e es desconocido
b  ( xi  X ) 2

b
entonces ~ t n2 ,
Sb

Regresión y Correlación
VARIANCIA DE LA RECTA DE REGRESIÓN

Y    X  
i i i con  i ~ N (0,  2 )

Yˆi  ˆ  ˆX i  a  bxi 

E (Yˆi )  E (a)  E (b) xi     xi

E ( yˆ i )    xi  E ( yi )

yˆ i es un estimador no viciado de   x i
Regresión y Correlación
V {Y  b( x i  X )}
V (Yˆi )  V (a  bxi ) 

V (Yˆi )  V (Y )  ( xi  X )2V (b)

2     V ( i )
2 2
V (Y )  e
n
 2
 2
V (Yˆi )   ( xi  X ) 2 .
n  i
( x  X ) 2

 1 ( x  X ) 2

V (Yˆi )    
2 i
2

Regresión y Correlación
 n  ( xi  X ) 
ESTIMACIÓN DE LA MEDIA DE Yi

Correspondiente a un valor conocido de xi

Yi ~ N (   . xi , e )

yˆ i  (   . xi ) yˆ i   yi
 ~ N (0,1)
 yˆ i  yˆ i
yˆ i  (   . x i ) yˆ i   yi

 yˆ i  S ( yˆ i )
~ t n2
S ( yˆ i ) S ( yˆ i )

yˆ i t n 2; / 2 .S ( yˆ i )  yi  yˆ i t n 2; / 2 .S ( yˆ i )

Regresión y Correlación
ESTIMACION DE UN FUTURO VALOR Yi PARA Xi FIJO

la variación propia la de los errores 


la variación de la recta de ajuste.

 1 ( xi  X ) 2 
V(yˆ /x i )  V ( i )  V ( yˆ i )     . 
2 2
2
 n  i
( x  X ) 
 1 ( xi  X ) 2 
V ( yˆ / xi )  S 2
 S .1  
2
2
 n  ( xi  X ) 
( yi ) e

yˆ i  t n2; / 2 .S ( yi ) y  yˆ i  t n2; / 2 .S ( yi )

Regresión y Correlación

You might also like