Coef Determinacion

Regresión y Correlación
Relaciones entre variables
El término regresión fue introducido por Galton en su libro

“Natural inheritance” (1889) refiriéndose a la “ley de la
regresión universal”
Francis Galton
•Primo de Darwin
“Cada peculiaridad en un hombre es compartida por sus •Estadístico y aventure
descendientes, pero en promedio , en un grado menor. Regresión a la •Fundador (con otros)
la estadística moderna
media”
para explicar las teoría
de Darwin.
Conclusión
Padres muy altos tienen tendencia a tener hijos que heredan

parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres
muy bajos.
Hoyen día el sentido de regresión es el de predicción de una

medida basándonos en el conocimiento de otra.
Modelo de Regresión Lineal
• El Modelo es la expresión teórica del comportamiento de la

población
Yi     xi   i
Error
Residual
Parámetros
Parte
sistemática
Elementos del Modelo
 = Es el valor medio teórico que asume la variable Y cuando

x=0
 = Es el valor medio teórico del aumento o decremento de la

variable Y cuando x varia una unidad.
 = Es el término de error en él se incluyen los errores

casuales, de medición, deficiencias del modelo, etc.
Supuestos del Modelo
• La variable "explicativa" X toma valores predeterminados por el

investigador.
• Para cada valor fijo de X , la variable Y se distribuye Normal .
• La relación entre las variables X e Y es lineal , es decir, la regresión del

promedio es lineal Simbólicamente : E(Y/X) = α + .X , ya que E() = 0
• Los valores de la variable Y son independientes entre si ya que existe

Homocedasticidad ,significa que la variancia de los errores es constante ,
no depende del valor de X. La variancia de Y no depende del valor que
tome la variable X
CALCULO DE LA RECTA DE REGRESIÓN
( x1 , y1 ) , ( x2 , y2 ) , ... , ( xn , yn )
Yi     xi   i
Modelo de Regresión
yi ~ N ( E (Y / xi ),  2 )

Recta de Estimación y  a  b. x
Regresión Lineal
Algebra de la Muestra.
• El análisis de regresión sirve para predecir una medida en función

de otra medida (o varias).
– Y = Variable dependiente
• Predicha
• Explicada
– X = Variable independiente
• Predictora
• Explicativa
Estudio conjunto de dos variables
fila = datos de un individuo

Altura Peso
columna =representa los valores que toma una en cm. en Kg.
variable sobre los mismos. 162 61
154 60
180 78
Las individuos no muestran ningún orden particular.
158 62
171 66
Las observaciones se representan en un diagrama de 169 60
dispersión. 166 54
176 84
Objetivo será intentar reconocer a partir del mismo si hay 163 68
relación entre las variables, de qué tipo, y si es posible ... ...
predecir el valor de una de ellas en función de la otra.
Diagramas de dispersión o nube de puntos
Alturas y pesos de 30 individuos representados en un diagrama de

dispersión.
100
90
80 Pesa 76 kg.
70
Mide 187 cm.

60
50Pesa 50 kg.
40
Mide 161 cm.
30
140 150 160 170 180 190 200
Relación entre variables.
100
90
80
70
60
50
40
30
140 150 160 170 180 190 200
Predicción de una variable en función de la otra.
El peso aumenta 10Kg por cada 10 cm de altura... o sea,

el peso aumenta en una unidad por cada unidad de altura.
100
90
80
70
10 kg.
60
50
10 cm.
40
30
140 150 160 170 180 190 200
Estimación
a  ˆ Existen dos métodos para hallar los estimadores de  y
 que dan los mismos resultados.
b  ˆ
Método de Máxima
Verosimilitud
Método de los Mínimos Cuadrados

n
 2 n 2
 ( yi  yi )   ei  mínimo
yˆ  a  b. xi i 1 i 1
n
 2 n
 i i  i
( y  y )  [ y  (a  b. x i )] 2
i 1 i 1
n
 (a, b)  [ yi  a  b. xi ]2  mín
i 1
 (a, b)
0
a
 (a, b)
0
a  Y  b.X
b
n n
 xi . yi  n.X .Y  ( xi .  X ).( yi  Y ) Cov( x, y )
b i 1
n
 i 1
n

V ( x)
x 2
i  n. X 2
 ( xi  X ) 2
i 1 i 1
Covarianza de X e Y
1
cov( x, y)   ( xi  x )( yi  y)
n i
• La covarianza entre dos variables, Cov(x,y), nos indica si la posible relación

entre dos variables es directa o inversa.
– Directa: Cov(x,y), >0
– Inversa: Cov(x,y), <0
– No existe relación : Cov(x,y), =0
• El signo de la covarianza indica el comportamiento entre las variables. Esta

puede ser directa, inversa o que no exista relación lineal.
Relación directa e inversa.
330 100
280 90
80
230
70
180
60
130 50
80 40
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Para valores de X por encima de la media •Para los valores de X mayores que la media le
tenemos valores de Y por encima y por corresponden valores de Y mayores también.
debajo en cantidades similares. No existe
relación •Para los valores de X menores que la media le
corresponden valores de Y menores también.
•Esto se llama relación directa o creciente entre X

80 e Y.
70
60
50
40
30 Para los valores de X mayores que la
20
media le corresponden valores de Y
10
0 menores. Esto es relación inversa o
140 150 160 170 180 190 200
decreciente.
Supuestos de los errores
e i  yo  yc 16
14
12
10
yo
 i ~ N (0, )
8
2 6
2
0
0 1 2 3 4 5 6
cov( i ,  j )  0 i  j
100
90
80
70
ei en
yˆ  a  bx
60 e1
50
40
30
140 150 160 170 180 190 200
Interpretación de los coeficientes
• a = ordenada al origen cuando x=0 ; y=a
• b= pendiente de la recta
b>0 :existe una relación lineal directa entre las variables
b<0: existe una relación lineal inversa entre las variables
b=0 no existe relación lineal entre las variables .
Otros modelos de Regresión
¿recta o parábola?
• Se pueden considerar otros tipos de

modelos, en función del aspecto que
presente el diagrama de dispersión
(regresión no lineal)
140 150 160 170 180 190 200
¿recta o cúbica?
• Incluso se puede considerar el que una

variable dependa de varias (regresión
múltiple).
140 150 160 170 180 190 200
Interpretación de la variabilidad en Y
En primer lugar olvidemos que existe Y

la variable X. Veamos cuál es la
variabilidad en el eje Y.
La franja sombreada indica la zona

donde varían los valores de Y.
Proyección sobre el eje Y = olvidar X y
Interpretación del residuo
Ahora en los errores de predicción (líneas
verticales). Los proyectamos sobre el eje Y. Y
Se observa que los errores de predicción,

residuos, están menos dispersos que la
variable Y original.
Cuanto menos dispersos sean los

residuos,
mejor será la bondad del ajuste.
Coeficiente de Determinación = r2
100
90 ŷ
80 Error no yo
Explicado
Error
70 Error Explicado total
60
50 y
40
30
140 150 160 170 180 190 200
Error = Error no + Error Explicado
y  Y    yi  yˆ i    yˆ i  Y 
total Explicado
y  Y    yi  y ˆ i  Y 
î  y
2 2
i
 y     yi  y ˆ i  Y 
î  y
n n
2 2
i Y
i 1 i 1
  yi  Y     yi  yˆ i     yˆ i  Y 
n n n
2 2 2
i 1 i 1 i 1
V .T .V . N .E V .E .
V .T . V . N .E .V .E . V . N .E . V .E .
 1 
V .T . V .T . V .T . V .T .
V . N .E . V .E .
1  r 2
V .T . V .T .
0  r2 1
r 2  0  VE  0  VNE  VT
r 2  1  VE  VT  VNE  0
No detecta el tipo de relacion
Coeficiente de Determinación
Resumiendo: Y
• La dispersión del error residual será una

fracción de la dispersión original de Y
•Cuanto menor sea la dispersión del error

residual
mejor será el ajuste de regresión.
Eso hace que definamos como medida de

bondad de un ajuste de regresión,
o coeficiente de determinación a:
VNE
R  1
2
VT
S 2
e  S 2
Y
Resumen sobre bondad de un ajuste
• La bondad de un ajuste de un modelo de regresión se mide usando el

coeficiente de determinación r2
• r2 es una medida adimensional que sólo puede tomar valores en [0, 1]
• Cuando un ajuste es bueno, r2 será cercano a uno.
• Cuando un ajuste es malo r2 será cercano a cero.
• A r2 también se le denomina porcentaje de variabilidad explicado por el

modelo de regresión.
Coef. de correlación lineal de Pearson
• La coeficiente de correlación lineal de Pearson de dos variables, r,

nos indica si los puntos tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y verticales).
• tiene el mismo signo que cov(x,y) por tanto de su signo obtenemos

el que la posible relación sea directa o inversa.
• r es útil para determinar si hay relación lineal entre dos variables,

pero no servirá para otro tipo de relaciones (cuadrática,
logarítmica,...)
cov( x, y )
r
Sx Sy
Coeficiente de Correlación :r
• X e Y son variables aleatorias . Luego, no existe una variable explicativa y

otra explicada.
• La población de la cual se extrae la muestra es Normal Bivariada .
• Existe una relación lineal entre las variables, la cual está medida por el
coeficiente de correlación poblacional definido como :
X e Y están Normalment e distribuíd as con

E( x )   x V( x )   2x y E( y)   y V( y)   2y
Coeficient e de Correlació n Poblaciona l
Cov( x, y) E[( X   x )( Y   y )]
  1    1
xy E[( X   x ) 2 ]E[( Y   y ) 2 ]
r  ˆ Coeficient e de Corr. Muestral

1 n n
cov( x, y) 
n i 1
( xi  X )( yi  Y )  xi yi  nXY
r  r i 1
1  r  1
S ( x ).S ( y) 1 n
( x  nX )( y  nY )
2 2 2 2
n
 ( x i  X ) 2  ( yi  Y ) 2 i i
i 1
r =-1 *Existe relación inversa y perfecta entre las variables
r =1 *Existe relación directa y perfecta entre variables
r =0 *No existe relación lineal entre las variables -Variables no correlacionadas
-1 < r < 0 *Existe relación inversa entre las variables
0 < r < 1 * Existe relación directa entre las variables
2 2 2
Regresión y Correlación r  (r )  0  r  1;  1  r  1
Correlaciones Negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
110 100
100 90
90 80
80
70
70
60
60
50 50
40 r=0,6 40 r=0,8
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
casi perfectas y positivas
100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,9 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
100
90
80
70
60
50
40 r=1
30
140 150 160 170 180 190 200
Animación: Residuos del modelo de regresión
INFERENCIA SOBRE EL COEFICIENTE DE CORRELACIÓN
Distribución del coeficiente de correlación muestral r
Para  = r es simétrica alrededor

n . Normal
0 de
r
~ t n2
( n ) es pequeño 1 r2
n2
H0 :  = 0 H0 : X e Y son independientes
H1 :   0 H1 : X e Y no son independientes
DISTRIBUCIÓN DE LOS ESTIMADORES DE  y 
a ~ N ( ,  a )
a 
~ N (0,1) con  a   e.  xi2  e es desconocido
a n. ( xi  X ) 2
a 
entonces ~ t n2
Sa
b e
b ~ N ( , b ) ~ N (0,1) como  b   e es desconocido
b  ( xi  X ) 2
b
entonces ~ t n2 ,
Sb
VARIANCIA DE LA RECTA DE REGRESIÓN
Y    X  
i i i con  i ~ N (0,  2 )
Yî  ˆ  ˆX i  a  bxi 
E (Yî )  E (a)  E (b) xi     xi
E ( yˆ i )    xi  E ( yi )
yˆ i es un estimador no viciado de   x i
V {Y  b( x i  X )}
V (Yî )  V (a  bxi ) 
V (Yî )  V (Y )  ( xi  X )2V (b)
2     V ( i )
2 2
V (Y )  e
n
 2
 2
V (Yî )   ( xi  X ) 2 .
n  i
( x  X ) 2
 1 ( x  X ) 2

V (Yî )    
2 i
2
 n  ( xi  X ) 
ESTIMACIÓN DE LA MEDIA DE Yi
Correspondiente a un valor conocido de xi
Yi ~ N (   . xi , e )
yˆ i  (   . xi ) yˆ i   yi
 ~ N (0,1)
 yˆ i  yˆ i
yˆ i  (   . x i ) yˆ i   yi

 yˆ i  S ( yˆ i )
~ t n2
S ( yˆ i ) S ( yˆ i )
yˆ i t n 2; / 2 .S ( yˆ i )  yi  yˆ i t n 2; / 2 .S ( yˆ i )
ESTIMACION DE UN FUTURO VALOR Yi PARA Xi FIJO
la variación propia la de los errores 

la variación de la recta de ajuste.
 1 ( xi  X ) 2 
V(yˆ /x i )  V ( i )  V ( yˆ i )     . 
2 2
2
 n  i
( x  X ) 
 1 ( xi  X ) 2 
V ( yˆ / xi )  S 2
 S .1  
2
2
 n  ( xi  X ) 
( yi ) e
yˆ i  t n2; / 2 .S ( yi ) y  yˆ i  t n2; / 2 .S ( yi )

Coef Determinacion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Coef Determinacion

Uploaded by

Copyright:

Available Formats

Regresión y Correlación

El término regresión fue introducido por Galton en su libro

Padres muy altos tienen tendencia a tener hijos que heredan

Hoyen día el sentido de regresión es el de predicción de una

• El Modelo es la expresión teórica del comportamiento de la

 = Es el valor medio teórico que asume la variable Y cuando

 = Es el valor medio teórico del aumento o decremento de la

 = Es el término de error en él se incluyen los errores

• La variable "explicativa" X toma valores predeterminados por el

• Para cada valor fijo de X , la variable Y se distribuye Normal .

• La relación entre las variables X e Y es lineal , es decir, la regresión del

• Los valores de la variable Y son independientes entre si ya que existe

• El análisis de regresión sirve para predecir una medida en función

fila = datos de un individuo

Alturas y pesos de 30 individuos representados en un diagrama de

Mide 187 cm.

El peso aumenta 10Kg por cada 10 cm de altura... o sea,

Método de los Mínimos Cuadrados

• La covarianza entre dos variables, Cov(x,y), nos indica si la posible relación

– Directa: Cov(x,y), >0

– Inversa: Cov(x,y), <0

– No existe relación : Cov(x,y), =0

• El signo de la covarianza indica el comportamiento entre las variables. Esta

•Esto se llama relación directa o creciente entre X

• a = ordenada al origen cuando x=0 ; y=a

b>0 :existe una relación lineal directa entre las variables

b<0: existe una relación lineal inversa entre las variables

b=0 no existe relación lineal entre las variables .

• Se pueden considerar otros tipos de

• Incluso se puede considerar el que una

140 150 160 170 180 190 200

En primer lugar olvidemos que existe Y

La franja sombreada indica la zona

Proyección sobre el eje Y = olvidar X y

Se observa que los errores de predicción,

Cuanto menos dispersos sean los

• La dispersión del error residual será una

•Cuanto menor sea la dispersión del error

Eso hace que definamos como medida de

• La bondad de un ajuste de un modelo de regresión se mide usando el

• r2 es una medida adimensional que sólo puede tomar valores en [0, 1]

• Cuando un ajuste es bueno, r2 será cercano a uno.

• Cuando un ajuste es malo r2 será cercano a cero.

• A r2 también se le denomina porcentaje de variabilidad explicado por el

• La coeficiente de correlación lineal de Pearson de dos variables, r,

• tiene el mismo signo que cov(x,y) por tanto de su signo obtenemos

• r es útil para determinar si hay relación lineal entre dos variables,

• X e Y son variables aleatorias . Luego, no existe una variable explicativa y

• La población de la cual se extrae la muestra es Normal Bivariada .

X e Y están Normalment e distribuíd as con

r  ˆ Coeficient e de Corr. Muestral

r =-1 *Existe relación inversa y perfecta entre las variables

r =1 *Existe relación directa y perfecta entre variables

r =0 *No existe relación lineal entre las variables -Variables no correlacionadas

-1 < r < 0 *Existe relación inversa entre las variables

0 < r < 1 * Existe relación directa entre las variables

Para  = r es simétrica alrededor

Yˆi  ˆ  ˆX i  a  bxi 

E (Yˆi )  E (a)  E (b) xi     xi

V (Yˆi )  V (Y )  ( xi  X )2V (b)

Correspondiente a un valor conocido de xi

la variación propia la de los errores 

You might also like