Regresión y correlación en

Tema 5: Regresión y Correlación.
Regresión y Correlación
Manuel Ruiz Marı́n
Universidad Politécnica de Cartagena
Manuel Ruiz Marı́n Regresión y Correlación

Índice del Tema

5.1. Concepto de ajuste lineal.
5.2. El método de los mı́nimos cuadrados y las ecuaciones normales.
5.3. Ajuste por mı́nimos cuadrados a una recta.
5.3.1. Propiedades.
5.4. Coeficientes de determinación y correlación lineal.
5.4.1. La varianza residual.
5.4.2. Relación entre las varianzas Sy2 , Sy2∗ , Se2
5.4.2. El coeficiente de determinación.
5.4.3. El coeficiente de correlación lineal.
5.5. Regresión no lineal.
5.5.1. Ajuste hiperbólico.
5.5.2. Ajuste exponencial.
5.5.3. Ajuste potencial.
5.5.4. Ajuste parabólico.
5.7. Regresión lineal múltiple.
5.7.1. Ajuste a un hiperplano por mı́nimos cuadrados.
5.7.2. El coeficiente de determinación múltiple y parcial.

¿Qué Necesitamos Saber?


1 Calcular la media aritmética, x.
2 Calcular la varianza s 2 y desviación tı́pica s.
3 Distribuciones bidimensionales.
4 Calcular la covarianza Sxy .
5 Cobocer las ecuaciones de la: recta, hiperbola, parábola,
función exponencial, función potencial y de un hiperplano.
6 Representación grafica de las funciones anteriores.
7 Propiedades de los logaritmos.
8 Derivar y determinar extremos relativos en funciones reales de
variable real.
9 Cálculo matricial.


1 Calcular la media aritmética, x.
2 Calcular la varianza s 2 y desviación tı́pica s.
3 Distribuciones bidimensionales.
4 Calcular la covarianza Sxy .
5 Cobocer las ecuaciones de la: recta, hiperbola, parábola,
función exponencial, función potencial y de un hiperplano.
6 Representación grafica de las funciones anteriores.
7 Propiedades de los logaritmos.
8 Derivar y determinar extremos relativos en funciones reales de
variable real.
9 Cálculo matricial.

Objeto

Objeto
Objeto
Analizar la existencia Establecer relaciones funcionales donde una
serie de magnitudes (variables o atributos) X1 , X2 , . . . , Xp se
supone que están relacionadas con una variable Y mediante la
expresión
Y = f (X1 , X2 , . . . , Xp ).
Asimismo pretendemos medir el grado de bondad de la relación
establecida.

Objeto
Objeto
Analizar la existencia Establecer relaciones funcionales donde una
serie de magnitudes (variables o atributos) X1 , X2 , . . . , Xp se
supone que están relacionadas con una variable Y mediante la
expresión
Y = f (X1 , X2 , . . . , Xp ).
Asimismo pretendemos medir el grado de bondad de la relación
establecida.

Regresión con Dos Variables

¿Que relación existe entre X e Y ?

y1 y2 ... ys
x1 n11 n12 ... n1s
x2 n21 n22 ... n2s
.. .. .. .. ..
. . . . .
xk nk1 nk2 ... nks


y1 y2 ... ys
x1 n11 n12 ... n1s
x2 n21 n22 ... n2s
.. .. .. .. ..
. . . . .
xk nk1 nk2 ... nks

Existe algún tipo de asociación, dependencia o covariación entre
las variables X e Y .


y1 y2 ... ys
x1 n11 n12 ... n1s
x2 n21 n22 ... n2s
.. .. .. .. ..
. . . . .
xk nk1 nk2 ... nks

Existe algún tipo de asociación, dependencia o covariación entre
las variables X e Y .

¿Como seleccionar el modelo?. Diagrama de dispersión




Ajuste por Mı́nimos Cuadrados a

Una Recta

Ajuste por Mı́nimos Cuadrados a una Recta
Regresión Lineal por Mı́nimos Cuadrados

Objetivo
Hacer mı́nima la suma de los errores al cuadrado
N
X N
X N
X
f (a, b) = ei2 = (yi − yi∗ )2 = (yi − a − bxi )2
i=1 i=1 i=1

Objetivo
Hacer mı́nima la suma de los errores al cuadrado
N
X N
X N
X
f (a, b) = ei2 = (yi − yi∗ )2 = (yi − a − bxi )2
i=1 i=1 i=1

Primera Condición Para Mı́nimo. Ecuaciones Normales

N N

∂f P P
∂a (a, b) = −2 yi − Na − b xi = 0 


i=1
N N
i=1
N

∂f P P P 2
∂b (a, b) = −2 yi xi − a xi − b

xi = 0 

i=1 i=1 i=1


N N

∂f P P
∂a (a, b) = −2 yi − Na − b xi = 0 


i=1
N N
i=1
N

∂f P P P 2
∂b (a, b) = −2 yi xi − a xi − b

xi = 0 

i=1 i=1 i=1
Segunda Condición Para Mı́nimo. El Hessiano

 ∂2f ∂2f

∂2a
(a, b) = 2N ∂a∂b (a, b) = 2Nx
Hf (a, b) =  ∂ 2 f N
∂2f

2
P
∂b∂a (a, b) = 2Nx 2
∂ b
(a, b) = 2 x i
i=1
∆1 = 2N > 0 y ∆2 = 4N 2 sx2 > 0.

Luego los a y b solución de las ecuaciones normales son mı́nimo
para f (a, b).


N N

∂f P P
∂a (a, b) = −2 yi − Na − b xi = 0 


i=1
N N
i=1
N

∂f P P P 2
∂b (a, b) = −2 yi xi − a xi − b

xi = 0 

i=1 i=1 i=1
Segunda Condición Para Mı́nimo. El Hessiano

 ∂2f ∂2f

∂2a
(a, b) = 2N ∂a∂b (a, b) = 2Nx
Hf (a, b) =  ∂ 2 f N
∂2f

2
P
∂b∂a (a, b) = 2Nx 2
∂ b
(a, b) = 2 x i
i=1
∆1 = 2N > 0 y ∆2 = 4N 2 sx2 > 0.

Luego los a y b solución de las ecuaciones normales son mı́nimo
para f (a, b).

Sistema de Ecuaciones Normales

N N

P P
yi = Na + b xi 


i=1 i=1
N N N
xi2 
P P P 
yi xi = a xi + b 
i=1 i=1 i=1


N N

P P
yi = Na + b xi 


i=1 i=1
N N N
xi2 
P P P 
i=1 i=1 i=1
Dividiendo las ecuaciones por N tenemos
Ecuaciones Normales

y = a + bx 
N N
1 P 1 P 2
N yi xi = ax + b N xi 
i=1 i=1


N N

P P
yi = Na + b xi 


i=1 i=1
N N N
xi2 
P P P 
i=1 i=1 i=1
Dividiendo las ecuaciones por N tenemos
Ecuaciones Normales

y = a + bx 
N N
1 P 1 P 2
N yi xi = ax + b N xi 
i=1 i=1

Coeficientes de la Recta de Regresión

Sxy
)
b= sx2
Sxy
a=y− sx2
x

Coeficientes de la Recta de Regresión

Sxy
)
b= sx2
Sxy
a=y− sx2
x

El Binomio Cálculos-Gráficos

El Binomio Cálculos-Gráficos. Cambio de Escala

El aspecto de un diagrama de dispersión puede alterarse
drásticamente con un cambio de escala.
Un aumento en la escala puede hacernos creer en la posible
existencia de un ajuste lineal para dos variables incorreladas.





El Binomio Cálculos-Gráficos. Hacer Cálculos Sin Representar Datos

Presentamos dos modelos de regresión lineales con los mismos
coeficientes y mismo grado de bondad.
Pero el ajuste lineal del Modelo 2 no es el más adecuado para los
datos proporcionados.
De ahı́ la importancia de la representación gráfica.

El Binomio Cálculos-Gráficos. Hacer Cálculos Sin Representar Datos

Presentamos dos modelos de regresión lineales con los mismos
coeficientes y mismo grado de bondad.
Pero el ajuste lineal del Modelo 2 no es el más adecuado para los
datos proporcionados.
De ahı́ la importancia de la representación gráfica.

Propiedades de la Recta de
Regresión

Propiedades de la recta de regresión

N
P
ei = 0 (por la primera ecuación normal)
i=1
Dadas las rectas de regresión

Y = a + bX
X = c + dY
se cortan en el punto (x, y ).

Las variables Y ∗ y E son incorreladas, es decir Sy ∗ e = 0 (por
la primera propiedad y la segunda ecuación normal).

Propiedades de la recta de regresión

N
P
ei = 0 (por la primera ecuación normal)
i=1
Dadas las rectas de regresión

Y = a + bX
X = c + dY
se cortan en el punto (x, y ).

Las variables Y ∗ y E son incorreladas, es decir Sy ∗ e = 0 (por
la primera propiedad y la segunda ecuación normal).

Coeficientes de Determinación y
Correlación

Coeficientes de Determinación y Correlación
Objetivo
Una vez determinada la recta de regresión queremos determinar si
el ajuste es bueno.
Objetivo
Encontrar un coeficiente que indique el grado de bondad del ajuste.

Objetivo
Una vez determinada la recta de regresión queremos determinar si
el ajuste es bueno.
Objetivo
Encontrar un coeficiente que indique el grado de bondad del ajuste.

La Varianza Residual
Como los coeficientes a y b calculados por mı́nimos cuadrados
hacen mı́nima
N
X
f (a, b) = ei2 ,
i=1
parece lógico que una primera medida del grado de bondad del
ajuste serı́a calcular el valor de ese mı́nimo.
PN
Obsérvese que como ei = 0 tenemos que:
i=1
N
1 X 2
sE2 = ei ,
N
i=1
término que se le conoce como varianza residual.

Como los coeficientes a y b calculados por mı́nimos cuadrados
hacen mı́nima
N
X
f (a, b) = ei2 ,
i=1
parece lógico que una primera medida del grado de bondad del
ajuste serı́a calcular el valor de ese mı́nimo.
PN
Obsérvese que como ei = 0 tenemos que:
i=1
N
1 X 2
sE2 = ei ,
N
i=1
término que se le conoce como varianza residual.

Cálculo de la Varianza Residual
N N N N
1 X 2 1 X 1 X 1 X ∗
se2 = ei = ei (yi − yi∗ ) = e i yi − e i yi
N N N N
i=1 i=1 i=1 i=1
Como las variables Y ∗ y E son incorreladas tenemos que

N
ei yi∗ = 0 y por tanto:
P
i=1
N N N
yi2 − a
P P P
N yi − b xi yi
1 X i=1 i=1 i=1
se2 = e i yi =
N N
i=1

Cálculo de la Varianza Residual
N N N N
1 X 2 1 X 1 X 1 X ∗
se2 = ei = ei (yi − yi∗ ) = e i yi − e i yi
N N N N
i=1 i=1 i=1 i=1
Como las variables Y ∗ y E son incorreladas tenemos que

N
ei yi∗ = 0 y por tanto:
P
i=1
N N N
yi2 − a
P P P
N yi − b xi yi
1 X i=1 i=1 i=1
se2 = e i yi =
N N
i=1

La Varianza residual mide la dispersión existente entre los valores
observados (yi ) y los valores ajustados (yi∗ ).
Si se2 es muy grande la bondad del ajuste será baja.
Si se2 es muy pequeña la bondad del ajuste será alta.
Si se2 = 0 es porque todos los ei = 0 y por tanto todos los
puntos estan sobre la recta. Habria una relación funcional
perfecta.

La Varianza residual mide la dispersión existente entre los valores
observados (yi ) y los valores ajustados (yi∗ ).
Si se2 es muy grande la bondad del ajuste será baja.
Si se2 es muy pequeña la bondad del ajuste será alta.
Si se2 = 0 es porque todos los ei = 0 y por tanto todos los
puntos estan sobre la recta. Habria una relación funcional
perfecta.

Relación Entre la Varianzas sy2 , sy2∗ y se2

En el caso de ajuste lineal, como Y = Y ∗ + E y e = 0 tenemos
N
que y = y ∗ y además yi∗ ei = 0. Por tanto:
P
i=1
N N
sy2 = 1
yi2 − y 2 = 1
(yi∗ + ei )2 − y ∗2 =
P P
N N
i=1 i=1
N N
1
yi∗2 y ∗2 1
ei2 = sy2∗ + se2
P P
= N − + N
i=1 i=1


N
P
i=1
N N
sy2 = 1
yi2 − y 2 = 1
(yi∗ + ei )2 − y ∗2 =
P P
N N
i=1 i=1
N N
1
yi∗2 y ∗2 1
ei2 = sy2∗ + se2
P P
= N − + N
i=1 i=1

s2y = s2y∗ + s2e


N
P
i=1
N N
sy2 = 1
yi2 − y 2 = 1
(yi∗ + ei )2 − y ∗2 =
P P
N N
i=1 i=1
N N
1
yi∗2 y ∗2 1
ei2 = sy2∗ + se2
P P
= N − + N
i=1 i=1

s2y = s2y∗ + s2e

Problema
se2 viene dada en las unidades de medida de la variable
dependiente al cuadrado.
¿A partir de que valores se2 es suficientemente pequeña o
grande como para admitir un buen o mal ajuste?.

Problema
Solución
Determinar un coeficiente que mida el grado de bondad del ajuste
lineal de manera que:
Sea adimensional, es decir, carezca de unidades de medida.
Nos permita decidir si el juste es aceptable o no.

Problema
Solución
Determinar un coeficiente que mida el grado de bondad del ajuste
lineal de manera que:
Sea adimensional, es decir, carezca de unidades de medida.
Nos permita decidir si el juste es aceptable o no.

Coeficiente de Determinación
El coeficiente de determinación R 2 determina la proporción de la
varianza de la variable Y que queda explicada por la variable
ajustada Y ∗ :
sy2∗ sy2 − se2 se2
R2 = 2 = = 1 −
sy sy2 sy2

ajustada Y ∗ :
R2 = 2 = = 1 −
sy sy2 sy2
Rango de Variación de R 2
Como R 2 es un cociente de varianzas tenemos que 0 ≤ R 2 .
2
Por otro lado 1 − R 2 = sse2 ≥ 0 y por tanto R 2 ≤ 1. Por tanto:
y
0 ≤ R2 ≤ 1 ⇒ −1 ≤ R ≤ 1

ajustada Y ∗ :
R2 = 2 = = 1 −
sy sy2 sy2
Rango de Variación de R 2
Como R 2 es un cociente de varianzas tenemos que 0 ≤ R 2 .
2
Por otro lado 1 − R 2 = sse2 ≥ 0 y por tanto R 2 ≤ 1. Por tanto:
y
0 ≤ R2 ≤ 1 ⇒ −1 ≤ R ≤ 1

Coeficiente de Correlación Lineal

Se define el coeficiente de correlación lineal como:
sxy
r=
sx sy


Se define el coeficiente de correlación lineal como:
sxy
r=
sx sy


Teorema En el caso de ajuste lineal se verifica que R 2 = r 2 .
Demostración:
N N N
yi2 −a
P P P
yi −b xi yi
sy2 − se2 sy2 − i=1 i=1 i=1
R2 = = N
sy2 sy2
Por otro lado como

Sxy )
a=y− sx
x
Sxy
b= sx
tenemos que
Sxy Sxy Sxy

sy2 − (sy2 + y ) + (y − sx
x)y + sx
xy + Sxy sx2 Sxy
R2 = = = = r2
sy2 sy2 sx2 sy2


Teorema En el caso de ajuste lineal se verifica que R 2 = r 2 .
Demostración:
N N N
yi2 −a
P P P
yi −b xi yi
sy2 − se2 sy2 − i=1 i=1 i=1
R2 = = N
sy2 sy2
Por otro lado como

Sxy )
a=y− sx
x
Sxy
b= sx
tenemos que
Sxy Sxy Sxy

sy2 − (sy2 + y ) + (y − sx
x)y + sx
xy + Sxy sx2 Sxy
R2 = = = = r2
sy2 sy2 sx2 sy2

Interpretación de los Valores de R

R = 1 ⇒ se2 = 0. Todos los valores teóricos coinciden con los
observados. Existe correlaión perfecta positiva.
R = −1 ⇒ se2 = 0. Todos los valores teóricos coinciden con
los observados. Existe correlaión perfecta negativa.
R = 0 ⇒ sy2∗ = 0 y por tanto sy2 = se2 . Luego no se consigue
ninguna explicación de la variable Y relacionándola con la X .
La correlación es nula.
−1 ≤ R ≤ 0, la correlación serı́a negativa, siendo más intensa
cuanto mas cerca esté de −1.
0 ≤ R ≤ 1, la correlación serı́a positiva, indicando una mayor
interrelación cuanto más próximo esté de 1.

Interpretación de los Valores de R

R = 1 ⇒ se2 = 0. Todos los valores teóricos coinciden con los
observados. Existe correlaión perfecta positiva.
R = −1 ⇒ se2 = 0. Todos los valores teóricos coinciden con
los observados. Existe correlaión perfecta negativa.
R = 0 ⇒ sy2∗ = 0 y por tanto sy2 = se2 . Luego no se consigue
ninguna explicación de la variable Y relacionándola con la X .
La correlación es nula.
−1 ≤ R ≤ 0, la correlación serı́a negativa, siendo más intensa
cuanto mas cerca esté de −1.
0 ≤ R ≤ 1, la correlación serı́a positiva, indicando una mayor
interrelación cuanto más próximo esté de 1.

Regresión No Lineal

b
Ajuste Hiperbólico Y = a + X
b
Queremos determinar el ajuste Y = a + X por mı́nimos cuadrados.
Es equivalente a:
1
Mediante el cambio de variable Z = X realizar el ajuste lineal
Y = a + bZ .

b
Ajuste Hiperbólico Y = a + X
b
Queremos determinar el ajuste Y = a + X por mı́nimos cuadrados.
Es equivalente a:
1
Mediante el cambio de variable Z = X realizar el ajuste lineal
Y = a + bZ .

Ajuste Exponencial Y = ae bX
Queremos determinar el ajuste Y = ae bX por mı́nimos cuadrados.
Es equivalente a:
Tomando logaritmos W = ln(Y ) y A = ln(a) realizar el ajuste

lineal
W = A + bX .
Luego los parámetros que determinan la función exponencial son
a = eA y b

Ajuste Exponencial Y = ae bX
Queremos determinar el ajuste Y = ae bX por mı́nimos cuadrados.
Es equivalente a:
Tomando logaritmos W = ln(Y ) y A = ln(a) realizar el ajuste

lineal
W = A + bX .
a = eA y b

Ajuste Potencial Y = aX b
Queremos determinar el ajuste Y = aX b por mı́nimos cuadrados.
Es equivalente a:
Tomando logaritmos W = ln(Y ), A = ln(a) y Z = ln(X ) realizar el

ajuste lineal
W = A + bZ .
a = eA y b

Ajuste Potencial Y = aX b
Queremos determinar el ajuste Y = aX b por mı́nimos cuadrados.
Es equivalente a:
Tomando logaritmos W = ln(Y ), A = ln(a) y Z = ln(X ) realizar el

ajuste lineal
W = A + bZ .
a = eA y b

Ajuste Parabólico Y = a + bX + cX 2
Queremos determinar el ajuste Y = a + bX + cX 2 por mı́nimos
cuadrados. Es decir, determinar a,b y c tales que minimizan:
N
X N
X
f (a, b, c) = ei2 = (yi − a − bxi − cxi2 )2
i=1 i=1
Para obtener las ecuaciones normales:

N
∂f
(yi − a − bxi − cxi2 ) = 0
P
∂a
= −2
i=1
N
∂f
(yi − a − bxi − cxi2 )xi = 0
P
∂b
= −2
i=1
N
∂f
(yi − a − bxi − cxi2 )xi2 = 0
P
∂c
= −2
i=1

Queremos determinar el ajuste Y = a + bX + cX 2 por mı́nimos
cuadrados. Es decir, determinar a,b y c tales que minimizan:
N
X N
X
f (a, b, c) = ei2 = (yi − a − bxi − cxi2 )2
i=1 i=1
Para obtener las ecuaciones normales:

N
∂f
(yi − a − bxi − cxi2 ) = 0
P
∂a
= −2
i=1
N
∂f
(yi − a − bxi − cxi2 )xi = 0
P
∂b
= −2
i=1
N
∂f
(yi − a − bxi − cxi2 )xi2 = 0
P
∂c
= −2
i=1

Por tanto las ecuaciones normales quedan:

N N N
xi2
P P P
yi = Na + b xi + c




i=1 i=1 i=1 


N N N N 
xi2 + c xi3
P P P P
yi xi = a xi + b
i=1 i=1 i=1 i=1 

N N N N


yi xi2 = a xi2 + b xi3 + c xi4
P P P P 



i=1 i=1 i=1 i=1
Para medir la bondad del ajuste se utilizará el coeficiente de

determinación
s2
R 2 = 1 − e2
sy

Por tanto las ecuaciones normales quedan:

N N N
xi2
P P P
yi = Na + b xi + c




i=1 i=1 i=1 


N N N N 
xi2 + c xi3
P P P P
yi xi = a xi + b
i=1 i=1 i=1 i=1 

N N N N


yi xi2 = a xi2 + b xi3 + c xi4
P P P P 



i=1 i=1 i=1 i=1
Para medir la bondad del ajuste se utilizará el coeficiente de

determinación
s2
R 2 = 1 − e2
sy

Regresión Lineal Múltiple

Aplicaciones de la Regresión
Explicativo. Determinar que variables explican una variable
dada.
Predictivo. Predecir valores de una variabe a partir de valores
conocidos de otras.

Aplicaciones de la Regresión
Explicativo. Determinar que variables explican una variable
dada.
Predictivo. Predecir valores de una variabe a partir de valores
conocidos de otras.

Ajuste a un Hiperplano por Mı́nimos Cuadrados

Dando valores a la ecuación del hiperplano tenemos:
y1∗ = b0 + b1 x11 + b2 x21 + · · · + bk xk1


y2∗ = b0 + b1 x12 + b2 x22 · · · + bk xk2


··· 
yn∗ = b0 + b1 x1n + b2 x2n + · · · + bk xkn


Matricialmente serı́a Y ∗ = XB donde

b0
 
y1∗ 1 x11 x21 ··· xk1
   
b1
y2∗ 1 x12 x22 ··· xk2
 
b2
     
Y∗ =  .. X = .. .. .. .. .. B=
     
..
  
 .   . . . . .   
 . 
yn∗ 1 x1n x2n ··· xkn
bk


Dando valores a la ecuación del hiperplano tenemos:
y1∗ = b0 + b1 x11 + b2 x21 + · · · + bk xk1


y2∗ = b0 + b1 x12 + b2 x22 · · · + bk xk2


··· 
yn∗ = b0 + b1 x1n + b2 x2n + · · · + bk xkn


Matricialmente serı́a Y ∗ = XB donde

b0
 
y1∗ 1 x11 x21 ··· xk1
   
b1
y2∗ 1 x12 x22 ··· xk2
 
b2
     
Y∗ =  .. X = .. .. .. .. .. B=
     
..
  
 .   . . . . .   
 . 
yn∗ 1 x1n x2n ··· xkn
bk


Si A es una matriz denoteremos por At la matriz traspuesta de A.
La matriz de errores será:
e1 = y1 − y1∗
 
 e2 = y2 − y2∗ 
E = Y − Y∗ = ..
 

 . 
en = yn − yn∗
De nuevo nuestro objetivo es minimizar

n
X n
X
ei2 = (yi − yi∗ )2 = E t E
i=1 i=1


Si A es una matriz denoteremos por At la matriz traspuesta de A.
La matriz de errores será:
e1 = y1 − y1∗
 
 e2 = y2 − y2∗ 
E = Y − Y∗ = ..
 

 . 
en = yn − yn∗
De nuevo nuestro objetivo es minimizar

n
X n
X
ei2 = (yi − yi∗ )2 = E t E
i=1 i=1


Por otro lado
E = Y − XB
luego tenemos que minimizar
E t E = (Y − XB)t (Y − XB) = Y t Y − 2Y t XB + B t X t XB
y derivando e igualando a cero tenemos:
∂E t E
= −2X t Y + 2X t XB = 0
∂B
de donde deducimos que
X t XB = X t Y


Por otro lado
E = Y − XB
luego tenemos que minimizar
E t E = (Y − XB)t (Y − XB) = Y t Y − 2Y t XB + B t X t XB
y derivando e igualando a cero tenemos:
∂E t E
= −2X t Y + 2X t XB = 0
∂B
de donde deducimos que
X t XB = X t Y


Por tanto si existe la matriz inversa de X t X tenemos que:
B = (X t X )−1 X t Y


Por tanto si existe la matriz inversa de X t X tenemos que:
B = (X t X )−1 X t Y

Coeficiente de Correlación Multiple


Con la misma filosofı́a que en el caso de la regresión lineal
definimos el coeficiente de correlación múltiple como:
s2y∗ s2
R2y,12...k = 2 = 1 − 2e
sy sy
además se verifica que
0 ≤ R2y,12...k ≤ 1
siendo mejor el ajuste cuando mas cercano esté a 1.


Con la misma filosofı́a que en el caso de la regresión lineal
definimos el coeficiente de correlación múltiple como:
s2y∗ s2
R2y,12...k = 2 = 1 − 2e
sy sy
además se verifica que
0 ≤ R2y,12...k ≤ 1
siendo mejor el ajuste cuando mas cercano esté a 1.

Coeficiente de Correlación Multiple en Forma Matricial

Como E = Y − XB y B = (X t X )−1 X t Y tenemos que
1 t
se2 = (Y Y − B t X t Y )
n
nse2 = E t E = (Y − XB)t (Y − XB) = Y t Y − B t X t − Y t XB + B t X t XB =
 
Dem: = Y t Y − B t X t Y − Y t XB + (X t X )−1 X t Y t X t XB = 
= Y t Y − B t X t Y − Y t XB + Y t XB = Y t Y − B t X t Y .
Como también y = y ∗ tenemos que

1 t t
sy2∗ = B X Y − y2
n
 n n 
nsy2∗ = (yi∗ − y ∗ )2 = yi∗2 − ny 2 = Y ∗t Y ∗ − ny 2 = (XB)t (XB) − ny 2 =
P P
Dem: i=1 i=1

B t X t X B − ny 2 = B t X t X (X t X )−1 X t Y − ny 2 = B t X t Y − ny 2 .


Como E = Y − XB y B = (X t X )−1 X t Y tenemos que
1 t
se2 = (Y Y − B t X t Y )
n
nse2 = E t E = (Y − XB)t (Y − XB) = Y t Y − B t X t − Y t XB + B t X t XB =
 
Dem: = Y t Y − B t X t Y − Y t XB + (X t X )−1 X t Y t X t XB = 
= Y t Y − B t X t Y − Y t XB + Y t XB = Y t Y − B t X t Y .
Como también y = y ∗ tenemos que

1 t t
sy2∗ = B X Y − y2
n
 n n 
nsy2∗ = (yi∗ − y ∗ )2 = yi∗2 − ny 2 = Y ∗t Y ∗ − ny 2 = (XB)t (XB) − ny 2 =
P P
Dem: i=1 i=1

B t X t X B − ny 2 = B t X t X (X t X )−1 X t Y − ny 2 = B t X t Y − ny 2 .


Además
1
sy2 = Y t Y − y 2
n
n n
nsy2 = (yi − y )2 = yi2 − ny 2 = Y t Y − ny 2 .
P P
Dem:
i=1 i=1
Luego
s2e Y t Y − Bt Xt Y Bt Xt Y − ny2
R2 = 1 − = 1 − = .
s2y Yt Y − ny2 Yt Y − ny2


Además
1
sy2 = Y t Y − y 2
n
n n
nsy2 = (yi − y )2 = yi2 − ny 2 = Y t Y − ny 2 .
P P
Dem:
i=1 i=1
Luego
s2e Y t Y − Bt Xt Y Bt Xt Y − ny2
R2 = 1 − = 1 − = .
s2y Yt Y − ny2 Yt Y − ny2

Coeficiente de Correlación Parcial


Problema
Estudiar el grado de asociación lineal entre las variables Y y Xi .
Solución 1
Una posible solución serı́a calculando el coeficiente de correlacion

lineal
SYXi
r=
sy sxi
Pero de esta manera no se tiene en cuenta que el grado de
correlación obtenido pueda ser fruto de la influencia que ejercen el
resto de variables X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk


Problema
Estudiar el grado de asociación lineal entre las variables Y y Xi .
Solución 1
Una posible solución serı́a calculando el coeficiente de correlacion

lineal
SYXi
r=
sy sxi
Pero de esta manera no se tiene en cuenta que el grado de
correlación obtenido pueda ser fruto de la influencia que ejercen el
resto de variables X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk


Solución 2
Eliminar la influencia de X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk
¿Cómo?
En tres pasos.
1.- Obtenniendo los hiperplanos de regresión:


b = c0 + c1 X1 + c2 X2 + · · · + ci−1 Xi−1 + ci+1 Xi+1 + · · · + ck Xk
Y 
bi = d0 + d1 X1 + d2 X2 + · · · + di−1 Xi−1 + di+1 Xi+1 + · · · + dk Xk 

X
que resumen la influencia que ejercen las variables

sobre Y y Xi respectivamente.
X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk


Solución 2
Eliminar la influencia de X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk
¿Cómo?
En tres pasos.
1.- Obtenniendo los hiperplanos de regresión:


b = c0 + c1 X1 + c2 X2 + · · · + ci−1 Xi−1 + ci+1 Xi+1 + · · · + ck Xk
Y 
bi = d0 + d1 X1 + d2 X2 + · · · + di−1 Xi−1 + di+1 Xi+1 + · · · + dk Xk 

X
que resumen la influencia que ejercen las variables

sobre Y y Xi respectivamente.
X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk


2.- Se definen las variables:

U =Y −Y
b 
V = Xi − X
bi 
que incorporan aquella parte de Y y Xi respectivamente, que

queda libre de la influencia de X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk
3.- Se define el coeficiente de correlación parcial entre Y y Xi

como la correlación simple entre U y V :
Suv
ryi·12...i−1i+1...k =
su sv


2.- Se definen las variables:

U =Y −Y
b 
V = Xi − X
bi 
que incorporan aquella parte de Y y Xi respectivamente, que

queda libre de la influencia de X1 , X2 , . . . , Xi−1 , Xi+1 , . . . , Xk
3.- Se define el coeficiente de correlación parcial entre Y y Xi

como la correlación simple entre U y V :
Suv
ryi·12...i−1i+1...k =
su sv

El Problema de la Multicolinealidad

La multicolinealidad ocurre cuando existe una correlacion entre dos
o más variables explicativas.
Ésto implica que en la matriz X existen columnas que son
combinación lineal de otras.
Por esta razón la matriz (X t X ) no será invertible y por tanto el
vector de coeficientes B = (X t X )−1 X t Y no se puede determinar.

La multicolinealidad ocurre cuando existe una correlacion entre dos
o más variables explicativas.
Ésto implica que en la matriz X existen columnas que son
combinación lineal de otras.
Por esta razón la matriz (X t X ) no será invertible y por tanto el
vector de coeficientes B = (X t X )−1 X t Y no se puede determinar.

Bibliografı́a
Bobliografı́a
GARCÍA CÓRDOBA J. A. , LÓPEZ HERNÁNDEZ F. A., PALACIOS
SÁNCHEZ Ma Á. y RUIZ MARÍN, M. (2000), Introducción a la Estadı́stica para
la Empresa. Horacio Escarabajal Editores, pp 95–124.
MARTÍN PLIEGO LÓPEZ, F.J. (2004), Introdución a la Estadı́stica Económica
Y Empresarial. Ed. Prentice Hall. pp. 235–372.
MONTIEL A.M., RIUS F. y BARÓN F.J., (1997), Elementos Básicos De
Estadı́stica Económica Y Empresarial. Ed. Prentice Hall. pp. 147–186.
NOVALES, A., (1996), Estadı́stica y Econometrı́a, Madrid: Mc Graw-Hill,
pp.475-516.
SANZ J.A.; BEDATE, A.; RIVAS, A. y GONZÁLEZ, J., (1996), Problemas De
Estadı́stica Descriptiva Empresarial. Ed. Ariel Economı́a., pp. 131–284.

Regresión y correlación en

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresión y correlación en

Uploaded by

Copyright:

Available Formats

Tema 5: Regresión y Correlación.

Manuel Ruiz Marı́n

Universidad Politécnica de Cartagena

Manuel Ruiz Marı́n Regresión y Correlación

Índice del Tema

Manuel Ruiz Marı́n Regresión y Correlación

¿Qué Necesitamos Saber?

Manuel Ruiz Marı́n Regresión y Correlación

¿Qué Necesitamos Saber?

¿Qué Necesitamos Saber?

Manuel Ruiz Marı́n Regresión y Correlación

¿Qué Necesitamos Saber?

¿Qué Necesitamos Saber?

Manuel Ruiz Marı́n Regresión y Correlación

Manuel Ruiz Marı́n Regresión y Correlación

Manuel Ruiz Marı́n Regresión y Correlación

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Que relación existe entre X e Y ?

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Que relación existe entre X e Y ?

¿Que relación existe entre X e Y ?

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Que relación existe entre X e Y ?

¿Que relación existe entre X e Y ?

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Como seleccionar el modelo?. Diagrama de dispersión

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Como seleccionar el modelo?. Diagrama de dispersión

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Como seleccionar el modelo?. Diagrama de dispersión

Manuel Ruiz Marı́n Regresión y Correlación

Regresión con Dos Variables

¿Como seleccionar el modelo?. Diagrama de dispersión

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Regresión Lineal por Mı́nimos Cuadrados

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Regresión Lineal por Mı́nimos Cuadrados

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Regresión Lineal por Mı́nimos Cuadrados

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Primera Condición Para Mı́nimo. Ecuaciones Normales

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Primera Condición Para Mı́nimo. Ecuaciones Normales

Segunda Condición Para Mı́nimo. El Hessiano

∆1 = 2N > 0 y ∆2 = 4N 2 sx2 > 0.

Manuel Ruiz Marı́n Regresión y Correlación

Ajuste por Mı́nimos Cuadrados a una Recta

Primera Condición Para Mı́nimo. Ecuaciones Normales