You are on page 1of 34

REGRESION Y

CORRELACIN LINEAL
Lic. Anan Grisella Basalda Galarza
VARIABLES ESTADISTICAS
BIDIMENSIONALES
Se trata de variables que surgen cuando
se estudian dos caractersticas asociadas
a la observacin de un fenmeno.
VARIABLES ESTADISTICAS
BIDIMENSIONALES
Ejemplo 1.- Estudiamos la talla, medida en
cm. y el peso medido en Kg. De un grupo
de personas podemos obtener los
siguientes valores

Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(Khs)
55 58 58 61 67 62 66 74 79 83
Podemos llamar X a la talla e Y al peso con
lo que se obtendra la variable bidimensional
(X,Y) que toma 10 valores, que son las 10
parejas de valores. (160,55), (165,58), etc.
En algunos casos el nmero de parejas
de valores (x,y) es grande y adems
muchos de ellos aparecen repetidos se
utiliza una Tabla de doble entrada
Talla
(cms)
160 165 168 170 171 175 175 180 180 182
Peso
(Khs)
55 58 58 61 67 62 66 74 79 83
Ejemplo:
# de hijas
(Y)
0 1 2 3
# de hijos
(x)
.

. .
0 . 10 15 15 3
1 . 10 15 15 3
2 . 10 12 7 2
3 .. 8 4 3 1
Relaciones entre
variables y regresin
El trmino regresin fue introducido por Galton en su libro
Natural inheritance (1889) refirindose a la ley de la
regresin universal:

Cada peculiaridad en un hombre es compartida por sus
descendientes, pero en media, en un grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de
los descendientes (una variable) a partir de los de sus padres
(otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000
registros de grupos familiares observando una relacin del tipo:

Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

Conclusin: los padres muy altos tienen tendencia a tener hijos que
heredan parte de esta altura, aunque tienen tendencia a acercarse
(regresar) a la media. Lo mismo puede decirse de los padres muy
bajos.


Hoy en da el sentido de regresin es el de prediccin de una
medida basndonos en el conocimiento de otra.
Francis Galton
Primo de Darwin
Estadstico y aventurero
Fundador (con otros) de
la estadstica moderna
para explicar las teoras
de Darwin.


Estudio conjunto de dos
variables
A la derecha tenemos una posible manera de recoger
los datos obtenido observando dos variables en varios
individuos de una muestra.

En cada fila tenemos los datos de un individuo

Cada columna representa los valores que toma una
variable sobre los mismos.

Las individuos no se muestran en ningn orden particular.

Dichas observaciones pueden ser representadas en un
diagrama de dispersin (scatterplot). En ellos, cada
individuos es un punto cuyas coordenadas son los
valores de las variables.

Nuestro objetivo ser intentar reconocer a partir del
mismo si hay relacin entre las variables, de qu tipo, y
si es posible predecir el valor de una de ellas en funcin
de la otra.
Altura
en cm.
Peso
en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Diagramas de dispersin o nube de
puntos
M
i
d
e

1
8
7

c
m
.

Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Relacin entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un
diagrama de dispersin.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Prediccin de una variable en
funcin de la otra
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea,
el peso aumenta en una unidad por cada unidad de altura.
10 cm.
10 kg.
Incorrelacin
30
80
130
180
230
280
330
140 150 160 170 180 190 200
Relacin directa e inversa
Fuerte relacin
directa.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Cierta relacin
inversa
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Para valores de X por encima de la
media tenemos valores de Y por
encima y por debajo en proporciones
similares. Incorrelacin.
Para los valores de X mayores que la
media le corresponden valores de Y
menores. Esto es relacin inversa o
decreciente.
Para los valores de X mayores que la media
le corresponden valores de Y mayores
tambin.

Para los valores de X menores que la media
le corresponden valores de Y menores
tambin.

Esto se llama relacin directa.
Cundo es bueno un modelo de
regresin?
Lo adecuado del modelo depende de
la relacin entre:
la dispersin marginal de Y
La dispersin de Y condicionada a X

Es decir, fijando valores de X, vemos
cmo se distribuye Y

La distribucin de Y, para valores
fijados de X, se denomina distribucin
condicionada.

La distribucin de Y,
independientemente del valor de X, se
denomina distribucin marginal.

Si la dispersin se reduce
notablemente, el modelo de regresin
ser adecuado.
150 160 170 180 190
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
y
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
3
2
0
3
4
0
3
6
0
3
8
0
4
0
0
4
2
0
r= 0.415
r^2 = 0.172
150 160 170 180 190
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
y
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0
3
5
0
3
6
0
3
7
0
3
8
0
3
9
0r= 0.984
r^2 = 0.969
La covarianza entre dos variables, S
xy
, nos indica si
la posible relacin entre dos variables es directa o
inversa.
Directa: S
xy
>0
Inversa: S
xy
<0
Incorreladas: S
xy
=0

El signo de la covarianza nos dice si el aspecto de la
nube de puntos es creciente o no, pero no nos dice
nada sobre el grado de relacin entre las variables.

Covarianza de dos variables
X e Y
PASOS PARA CALCULAR LA
COVARIANZA
1 Se calcula xiyi, esto es la sumatoria de
los productos de las variables x e y o sea:
(x
1
*y
1
) + (x
2
*y
2
)+.+ (x
n
*y
n
)
2 Se define n, que es el nmero de
eventos.
3 Se calcula , que es producto de las
medias de ambas variables.
4 Obtenidos todos los datos se sustituye
en la formula y se obtiene el resultado.

Talla
cms
x
Peso Kgr
y
x
i
y
i
160 55 8800
165 58 9570
168 58 9744
170 61 10370
171 67 11457
175 62 10850
175 66 11550
180 74 13320
180 79 14220
182 83 15106
1726 663 114987
S
xy
es un valor positivo que
corresponde a una
dependencia directa
REGRESIN
Relacin entre dos variables
Variable Independiente x
Variable Dependiente y
Funcin Lineal del tipo y= ax+b, su grfica
corresponde a una recta
Recta de Regresin
Una vez observado que una variable
bidimensional existe una cierta
dependencia entre las dos caractersticas
o variables, podemos precisar el grado de
dicha dependencia.
Silos puntos de la nube estuvieran todos
sobre la recta de regresin se dira que
existe una dependencia funcional.
Silos puntos no estn todos sobre la recta
de regresin se dice que hay cierta
correlacin lineal.
Regresin
El anlisis de regresin sirve para predecir una
medida en funcin de otra medida (o varias).
Y = Variable dependiente
predicha
explicada
X = Variable independiente
predictora
explicativa
Es posible descubrir una relacin?
Y = f(X) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X

Regresin

El ejemplo del estudio de la altura en grupos familiares de
Pearson es del tipo que desarrollaremos en el resto del
tema.

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin
lineal simple.
Coef. de correlacin lineal de
Pearson
La coeficiente de correlacin lineal de Pearson
de dos variables, r, nos indica si los puntos
tienen una tendencia a disponerse
alineadamente (excluyendo rectas horizontales y
verticales).


tiene el mismo signo que S
xy
por tanto de su
signo obtenemos el que la posible relacin sea
directa o inversa.

r es til para determinar si hay relacin lineal
entre dos variables, pero no servir para otro tipo
de relaciones (cuadrtica, logartmica,...)

y x
xy
S S
S
r
Es adimensional
Slo toma valores en [-1,1]
Las variables son incorreladas r=0
Relacin lineal perfecta entre dos variables r=+1 o r=-1
Excluimos los casos de puntos alineados horiz. o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de
relacin lineal.
Siempre que no existan observaciones anmalas.


Propiedades de r
-1 +1
0
Relacin
inversa
perfecta
Relacin
directa
casi
perfecta
Variables
incorrelada
s
Entrenando el ojo: correlaciones
positivas
r=0,1
30
80
130
180
230
280
330
140 150 160 170 180 190 200
r=0,4
30
40
50
60
70
80
90
100
110
120
130
140 150 160 170 180 190 200
r=0,8
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
r=0,99
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Entrenando el ojo:
correlaciones negativas
r=-0,5
0
10
20
30
40
50
60
70
80
90
140 150 160 170 180 190 200
r=-0,7
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,95
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
r=-0,999
0
10
20
30
40
50
60
70
80
140 150 160 170 180 190 200
Animacin: Evolucin de r y
diagrama de dispersin
Preguntas frecuentes
Si r=0 eso quiere decir que no las variables son
independientes?
En la prctica, casi siempre s, pero no tiene
por qu ser cierto en todos los casos.
Lo contrario si es cierto: Independencia
implica incorrelacin.

Me ha salido r=1.2 la relacin es superlineal[sic]?
Superqu? Eso es un error de clculo. Siempre debe tomar
un valor entre -1 y +1.

A partir de qu valores se considera que hay buena relacin
lineal?
Imposible dar un valor concreto (mirad los grficos anteriores).
Para este curso digamos que si |r|>0,7 hay buena relacin
lineal y que si |r|>0,4 hay cierta relacin (por decir algo... la
cosa es un poco ms complicada observaciones atpicas,
homogeneidad de varianzas...)



Otros coeficientes de correlacin
Cuando las variables en vez de ser numricas son
ordinales, es posible preguntarse sobre si hay
algn tipo de correlacin entre ellas.

Disponemos para estos casos de dos estadsticos,
aunque no los usaremos en clase:
(ro) de Spearman
(tau) de Kendall

No tenis que estudiar nada sobre ellos en este
curso. Recordad slo que son estadsticos
anlogos a r y que los encontrareis en
publicaciones donde las variables no puedan
considerarse numricas.
Maurice George Kendall
Charles Edward Spearman
Modelo de regresin lineal
simple
En el modelo de regresin lineal simple, dado dos
variables
Y (dependiente)
X (independiente, explicativa, predictora)

buscamos encontrar una funcin de X muy simple (lineal)
que nos permita aproximar Y mediante
= b
0
+ b
1
X
b
0
(ordenada en el origen, constante)
b
1
(pendiente de la recta)

Y e rara vez coincidirn por muy bueno que sea el
modelo de regresin. A la cantidad
e=Y- se le denomina residuo o error residual.
0
30
60
90
120
150
180
0 1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
1
7
0
1
8
0
1
9
0
2
0
0
2
1
0
2
2
0
En el ejemplo de Pearson y las alturas, l encontr:
= b
0
+ b
1
X
b
0
=85 cm (No interpretar como altura de un hijo cuyo padre mide 0
cm
b
1
=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)

b
0
=85 cm
b
1
=0,5
0
30
60
90
120
150
180
0 1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
1
0
0
1
1
0
1
2
0
1
3
0
1
4
0
1
5
0
1
6
0
1
7
0
1
8
0
1
9
0
2
0
0
2
1
0
2
2
0
La relacin entre las variables no es exacta. Es natural
preguntarse entonces:
Cul es la mejor recta que sirve para predecir los valores de Y
en funcin de los de X
Qu error cometemos con dicha aproximacin (residual).
b
0
=85 cm
b
1
=0,5
El modelo lineal de regresin se construye utilizando la tcnica de
estimacin mnimo cuadrtica:
Buscar b
0
, b
1
de tal manera que se minimice la cantidad

i
e
i
2

Se comprueba que para lograr dicho resultado basta con elegir:




Se obtiene adems unas ventajas de regalo
El error residual medio es nulo
La varianza del error residual es mnima para dicha estimacin.

Traducido: En trmino medio no nos equivocamos. Cualquier otra
estimacin que no cometa error en trmino medio, si es de tipo lineal, ser
peor por presentar mayor variabilidad con respecto al error medio (que es
cero).
x b y b
S
S
r b
X
Y
1 0 1

Animacin: Residuos del modelo
de regresin
Que el error medio de las
predicciones sea nulo no quiere
decir que las predicciones sean
buenas.

Hay que encontrar un medio de
expresar la bondad del ajuste
(bondad de la prediccin)
Cometi un
error de -30 en
su ltima
prediccin
No importa. Con los dos
ltimos clientes me
equivoqu en +10 y
+20. En trmino medio
el error es cero.
Talla cms Peso Kgr
x y
160 55
165 58
168 58
170 61
171 67
175 62
175 66
180 74
180 79
182 83
1726 663

You might also like