Professional Documents
Culture Documents
El trmino regresin fue introducido por Galton en su libro Natural inheritance (1889)
refirindose a la ley de la regresin universal:
Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un
grado menor.
Regresin a la media
Su trabajo se centraba en la descripcin de los rasgos fsicos de los descendientes (una variable) a
partir de los de sus padres (otra variable).
Pearson (un amigo suyo) realiz un estudio con ms de 1000 registros de grupos familiares
observando una relacin del tipo:
Conclusin: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura,
aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres
muy bajos.
Hoy en da el sentido de regresin es el de prediccin de una medida basndonos en el
conocimiento de otra.
X
n
COV ( X , Y ) =
i =1
X Yi Y
La covarianza entre dos variables, COV(X,Y), nos indica si la posible relacin entre dos variables
es directa o inversa.
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos
dice nada sobre el grado de relacin entre las variables.
r ( X ,Y ) =
Cov( X , Y )
S X SY
El coeficiente de correlacin lineal de Pearson de dos variables, r, nos indica si los puntos
tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales).
tiene el mismo signo que COV(X,Y) por tanto de su signo obtenemos el que la posible relacin
sea directa o inversa.
r es til para determinar si hay relacin lineal entre dos variables, pero no servir para otro tipo
de relaciones (cuadrtica, logartmica,...)
Es adimensional
Slo toma valores en [-1,1]
Las variables son no correlacionadas
r=0
Relacin lineal perfecta entre dos variables
r = +1 o r = -1
Excluimos los casos de puntos alineados horizontal o verticalmente.
Cuanto ms cerca est r de +1 o -1 mejor ser el grado de relacin lineal.
Siempre que no existan observaciones anmalas.
CORRELACIONES POSITIVAS
330
130
280
110
230
90
180
70
130
50
80
r=0,1
r=0,4
30
110
30
140
150
160
170
180
190
200
100
140
150
160
170
180
190
200
90
90
80
70
70
60
50
50
40
r=0,6
30
r=0,8
30
140
150
160
170
180
190
200
140
150
160
170
180
190
200
________________________________________________________________________________________________
2
.
110
90
90
70
70
50
50
r=0,9
30
140
150
160
170
180
190
r=1
30
200
140
150
160
170
180
190
200
CORRELACIONES NEGATIVAS
80
80
60
60
40
40
20
20
r=-0,5
0
140
150
r=-0,7
160
170
180
190
200
140
80
80
60
60
40
40
160
170
180
170
180
190
200
20
20
0
150
0 r=-0,999
r=-0,95
140
150
160
170
180
190
140
200
150
160
190
200
EJEMPLO
La siguiente informacin muestra el puntaje obtenido (de un total de 10) en dos pruebas de
matemticas.
1 prueba
2 prueba
6
8
5
7
8
7
8
10
7
5
6
8
10
10
4
6
9
8
7
6
a) Graficar
b) Calcule e interprete el coeficiente de correlacin.
________________________________________________________________________________________________
3
.
Y = f ( x ) + error
f es una funcin de un tipo determinado
el error es aleatorio, pequeo, y no depende de X
La regresin lineal simple determina una lnea recta o ecuacin matemtica lineal que describe la
relacin entre dos variables.
En la etapa inicial del anlisis de datos es importante graficarlos para darnos una idea de la relacin
que tienen. Al realizar un diagrama de dispersin se observa un conjunto de puntos que estn ms o
menos sobre una recta.
16
14
12
10
8
6
4
2
0
0
10
15
Buscamos encontrar una funcin de X muy simple (lineal) que nos permita aproximar Y mediante:
= a + bX
a (ordenada en el origen, constante)
b (pendiente de la recta)
Y e rara vez coincidirn por muy bueno que sea el modelo de regresin. A la cantidad
________________________________________________________________________________________________
4
.
e = Y Y
Y = a + bX
a =85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm)
b = 0,5 (En media el hijo gana 0,5 cm por cada cm del padre.)
Y = a + bX
EJEMPLO
El ingreso anual disponible (X) y los gastos de consumo (Y) de 12 familias, seleccionadas
aleatoriamente, en cierta ciudad, han sido en miles de euros los siguientes:
Gastos
de 7
consumo
Ingreso anual 8
disponible
12
18
30
20
24
11
10
18
15
20
35
28
25
13
12
15
________________________________________________________________________________________________
5
.
a)
b)
c)
d)
Ajuste una recta de regresin en la que el consumo sea funcin de los ingresos.
Interprete los coeficientes del modelo.
Cul es el consumo esperado para una familia con un ingreso de 15 mil euros?
Encuentre e interprete el coeficiente de correlacin.
BONDAD DE AJUSTE
R2 puede ser pesado de calcular en modelos de regresin general, pero en el modelo lineal
simple, la expresin es de lo ms sencilla: R2= r2
________________________________________________________________________________________________
6
.
8
6
12
7
12
10
16
8
16
13
20
15
20
14
24
16
24
14
a) Graficar
b) Calcule e interprete el coeficiente de correlacin.
2.- En un grupo de investigacin se estableci una escala del grado de violencia en programas de
TV, para lo cual se calific 10 programas y recopilaron datos sobre el porcentaje de tele espectadores de cada uno de ellos.
Programa
Grado de Violencia
Porcentaje de
telespectadores
1
10
15
2
20
16
3
30
20
4
40
24
5
40
25
6
50
30
7
55
30
8
65
35
9
70
35
10
70
35
Ingreso
45
Mensual
Metros
55
Cuadrados
115
120
95
75
170
110
140
130
75
80
105 200 95
60
200
180
110
90
260
140
215
200
85
90
4.- La direccin de una empresa quiere estudiar la rentabilidad de su inversin en publicidad. Para
ello ha recogido datos del volumen de ventas y del gasto en publicidad referidos a los aos noventa
y expresados en millones de pesos.
Ao
90
Ventas 50
Gastos 10
91
100
15
92
150
18
93
200
20
94
200
25
95
300
35
96
400
50
97
500
60
98
650
65
99
700
70
a) Especifique y estime el modelo lineal que explique las ventas de la empresa en funcin de la
inversin publicitaria. Interpretar los parmetros estimados.
b) En el ao 2003 la empresa a invertir 120 millones en publicidad. Calcular el volumen de
ventas esperado.
d) Calcule e interprete el coeficiente de correlacin.
e) Calcule e interprete el coeficiente de determinacin
5.- Para analizar la concentracin de una solucin (Y) a lo largo del tiempo (X), un qumico preparo
15 soluciones idnticas. Las 15 soluciones fueron divididas aleatoriamente en 5 grupos de 3 cada
uno, y los 5 grupos fueron comprobados despus de 1,3,5,7,9 horas, respectivamente, obtenindose
las siguientes concentraciones.
X 9
Y 0.0
7
9
0.0
9
9
0.0
8
7
0.1
6
7
0.1
7
7
0.2
1
5
0.4
9
5
0.5
8
5
0.5
3
3
1.2
2
3
1.1
5
3
1.0
7
1
2.8
4
1
2.5
7
1
3.1
0
Ajuste una funcin de regresin lineal a los datos. Interprete los resultados.
Ene
14
23
Feb
6
10
Mar
16
22
Abr
18
25
May
24
32
Jun
22
31
Jul
37
39
Ago
32
42
Sep
30
41
Oct
33
47
Nov
37
54
Dic
34
47
Identifique variables
Calcule la covarianza e interprete su signo.
Obtenga la ecuacin de la recta de regresin.
Interprete los parmetros de la recta de regresin.
Calcule e interprete R2
Estime las unidades vendidas en un mes si le solicitan 50 presupuestos.
________________________________________________________________________________________________
8
.