You are on page 1of 56

1

Anlisis de Regresin
Ing. Ricardo Rosas Roque

Los diagramas de dispersin

2
Qu es el Anlisis de Regresin?
El anlisis de regresin es un modelo
estadstico que consiste en tomar datos del
pasado y el presente y proyectarlos al
futuro.

Describe y evala la relacin entre una
variable dada (variable dependiente) y una
o ms variables (variables independientes).

Determina la mejor relacin funcional entre
dos o ms variables.

3
Uso del Anlisis de Regresin.

Ejemplo: permite proyectar el volumen de
ventas, conociendo la cantidad de
publicidad y el nmero de personal de
ventas que se emplea.

Usualmente se procede:

Consideracin analtica del fenmeno
Examen de diagrama de dispersin
Funcin matemtica que mejor representa
Estimar los parmetros de la funcin

4


Los modelos del Anlisis de regresin se
utilizan para ayudar a predecir el valor de
una variable.

5

6
Introduccin a la regresin lineal
Objetivo de un anlisis de regresin es
investigar la relacin estadstica que existe
entre una variable dependiente (Y) y una o
ms variables independientes.


La forma funcional que ms se utiliza en la
prctica es la relacin lineal.


7
Regresin Lineal Simple
Cuando solo existe una variable
independiente, esto se reduce a una lnea
recta:

Donde:
b
0
conocido como la ordenada en el origen,
indica cunto es Y cuando X = 0.

b
1
conocido como la pendiente, indica
cunto aumenta Y por cada aumento de una
unidad en X.
valor de Y calculado por la recta
8
Y

Estimacin de la recta de regresin


y del coeficiente de determinacin

En el anlisis de regresin, estas
estimaciones se obtienen por medio del
mtodo de mnimos cuadrados.

9
b
XY y X
X x X
1 2



b y b x
0 1

Ejemplo:

10
11
Operaciones Mensuales en una Empresa
de Transporte de Pasajeros.
Costos Millas
Totales Vehculo
(miles) (miles)
Mes N Y X
1 213.9 3147
2 212.6 3160
3 215.3 3197
4 215.3 3173
5 215.4 3292


12
Y X X
2
XY
213.9 3,147.0 9,903,609.0 673,143.3
212.6 3,160.0 9,985,600.0 671,816.0
215.3 3,197.0 10,220,809.0 688,314.1
215.3 3,173.0 10,067,929.0 683,146.9
215.4 3,292.0 10,837,264.0 709,096.8
Total 1,072.5 15,969.0 51,015,211.0 3,425,517.1
Promedio 214.5 3,193.8
15,969 - (214.5 x 15969) 166.6 0.0124
51015211 - (3193.8 x 15969) 13418.8
214.5 - (00124 x 3193.6) 174.8476
Y =
0
+
1
X
Y = 174.8476 + ( 0.0124 x 3500)
218.3
Coeficientes
Intercepcin
0
174.8476
Variable X 1
1
0.0124
Comentario
En la prctica: mayora de los puntos no caen
directamente sobre la recta, estn dispersos
en torno a ella. Esta dispersin representa la
variacin en Y que no puede atribuirse a la
variacin en X.

A la cantidad e = Y - se le denomina residuo o
error residual

Mtodo de mnimos cuadrados minimiza la suma
de los cuadrados de los errores, se determina B
0

y B
1


13
Anlisis del modelo
Descomposicin de la suma de cuadrados

Analizar la variacin de la variable dependiente.

Dentro de esta variacin, estudiar qu parte
est siendo explicada por el modelo de
regresin y qu parte es debida a los errores.

14
Anlisis de Variancia: en el anlisis
de regresin
SCT = SCR + SCE

SCT medida de la variacin de Y
SCR: suma cuadrados explicado por modelo
SCE suma de cuadrados residuo

(Y
i
- Y) = (
i
- Y) + (Y
i
-
i
)
SC
tot
SC
reg
SC
er

15

16
Suma de Cuadrados
Y
est
S. C. T. S. C. R. S. C. E.
6.5 5.76 3.61 0.25
4.6 11.56 14.44 0.16
8.4 0.16 0 0.16
12.2 12.96 14.44 0.04
10.3 6.76 3.61 0.49
42 37.2 36.1 1.1
(Y
i
- Y) = (
i
- Y) + (Y
i
-
i
)
SC
tot
SC
reg
SC
er
Coeficiente de determinacin (R
2
)
Una vez estimado el modelo es conveniente
obtener una medida acerca de la bondad del
ajuste realizado.

Un estadstico que facilita esta medida es el
coeficiente de determinacin R
2

R
2
= SCR / SCT
R
2
ajustado = 1 (CME / CMT)

17







18
Anlisis de Varianza
Fuente G. L. S. C. C. M. F
c
Regresin 1 36.1 36.1 98.455
Error 3 1.1 0.367
Total 4 37.2 9.3
0.970
0.961
Suma de Cuadrados
Y
est
S. C. T. S. C. R. S. C. E.
6.5 5.76 3.61 0.25
4.6 11.56 14.44 0.16
8.4 0.16 0 0.16
12.2 12.96 14.44 0.04
10.3 6.76 3.61 0.49
42 37.2 36.1 1.1
El coeficiente de determinacin crece con el
nmero de regresores del modelo.
Por ello, si los modelos que se comparan tienen
distinto nmero de regresores, no puede
establecerse comparacin entre sus R
2
.
En este caso debe emplearse el coeficiente de
determinacin corregido, que depura el
incremento que experimenta el coeficiente de
determinacin cuando el nmero de
regresores es mayor.

19
Inferencia acerca de los Estimadores.
La inferencia permite completar esta
estimacin puntual, mediante la estimacin
por:

a) intervalos
b) contrastes de hiptesis


20
Intervalo de confianza para el
parmetro
i

b
1
t
0
S
b
1



Donde:

t
0
: es el valor t tabular al nivel de significacin
/2 y n 2 grados de libertad
S
b
1

= (CME / SCX)

SCX = (Xi X
prom
)
2

1.9 3,182 (0.1915) = [1,3 - 2,509]
21
Anlisis de Varianza
Fuente G. L. S. C. C. M. F
c
Regresin 1 36.1 36.1 98.455
Error 3 1.1 0.367
Total 4 37.2 9.3
0.1915
Ao Publicidad SCX
1 4 1
2 3 4
3 5 0
4 7 4
5 6 1
Total 25 10
Prom 5
Intervalo de confianza para el
parmetro
i


S b
0
= [(CME x X
2
) / (n x SCX)]


= (0,367 x 25 / 5 x 10)

= 0,995


22
Estimar la venta cuando se invierte
en publicidad 8 unidades

Y =
0
+
1
X

= -1,1 + 1,9(8)

= 14,1


23
Desviacin estndar del Y estimado

S
Yest
= [CME (1 + 1/N + (X
0
X
prom
)
2
]


SCX

= [0,367 (1 + 1/5 + (8 5)
2
]


10
= 0,8778

24

25
Hallar L. de C. del Y
est

Y est t
0
(S
Yest
)

14,1 3,182 (0,8778)
14,1 2,79

[11,31 - 16,89]

26
Prueba de Hiptesis
Cuando
1
= 0 no hay relacin entre variables.

Esto equivale a plantear:
H
0
:
1
= 0
H
1
:
1
0

F
c
= CMR / CME
F
t
= F
(1, n-2 gl)
Esta es una prueba general


27

28
Regresin mltiple

En el caso ms general de la regresin
mltiple, existen dos o ms variables
independientes:


Y = b
0
+ b
1
X
1
+ b
2
X
2
+ ...
29



El trmino del error explica la variabilidad
en y que no puede explicar las p variables
independientes. El error es una variable
aleatoria distribuida normalmente con
media cero y varianza constante,
2
, para
todos los valores de las X i.
30
Cada coeficiente b
i
representa una estimacin
del cambio en y que corresponde a un cambio
unitario en x
i
cuando todas las dems variables
independientes se mantienen constantes.
31
Prueba de significancia

32
Prueba t para coeficientes individuales
(
i
)

33
Multicolinealidad
En el anlisis de regresin hemos empleado el
trmino variables independientes para indicar
cualquier variable que se usa para predecir o
explicar el valor de la variable dependiente.
Se necesita que las variables independientes
sean independientes entre s en un sentido
estadstico.
Al contrario, la mayor parte de las variables
independientes en un problema de correlacin
mltiple se correlacionan en cierto grado.
34
Tener un coeficiente de correlacin de la
muestra mayor que 0.70 o menor que -0.70 para
dos variables independientes es una regla fcil
para advertir la posibilidad de problemas por
multicolinealidad.
Cuando las variables independientes estn muy
correlacionadas no es posible determinar el
efecto separado de una de ellas sobre la
variable dependiente.
Si es posible, se debe evitar incluir en el
modelo, variables independientes que tengan
mucha correlacin. Sin embargo, en la prctica
casi nunca es posible adherirse estrictamente a
este criterio.

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54
Pronostico negocio c1.
Falta: regresin LM estimacin y
propiedades



55
Regresin no lineal
Funcin exponencial
Y = AX
b

http://cvb.ehu.es/open_course_ware/castell
ano/social_juri/gretl/contenidos/tema-
2.pdf



56

You might also like