You are on page 1of 34

350

300

f(x)=ax+b
R2=0.99

250

200

150
0

100

50

REGRESIN
10

15

20

25

MSC. DAPHNE TIMAN PALACIOS

En la prctica a menudo de requiere resolver problemas que implican


conjuntos de variables de las cuales se sabe que tienen alguna relacin
inherente entre s. Por ejemplo cuando se estudian varios automviles con un
mismo motor del mismo volumen, no todos tienen el mismo rendimiento de
combustible. No todas las casas ubicadas en la misma zona del pas, con la
misma superficie de construccin, se venden la mismo precio.
El rendimiento del combustible (en millas por galn) y el precio de las casas
(en miles de dlares) son variables dependientes o respuestas de los dos
escenarios. El volumen del motor (pies cbicos) y los metros cuadrados de
superficie de construccin son, respectivamente, variables independientes o
regresores. Una forma razonable de relacin entre la respuesta Y y el regresor
X es la relacin lineal.
= 0 + 1
En la que, por supuesto, 0 es la interseccin y 1 es la pendiente

x+1

REGRESIN
Es una forma de estudiar la asociacin o relacin, entre
una variable dependiente (Y) y la variable que es la base de
la prediccin a la que se le denomina variable
independiente (X)
Y

El propsito del anlisis de regresin es usar los datos o


valores observados de las variables, para realizar
estimaciones, en base a una relacin funcional.

Regresin Simple, cuando en el


anlisis de regresin, se utiliza slo
una variable independiente.

Regresin Mltiple. cuando se considera


dos o ms variables independientes .
y=f(X1,X2)

y=f(x)

X2

X1

Donde:

y ... es la variable dependiente,


x, x1, x2, . . . , xk, .son variables independientes.
Tambin se clasifica en lineal y no lineal, segn el comportamiento de las
variables.

Qu vamos a estudiar
En esta unidad estudiaremos la Regresin Lineal simple, es
decir, vamos a tratar diferentes formas de describir la relacin
entre dos variables cuando estas son numricas.
Ejemplo:
Estudiar si hay relacin
entre la altura (X ) y el peso (Y ).
y=f(x)

El tiempo de estudio dedicado


a un curso (X) , esta relacionado
con la calificacin obtenida (Y)

MODELO DE REGRESIN LINEAL SIMPLE


Se busca encontrar una funcin de X muy simple (lineal) que
nos permita aproximar Y mediante la siguiente formula:
Y

= 0 + 1 X
Y

b0 (ordenada en el origen, constante)


b1 (pendiente de la recta)
e error aleatorio (efecto dentro de
variable)
X

Esta
determinado
por 2
variables:

Y e rara vez coincidirn


por muy bueno que sea el
modelo de regresin. A la
cantidad e = Y- se le
denomina
residual.

residuo

error

Qu hacer para realizar una regresin

El paso inicial que


generalmente se realiza, es la
construccin del Diagrama De
Dispersin.
El 2 paso es, a travs del
Mtodo
de
los
Mnimos
Cuadrados,
estimar
los
Coeficientes de Regresin ( b0
y b1) para establecer la recta de
regresin.

Y = b0 + b 1 X
b0 (ordenada en el origen, constante)
b1 (pendiente de la recta)

Finalmente, cuando se realiza una prediccin estadstica, siempre


ser til calcular una medida que indique que tan preciso es el
pronstico de Y sobre X. A esta medida se le llama Error
Estndar de Estimacin.

DIAGRAMA DE DISPERSION
Es la representacin de los puntos o datos de cada una
de las variables en el plano cartesiano.
100
90

80
70
60
50
40
30
140

150

160

170

180

190

200

Es recomendable en todo estudio de regresin pues


permite tener una idea, sobre la existencia o no de la
regresin.

Modelos de Diagrama de Dispersin

METODO DE LOS MINIMOS CUADRADOS


Este mtodo consiste en hallar los valores de b0 Y b1,
haciendo mnima la suma de los cuadrados de los errores.
Siendo la tarea principal en el anlisis de regresin lineal
simple.
Una vez obtenidos estos valores nos permitir establecer
la recta de regresin que mejor se ajuste a los datos o la recta
de mnimos cuadrados. Veamos las formulas a aplicar
Hallaremos la Suma Cruzada de X, Y con la siguiente formula:

SC xy

( X )( Y )
XY
n

Luego, la Suma de Cuadrados de X de la siguiente manera:

SC x

2
X
i

( Xi ) 2
n

Con las formulas anteriores, obtenemos la pendiente de la recta: b1,


haciendo la siguiente divisin:

B1

SC xy
SC x

El siguiente paso es hallar la ordenada en el origen:b0, con la siguiente


formula:

_
donde:

B0 y B 1 x

Xi
Yi

x
,y
_

Y obtenemos la ecuacin de regresin:

Y = b0+b1(X)

EJEMPLO:
En un estudio de la relacin entre la publicidad por radio y las
ventas de un producto, durante 10 semanas se han recopilado,
los tiempos de duracin en minutos de la publicidad por semana
(X), y el nmero de artculos vendidos (Y).
Semana

10

Publicidad en
minutos X

20

30

30

40

50

60

60

60

70

80

Ventas Y

50

73

69

87

108

128

135

132

148

170

Solucin

Y X Y

Tambin se utilizara los


promedios de las variables:

i i

X Xi / n ,

2
i

Y Yi / n

Solucin
Reemplazando en las formula de los coeficientes de regresin, se tiene lo
siguiente:

b1
_

SC xy
SC x

b 0 y b x
Por lo tanto la recta de regresin Y = b0+b1(X), estar determinada de la siguiente
manera Y = 10+ 2x.
Interpretacin
B0: El Nmero real de artculos vendidos es de 10 unidades.
B1: El nmero promedio de artculos vendidos aumenta en 2 unidades a
medida que aumenta cada minuto de duracin, de la publicidad en la semana.

Error Estndar y Error de Estimacin


Cuando se realiza una prediccin, es importante determinar
el error estndar, el cual se representa por Sy.x y mide la
dispersin de los datos observados con respecto a la lnea
de regresin.
Error de prediccin

Sy.x

2
y
B0 y B1 xy

n2

134660 10(1100) 2(61800)


Sy.x
2.74
10 2
El error de estimacin,
que esta representado:

e=yy

El anlisis de correlacin
El anlisis de correlacin es la tcnica estadstica
que permite describir el grado hasta el cual una
variable est linealmente relacionada con otra.
Hay dos medidas que se usan para
describir la correlacin
El coeficiente de correlacin
El coeficiente de determinacin

EL COEFICIENTE DE CORRELACIN DE
PEARSON
r

SCXY
( SCX )( SCY )

Sus valores oscilan entre -1 y 1


Cuando r es positivo, indica que X e Y
estn directamente relacionados.
Cuando r es negativo, indica que X e Y estn
inversamente relacionados

Interpretacin del coeficiente de correlacin de


Pearson

Fuerte
Negativa
-1 -0,9
Perfecta
Negativa

Moderada
Negativa
-0,5

Dbil
Negativa

Dbil
Positiva
0

No existe
correlacin

Moderada
Positiva
0,5

Fuerte
Positiva
0,9 1
Perfecta
Positiva

El coeficiente r tiene el mismo signo que el


coeficiente b1 en la ecuacin de regresin
r=

Coeficiente de determinacin: R^2 = (r^2) =

CASO 2
CONTAMINACIN

Uno de los problemas ms desafiantes que enfrenta el campo


del control de la contaminacin del agua lo representa la
industria de la papelera, ya que sus desechos son qumicamente
complejos; se caracterizan por valores elevados de la demanda
de oxgeno qumico, slidos voltiles y otras medidas de
contaminacin. Considere los datos experimentales de la
siguiente tabla que se obtuvieron de 33 muestras de desechos
tratados qumicamente en un estudio realizado en Virginia Tech.
Se registraron los valores de la reduccin porcentual de los
slidos totales y, el porcentaje de disminucin de la demanda de
oxgeno qumico.

Reduccin de Slidos, X (%) Curva de regresin ajustada


reduccin de la demanda de oxgeno, Y (%)

60

50

y = 0.9036x + 3.8296
R = 0.9129

40

30

20

10

10

20

30

40

Reduccin de Slidos, X (%)

reduccin de la demanda de oxgeno, Y (%)

Pronstico reduccin de la demanda de oxgeno, Y (%)

50

60

Resumen

Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observaciones

0.96
0.91
0.91
3.23
33

Y = 3.8296 + 0.9036 X
Por cada unidad porcentual de reduccin de slidos, el
porcentaje de reduccin de la demanda de oxgeno aumenta
en 0.9036 (%).

R2= 0,9129

Interpretacin: el 91,3% de las variaciones en


de la reduccin de la demanda de oxigeno,
pueden explicarse por su relacin lineal con la
reduccin de slidos.

You might also like