You are on page 1of 28

En muchas aplicaciones estadstica se

debe resolver problemas que contiene


un conjunto de variables y que se sabe
existe alguna asociacin entre ellas.
En este conjunto de variables muy a
menudo se tiene una sola variable
dependiente (Y), que depende de una
o ms variable independiente (X).


ANALISIS DE REGRESION
LINEAL
La primera forma del estudio de la
asociacin entre las variables X e Y, es
denominada correlacin, que consiste en
determinar la variacin conjunta de las
dos variables, su grado de relacin y su
sentido. La medida del grado de la
relacin se denomina coeficiente de
correlacin (r). El cuadrado del ndice de
correlacin se denomina coeficiente de
determinacin (r
2
).

La segunda forma del estudio de la
asociacin entre las variables X e Y
es encontrar un modelo de regresin, que
consiste en determinar una relacin
funcional entre ellas, con el fin de que
se pueda predecir el valor de una
variable en base a la otra.
Si el modelo de regresin es simple:

Si el modelo de regresin es mltiple:




x b b Y
1 0
+ =
.
3 3 2 2 1 1 0
x b x b x b b Y + + + =
.
DIAGRAMA DE
DISPERSION
El diagrama de dispersin es la grafica de los
valores (x
i
, y
i
) de las variables X e Y en el sistema
cartesiano. En el diagrama se visualiza el tipo de
relacin existente entre dos variables.
Los datos visualizan una relacin lineal positiva
entre las variables X e Y


Regresin lineal
30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

Los datos visualizan una relacin lineal negativa


entre las variables X e Y

Regresin lineal
4 6 8 10
Cantidad de Unidades
5
10
15
P
r
e
c
i
o

Los datos visualizan una relacin no lineal entre


las variables X e Y

10 20 30 40
Precios
5
10
15
20
U
n
i
d
a
d
e
s

Los datos no visualizan ninguna relacin entre


las variables X e Y

2.00 4.00 6.00 8.00
Servicio
2.50
5.00
7.50
10.00
I
n
g
r
e
s
o

COVARIANZA
La covarianza es una estadstica que mide el
grado de dispersin conjunta de dos variables
X e Y.
Las covarianzas de n valores (x
1
, y
1
), (x
2
,
y
2
),..., (x
n
, y
n
) de una variable bidimensional
(X, Y) que denotaremos por Cov(X, Y) o S
XY

se define como la media aritmtica de los
productos de la diferencia de los datos con
respecto a su correspondientes medias. Esto
es:



y x xy
n
y x
n
Y X Cov
n
i
n
i
i
i XY
y
x S
= = =

= = 1 1
1
) )( (
1
) , (






















































































































































































































































COEFICIENTE DE CORRELACION
El coeficiente de correlacin (r) mide el grado
de afinidad o asociacin entre dos o ms
variables cuando ellas estn relacionadas
mediante una lnea recta.
El coeficiente de correlacin r es un numero
comprendido entre -1 y 1, esto es
El coeficiente de correlacin lineal de
Pearson:

2 2 2 2 2 2
) ( ) ( ) ( ) (
) )( (
) , (




=


= =
Y Y n X X n
Y X XY n
Y y X x
Y y X x
S S
Y X Cov
r
Y X
1 1 s s r
PROPIEDADES DEL
COEFICIENTE DE
CORRELACION
Si r > 0; existe correlacin directa positiva,
ambas variables aumentan (o disminuyen)
simultneamente.
Si r < 0; existe correlacin inversa negativa,
mientras los valores de una variable aumenta,
los de la otra disminuyen y viceversa.
Si r = 1; hay una correlacin perfecta positiva
entre X e Y, si todos los puntos de la muestra
se encuentran sobre la recta de regresin
Si r = -1; hay una correlacin perfecta negativa
entre X e Y, si todos los puntos de la muestra
se encuentran sobre la recta de regresin.
Si r = 0; Los datos son incorrelacionados.







iva significat no n correlaci existe r a ; 20 . 0 00 . 0 ) < s
baja n correlaci una existe r b ; 40 . 0 20 . 0 ) < s
iva significat n correlaci existe r c ; 70 . 0 40 . 0 ) < s
asociacion de grado alto existe r d ; 00 . 1 70 . 0 ) s s
SIGNIFICADO DEL
COEFICIENTE DE
CORRELACION
COEFICIENTE DE
DETERMINACION
El coeficiente de determinacin mide la
variacin de Y que se explica por la
variable independiente X en el modelo de
regresin.

2
2
2
1 0 2
Y n Y
Y n XY b Y b
r

+
=





AJUSTE DE UNA FUNCION DE
REGRESION
Ajustar una funcin de regresin significa buscar
o definir la funcin que exprese con mayor
precisin la relacin entre variables.
Grficamente ser aquella funcin que mejor se
adecu al diagrama de dispersin (nube de
puntos)
En el ajuste de funciones de regresin simple,
se pueden utilizar diversas funciones
matemticas conocidas:
Lnea Recta:
Parbola:
Curva Exponencial:
Curva Potencial

x b b Y
1 0
+ =
.
2
2 1 0
x b x b b Y + + =
.
x b b Y b b Y
x
) (log log log
1 0 1 0
+ = =
. .
x b b Y x b Y
b
log log * log
1 0 0
1
+ = =
.
REGRESION LINEAL SIMPLE
El objetivo de la regresin simple es estimar
la relacin que existe entre dos variables X
e Y. El modelo de regresin es:


Esto expresa es un valor estimado a
partir de valores reales de X, que sera un
modelo de regresin de Y sobre X, donde:
Y = Variable dependiente o explicada
X = Variable independiente o
explicativa

x b b Y
1 0
+ =
.
.
Y
Los parmetros de la funcin de
regresin se obtienen a partir de las
Ecuaciones Normales obtenida por el Mtodo
de los Mnimos Cuadrados







= =
= = =
+ =
+ =
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
X n Y
X X Y X
b b
b b
1
1 0
1
1
2
1
1
0
1
( )
X Y
S
S
b o
X X n
Y X XY n
b
b b
X
XY
1 0
2
1
2
2
1
=
=

=


0 1
b y b
Si b
1
> 0, entonces, la tendencia lineal es
creciente, es decir a mayores valores de X
corresponden mayores valores de Y.
Si b
1
< 0, entonces, la tendencia lineal es
decreciente, es decir a mayores valores de
X corresponden menores valores de Y.
Si b
1
= 0, entonces, ; Y permanece
estacionario para cualquier valor de X.

SIGNIFICADO DE LA PENDIENTE
DEL MODELO DE REGRESION
0
b Y =
.
NOTAS:
De:
La recta de regresin de X en Y, es decir X
variable dependiente de Y esta dada por:

Esta recta de regresin de X en Y se puede
escribir tambin como:

Los coeficientes de regresin b y d verifican
el valor r
2


S
S
S S
S
S
S
X
Y
Y X
XY
X
XY
r b r y b = = =
1
2
1
dY c X + = y d x c y d
S
S
Y
XY
= =
2
) (
1
) ( x X
d
y Y o y Y d x X = =
r
S S S S
S S
S S
S S
rr bd
Y X Y X
XY XY
Y X
XY XY
2
2 2
= = = =
ERROR ESTANDAR DE
ESTIMACION
El error estndar de estimacin llamado
tambin desviacin estndar, es una medida
de dispersin de los valores observados, con
respecto a la lnea de regresin (valores
estimados).
Entre el valor observado y el valor estimado
existe una diferencia o sesgo , que
puede ser menor o mayor, en la medida que
los n-puntos del diagrama de dispersin estn
ms o menos cerca de la lnea de regresin.

2 2 2
) (
1 0
2
1
2

=
.
n
XY b Y b Y
n
SCE
n
y y
S
n
i
i
) (
.
Y Y
i
Ejemplo: Analizar la relacin entre la edad y
el tiempo efectivo de servicio de los
trabajadores, para el efecto se consider una
muestra de 15 trabajadores:



a) Hallar un modelo de regresin adecuado
b) Hallar el error estndar
c) Hallar el coeficiente de correlacin
d) Hallar el coeficiente de determinacin


Edad
48 40 30 39 46 42 27 36 34 46 32 42 40 32 27
Tiempo de
Servicio
24 18 9 14 22 22 4 13 10 20 12 18 16 8 6
PASO 1: Definir las variables:
Definir en primer lugar: Cul ser la
variable dependiente e independiente?
Y: Tiempo de Servicio (Variable
Dependiente)
X: Edad (Variable Independiente)

PASO 2: Diagrama de dispersin
En el grafico se observa que la nube de
puntos tiene una forma alargada, con una
relacin positiva en donde es posible ajustar
o representar por una lnea recta, la cual
ser:

30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

x b b Y
1 0
+ =
.
Edad X Tiempo de
Servicio Y XY X
2
Y
2
Y*
48 24 1152 2304 576 23.685
40 18 720 1600 324 16.677
30 9 270 900 81 7.917
39 14 546 1521 196 15.801
46 22 1012 2116 484 21.933
42 22 924 1764 484 18.429
27 4 108 729 16 5.289
36 13 468 1296 169 13.173
34 10 340 1156 100 11.421
46 20 920 2116 400 21.933
32 12 384 1024 144 9.669
42 18 756 1764 324 18.429
40 16 640 1600 256 16.677
32 8 256 1024 64 9.669
27 6 162 729 36 5.289
561 216 8658 21643 3654 215.991
El coeficiente de correlacin es:





Interpretacin: Hay un alto grado de asociacin
entre la edad y el tiempo de servicio
El coeficiente de determinacin es:

Interpretacin: El 93.37% dela variacin en el
tiempo de servicio se explica por la variacin en la
edad de los trabajadores

9337 . 0 ) 9663 . 0 (
2 2
= = r
( ) ( )
( ) ( )
9663 . 0
216 ) 3654 ( 15 561 ) 21643 ( 15
) 216 ( 561 ) 8658 ( 15
) , (
2 2
2
2
2
2
=


=


= =


r
r
Y Y n X X n
Y X XY n
S S
Y X Cov
r
Y X
PASO 3: Hallar el Modelo de Regresin
Los parmetros: b
0
,

b
1







Por sistema de ecuaciones el modelo es:
b
0
= -18.363 b
1
= 0.876

Casi siempre b
0
no tiene interpretacin
b
1
= 0.876; Significa que por cada edad
adicional de los trabajadores puede
esperarse aumentar casi 1 ao de tiempo de
servicio


x b b Y
1 0
* + =
1 0
1
1 0
1
1 0
1
2
1
1
0
1
561 15 216
21643 561 8658
b b X b n b Y
b b X b X b Y X
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
+ = + =
+ = + =


= =
= = =
x Y 876 . 0 363 . 18 + =
.
Cul es el tiempo de servicio
estimado Y
*
para un trabajador de 35
aos de edad?


Aproximadamente tendra 12 aos de
tiempo de servicio efectivo

aos Y 3 . 12 ) 35 ( 876 . 0 363 . 18 = + =
.
En el grafico se observa la lnea de
regresin
(Y = Tiempo de Servicio y X = Edad)

Regresin lineal
30 35 40 45
Edad de trabajadores
5
10
15
20
T
i
e
m
p
o

d
e

S
e
r
v
i
c
i
o

1Tiempo de Servicio = -18,36 + 0,88 * Edad


El error estndar es:



Interpretacin: El error estndar es 1.6641,
indica que las observaciones reales estn
bastante cerca de la lnea de regresin, esto
se puede verificar con el coeficiente de
correlacin como tambin observando el
grafico.



6641 . 1
13
) 8658 ( 876 . 0 ) 216 )( 363 . 18 ( 3654
2 2
2
=

=

=

S
n
XY b Y a Y
n
SCE
S
REGRESION NO
LINEAL
En anlisis de regresin, cuando el diagrama de
dispersin no se ajusta a una lnea recta, hablamos de
modelos no lineales, la cual se pueden trasformar los
valores de las variables X e Y, obtener los estadgrafos
y modelos de regresin no lineal de la misma forma
como hemos hallado anteriormente. Los modelos de
regresin a estudiar son:

X b b Y X b Y Potencial
X b b Y b b Y l Exponencia
Lineal cin Transf orma Ecuacin
b
X
log log log :
) (log log log :
1 0 0
1 0 1 0
1
+ = =
+ = =

You might also like