Professional Documents
Culture Documents
Carla Henriques
Departamento de Matem atica
Escola Superior de Tecnologia de Viseu
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 1 / 44
Conceitos Iniciais
Introduc ao
A an alise de regress ao estuda o relacionamento entre uma vari avel
chamada vari avel dependente e outras vari aveis chamadas vari aveis
independentes.
Este relacionamento e representado por um modelo matem atico, isto
e, por uma equac ao que associa a vari avel dependente com as
vari aveis independentes.
Este modelo e designado por modelo de regress ao linear simples se
dene uma relac ao linear entre a vari avel dependente e uma vari avel
independente.
Se em vez de uma, forem incorporadas v arias vari aveis
independentes, o modelo passa a denominar-se modelo de regress ao
linear m ultipla.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 2 / 44
Conceitos Iniciais
Introduc ao
A an alise de correlac ao dedica-se a infer encias estatsticas das
medidas de associac ao linear que se seguem:
0
e
1
par ametros desconhecidos do modelo (a estimar);
Y vari avel explicada ou dependente (aleat oria).
Exemplos
1. Relac ao entre o peso e a altura de um homem adulto (X: altura;
Y: peso)
2. Relac ao entre o preco do vinho e o montante da colheita em cada
ano (X: montante da colheita; Y: preco do vinho)
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 9 / 44
Regress ao Linear Simples
Num estudo de regress ao temos n observac oes da vari avel X :
x
1
, x
2
, . . . , x
n
(assume-se que estas observac oes s ao medidas sem
erro).
Temos ent ao n vari aveis aleat orias Y
1
, Y
2
, . . . , Y
n
tais que:
Y
i
=
0
+
1
x
i
+E
i
i = 1, ..., n
Admite-se que E
1
, E
2
, ..., E
n
s ao vari aveis aleat orias independentes
de m edia zero e vari ancia
2
.
Para qualquer valor x
i
de X, Y
i
e uma vari avel aleat oria de m edia
Y
i
=
0
+
1
x
i
e vari ancia
2
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 10 / 44
Regress ao Linear Simples
Os dados para a an alise de regress ao e correlac ao simples s ao da
forma: (x
1
, y
1
), (x
2
, y
2
), . . . , (x
n
, y
n
) onde x
i
e o valor da vari avel X e
y
i
a correspondente observac ao da vari avel aleat oria Y
i
(i = 1, ..., n).
Cada observac ao satisfaz a seguinte relac ao:
y
i
=
0
+
1
x
i
. .
Y
i
+
i
i = 1, ..., n
y =
Y|x
= b
0
+b
1
x
y
i
i- esimo resduo.
O objectivo e escolher b
0
e b
1
de modo a minimizar a soma dos
quadrados destes resduos.
SSE =
n
i =1
d
i
2
=
n
i =1
[y
i
(b
0
+b
1
x
i
)]
2
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 14 / 44
Regress ao Linear Simples
Estimac ao pelo M etodo dos Mnimos Quadrados
Para determinar b
0
e b
1
, de modo a minimizar SSE resolve-se o
seguinte sistema de equac oes:
_
_
SSE
b
0
= 0
SSE
b
1
= 0
...
_
_
b
0
= y b
1
x
b
1
=
n
i =1
x
i
y
i
n x y
n
i =1
x
2
i
n x
2
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 15 / 44
Regress ao Linear Simples
ATENC
AO:
Um conjunto de pontos d a evid encia de linearidade apenas para os valores
de X cobertos pelo conjunto de dados. Para valores de X que saem fora dos
que foram cobertos n ao h a qualquer evid encia de linearidade. Por isso e
arriscado usar uma recta de regress ao estimada para predizer valores de Y
correspondentes a valores de X que saem fora do ambito dos dados.
O perigo de extrapolar para fora do ambito dos dados amostrais e que a
mesma relac ao possa n ao mais se vericar.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 16 / 44
Regress ao Linear M ultipla
O Modelo de Regress ao Linear M ultipla
Y =
0
+
1
X
1
+ . . . +
k
X
k
+E
X
1
, . . . , X
k
vari aveis explicativas ou independentes medidas sem
erro (n ao aleat orias);
E vari avel aleat oria residual na qual se procuram incluir todas as
inu encias no comportamento da vari avel Y que n ao podem ser
explicadas linearmente pelo comportamento das vari aveis X
1
, . . . , X
k
e
os possveis erros de medic ao;
0
, . . . ,
k
par ametros desconhecidos do modelo (a estimar);
Y vari avel explicada ou dependente (aleat oria).
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 17 / 44
Regress ao Linear M ultipla
O Modelo de Regress ao Linear M ultipla
Exemplo (Ex. 3 da cha n
o
8)
Relac ao entre o volume de vendas (Y) efectuadas durante um dado
perodo de tempo por um vendedor, os seus anos de experi encia (X
1
)
e o seu score num teste de intelig encia (X
2
).
Vendedores com 4 anos de experi encia (x
1
= 4) e score 3 no teste de
intelig encia (x
2
= 3), podem apresentar volumes de vendas diferentes
(Ys diferentes).
Isto e, xando a vari avel anos de experi encia - X
1
- num valor, por
exemplo 4 anos, e X
2
noutro valor, por exemplo 3, o volume de vendas
vai variar devido a outras inu encias aleat orias.
Para x
1
e x
2
xos, Y e uma vari avel aleat oria.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 18 / 44
Regress ao Linear M ultipla
O Modelo de Regress ao Linear M ultipla
Num estudo de regress ao temos n observac oes de cada vari avel
independente:
i = 1 i = 2 . . . i = n
X
1
x
11
x
12
. . . x
1n
X
2
x
21
x
22
. . . x
2n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
X
k
x
k1
x
k2
. . . x
kn
Para cada i , i.e., para x
1i
, . . . , x
ki
xos, Y
i
e uma vari avel aleat oria.
Temos ent ao n vari aveis aleat orias: Y
1
, Y
2
, . . . , Y
n
:
Y
i
=
0
+
1
x
1i
+ . . . +
k
x
ki
+E
i
i = 1, ..., n
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 19 / 44
Regress ao Linear M ultipla
O Modelo de Regress ao Linear M ultipla
Y
1
=
0
+
1
x
11
+ . . . +
k
x
k1
+E
1
.
.
.
Y
n
=
0
+
1
x
1n
+ . . . +
k
x
kn
+E
n
Admite-se que E
1
, . . . , E
n
s ao vari aveis aleat orias independentes de
m edia zero e vari ancia
2
Ent ao, para quaisquer valores x
1i
, . . . , x
ki
xos, Y
i
e uma vari avel
aleat oria de m edia
Y
i
=
0
+
1
x
1i
+ . . . +
k
x
ki
e vari ancia
2
.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 20 / 44
Regress ao Linear M ultipla
O Modelo de Regress ao Linear M ultipla
Os dados para a an alise de regress ao e de correlac ao m ultipla s ao da
forma:
(y
1
, x
11
, x
21
, . . . , x
k1
), (y
2
, x
12
, x
22
, . . . , x
k2
), . . . , (y
n
, x
1n
, x
2n
, . . . , x
kn
)
Cada observac ao obedece ` a seguinte relac ao:
y
i
=
0
+
1
x
1i
+
2
x
2i
+ . . . +
k
x
ki
. .
Y
i
+
i
, i = 1, . . . , n.
_
y
1
y
2
.
.
.
y
n
_
_
=
_
_
1 x
11
x
21
. . . x
k1
1 x
12
x
22
. . . x
k2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1 x
1n
x
2n
. . . x
kn
_
_
_
1
.
.
.
k
_
_
+
_
2
.
.
.
n
_
_
y = X +
y - Vector das observac oes da vari avel dependente;
X - Matriz signicativa do modelo;
- Vector dos par ametros do modelo;
- Vector das realizac oes da vari avel aleat oria residual.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 22 / 44
Regress ao Linear M ultipla
Estimac ao pelo M etodo dos Mnimos Quadrados
A partir dos dados disponveis estimamos
0
,
1
, . . . ,
k
e substitumos
estes par ametros pelas suas estimativas b
0
, b
1
, . . . , b
k
para obter a
equac ao de regress ao estimada.
y =
Y|x
1
,x
2
,...,x
k
= b
0
+b
1
x
1
+b
2
x
2
+ . . . +b
k
x
k
y
i
= y
i
(b
0
+b
1
x
1i
+b
2
x
2i
+ . . . +b
k
x
ki
)
O objectivo e escolher b
0
, b
1
, . . . , b
k
de modo a minimizar a soma dos
quadrados dos resduos.
SSE =
n
i =1
d
i
2
=
n
i =1
(y
i
b
0
b
1
x
1i
b
2
x
2i
. . . b
k
x
ki
)
2
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 24 / 44
Regress ao Linear M ultipla
Estimac ao pelo M etodo dos Mnimos Quadrados
Para determinar b
0
, b
1
, . . . , b
k
, de modo a minimizar SSE resolve-se o
seguinte sistema de equac oes:
SSE
b
0
= 0
SSE
b
1
= 0 . . .
SSE
b
k
= 0
Obt em-se b =
_
_
b
0
b
1
.
.
.
b
k
_
_
=
_
X
T
X
_
1
X
T
y estimativa para =
_
1
.
.
.
k
_
_
O estimador e
=
_
1
.
.
.
k
_
_
=
_
X
T
X
_
1
X
T
Y.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 25 / 44
Regress ao Linear M ultipla
Estimac ao pelo M etodo dos Mnimos Quadrados
Cada coeciente de regress ao estimado b
i
, i = 1, . . . , k (estimativa de
i
), estima o efeito sobre o valor m edio da vari avel dependente Y de
uma alterac ao unit aria da vari avel independente X
i
, mantendo-se
constantes todas as restantes vari aveis independentes.
No caso k = 1 (regress ao simples) temos:
b =
_
b
0
b
1
_
=
_
X
T
X
_
1
X
T
y,
onde X tem apenas duas colunas.
Como j a vimos, b
0
e b
1
podem tamb em ser determinados pelas
relac oes:
b
1
=
n
i =1
x
i
y
i
n x y
n
i =1
x
2
i
n x
2
e b
0
= y b
1
x.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 26 / 44
Regress ao Linear M ultipla
Exemplo (Ex. 3 da cha n
o
8)
Os dados apresentados no quadro seguinte representam as vendas,
Y, em milhares de Euros, efectuadas por 10 empregados de uma
dada empresa, o n
o
de anos de experi encia de cada vendedor, X
1
e o
respectivo score no teste de intelig encia, X
2
.
Vendedor Vendas (Y) Anos de Score no teste
experi encia(X
1
) de intelig encia (X
2
)
1 9 6 3
2 6 5 2
3 4 3 2
4 3 1 1
5 3 4 1
6 5 3 3
7 8 6 3
8 2 2 1
9 7 4 2
10 4 2 2
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 27 / 44
Regress ao Linear M ultipla
Exemplo (Ex. 3 da cha n
o
8 - cont.)
Pretende-se determinar se o sucesso das vendas pode ser medido
em func ao das duas vari aveis explicativas X
1
e X
2
atrav es de um
modelo linear .
Matriz signicativa do modelo: X =
_
_
1 6 3
1 5 2
1 3 2
1 1 1
1 4 1
1 3 3
1 6 3
1 2 1
1 4 2
1 2 2
_
_
Vector das observac oes da var. dependente: y = [9 6 4 3 3 5 8 2 7 4]
T
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 28 / 44
Regress ao Linear M ultipla
Exemplo (Ex. 3 da cha n
o
8 - cont.)
Vector das estimativas dos coecientes de regress ao:
b =
_
_
b
0
b
1
b
2
_
_
=
_
X
T
X
_
1
X
T
y =
_
_
0.262712
0.745763
1.338983
_
_
Equac ao de regress ao estimada:
y =
Y|x
1
,x
2
= 0.262712 +0.745763x
1
+1.338983x
2
b
0
= 0.262712 n ao pode ser interpretado como sendo o volume
m edio de vendas de um vendedor hipot etico sem experi encia
pr evia e com score zero no teste de intelig encia. Com efeito,
vendas negativas s ao impossveis. Note que valores nulos de X
1
e X
2
encontram-se fora do ambito dos dados.
i =1
(y
i
y)
2
(Soma dos quadrados totais)
Dispers ao em torno da equacao de regress ao - Variac ao n ao
explicada:
SSE =
n
i =1
(y
i
y
i
)
2
(Soma dos quadrados dos resduos)
O ajustamento ser a tanto melhor quanto mais pequeno for SSE
relativamente a SST.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 33 / 44
Coeciente de Correlac ao e de Determinac ao
Pode-se mostrar que:
n
i =1
(y
i
y)
2
=
n
i =1
(y
i
y
i
)
2
+
n
i =1
(
y
i
y)
2
SST = SSE + SSR
SST Soma dos quadrados totais - Variac ao total
SSE Soma dos quadrados dos resduos - Variac ao n ao explicada
SSR Soma dos quadrados da regress ao - Variac ao explicada
Isto e:
Variac ao Total Variac ao que o Variac ao explicada
de Y ` a volta = ajustamento n ao + pelo
da sua m edia consegue explicar ajustamento
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 34 / 44
Coeciente de Correlac ao e de Determinac ao
Coeciente de Determinac ao
O quociente entre SSR e SST d a-nos uma medida da proporc ao da
variac ao total que e explicada pelo modelo de regress ao. A esta
medida d a-se o nome de coeciente de determinac ao ( r
2
),
r
2
=
SSR
SST
=
SST SSE
SST
=
SST
SST
SSE
SST
= 1
SSE
SST
Note que:
0 r
2
1;
r
2
= 1 (pr oximo de 1) signica que grande parte da variac ao de Y
e explicada linearmente pelas vari aveis independentes;
r
2
= 0 (pr oximo de 0) signica que grande parte da variac ao de Y
n ao e explicada linearmente pelas vari aveis independentes.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 35 / 44
Coeciente de Correlac ao e de Determinac ao
Coeciente de Determinac ao
Este coeciente pode ser utilizado como uma medida da qualidade do
ajustamento, ou como medida da conanca depositada na equac ao
de regress ao como instrumento de previs ao:
r
2
= 0 modelo linear muito pouco adequado;
r
2
= 1 modelo linear bastante adequado.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 36 / 44
Coeciente de Correlac ao e de Determinac ao
Exemplos de diagramas (Regress ao simples)
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 37 / 44
Coeciente de Correlac ao e de Determinac ao
Coeciente de Correlac ao
`
A raiz quadrada de r
2
d a-se o nome de:
r
2
(com o sinal do declive b
1
)
Este coeciente e uma medida do grau de relacionamento linear entre
as vari aveis X e Y.
r varia entre 1 e 1;
_
b
0
n
i =1
y
i
+b
1
n
i =1
y
i
x
i
ny
2
n
i =1
y
2
i
ny
2
(com o sinal do declive b
1
)
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 40 / 44
Coeciente de Correlac ao e de Determinac ao
Coeciente de Correlac ao M ultiplo
r varia entre 0 e 1;
y
i
y)
2
= y
i
y
i
1 9 6 3 8,22881 0,77119 0,59473 . . . . . .
2 6 5 2 6,14407 -0,14407 0,02076 . . . . . .
3 4 3 2 4,65254 -0,65254 0,42581 . . . . . .
4 3 1 1 1,82203 1,17797 1,38760 . . . . . .
5 3 4 1 4,05932 -1,05932 1,12216 . . . . . .
6 5 3 3 5,99153 -0,99153 0,98312 . . . . . .
7 8 6 3 8,22881 -0,22881 0,05236 . . . . . .
8 2 2 1 2,56780 -0,56780 0,32239 . . . . . .
9 7 4 2 5,39831 1,60169 2,56543 . . . . . .
10 4 2 2 3,90678 0,09322 0,00869 . . . . . .
Total 51 SSE SST SSR
=7.48305 =48.9 =41.41695
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 42 / 44
Coeciente de Correlac ao e de Determinac ao
Exemplo (Ex. 3 da cha n
o
8 - cont.)
Coeciente de determinac ao:
r
2
=
SSR
SST
=
41.41695
48.9
= 0.84697 84.7% da variac ao nas vendas
est a relacionada linearmente com variac oes nos anos de experi encia
e no QI. Por outras palavras, as duas vari aveis independentes
utilizadas no modelo linear ajudam a explicar cerca de 84.7% da
variac ao nas vendas. Ficam por explicar 15.3% das variac oes no
volume de vendas, que se devem a outros factores n ao considerados,
como por exemplo:
a simpatia do vendedor;
a reputac ao do vendedor;
etc.
Carla Henriques (DepMAT ESTV) An alise de Regres. Linear Simples e M ultipla 2010/2011 43 / 44
Coeciente de Correlac ao e de Determinac ao
Exemplo (Ex. 3 da cha n
o
8 - cont.)
Coeciente de correlac ao m ultiplo:
r =