You are on page 1of 11

Aula 8. Regressao com n umero de variaveis explicativas > 1.

Escolha
de variaveis.
Modelo Geral.
Supomos que variavel y depende de k variaveis explicativas x
1
, x
2
, . . . , x
k
y
i
= +
1
x
1i
+ +
k
x
ki
+
i
, (i = 1, . . . , n) (1)

i
N(0,
2
) (2)
Consideramos o caso de duas variaveis explicativas. E nesse caso pesquisamos as novos efeitos e novos problemas em
estimacao e interpretacao de regressao linear multipla. O modelo em consideracao agora e
y
i
= +
1
x
1i
+
2i
+
i
(3)
ou, sem indice de observa cao,
y = +
1
x
1
+
2
+ (4)
Os observa coes agora nao sao mais bidimensionais, mas 3-dimensionais:
_
_
y
1
x
11
x
21
_
_
,
_
_
y
2
x
12
x
22
_
_
, . . . ,
_
_
y
n
x
1n
x
2n
_
_
(5)
Agora a parte nao aletoria da regressao (4) e representa-se como um plano. Consideramos o seguinte exemplo: para
os anos 1959-1983 o gasto total em alimentos (y) em E.U. com salario liquido (x) e precos (p) deu a seguinte regressao
y = 116.7 + 0.112 x 0.739 p R
2
= 0.99
(9.6) (0.003) (0.114)
y e x sao medidas em $ bilhoes no nvel de precos em 1972, e p e indice relativo de precos calculado dividindo
deator implcito de precos em alimentos pelo deator implcito para gasto total, com base de calculo 1972 = 100, e
multiplicando por 100.
A equacao tem que ser interpretado em seguinte maneira. Para cada incremento em $ bilhao em renda, deixando
precos em nvel constante, gastos em alimentos aumentam em $ 112 milhoes. Em cada incereneto em um ponto de
indice p, mantendo o salario constante, os gastos diminuem em $ 739 milhoes
Metodo mnimos quadrados.
Em caso bi-dimensional os residuos sao
e
i
= y
i
y
i
= y
i
a b
1
x
1i
b
2
x
2i
.
A funcao para minimizar e
S(a, b
1
, b
2
) =
n

i=1
e
2
i
=
n

i=1
(y
i
a b
1
x
1i
b
2
x
2i
)
2
(6)
O sistema de equacoes para resolver e
_
_
_
S/a = 0
S/b
1
= 0
S/b
2
= 0

_
_
_

n
i=1
(y
i
a b
1
x
1i
b
2
x
2i
)
2
= 0

n
i=1
x
1i
(y
i
a b
1
x
1i
b
2
x
2i
)
2
= 0

n
i=1
x
2i
(y
i
a b
1
x
1i
b
2
x
2i
)
2
= 0
(7)
A solucao pode ser representada em modo seguinte
_

_
a = y b
1
x
1
b
2
x
2
b
1
=
Cov(x
1
, y)V ar(x
2
) Cov(x
2
, y)Cov(x
1
, x
2
)
V ar(x
1
)V ar(x
2
) [Cov(x
1
, x
2
)]
2
b
2
=
Cov(x
2
, y)V ar(x
1
) Cov(x
1
, y)Cov(x
1
, x
2
)
V ar(x
1
)V ar(x
2
) [Cov(x
1
, x
2
)]
2
(8)
Propriedades de coecientes de regressao linear multipla.
1. nao viesados
b
1
=
Cov(x
1
, y)V ar(x
2
) Cov(x
2
, y)Cov(x
1
, x
2
)
V ar(x
1
)V ar(x
2
) [Cov(x
1
, x
2
)]
2
=
1

_
Cov(x
1
, +
1
x
1
+
2
x
2
+ )V ar(x
2
) Cov(x
2
, +
1
x
1
+
2
x
2
+ )Cov(x)1, x
2
)
_
=
1

_
_

1
V ar(x
1
) +
2
Cov(x
1
, x
2
) + Cov(x
1
, )

1
Cov(x
1
, x
2
) +
2
V ar(x
2
) + Cov(x
2
, )

Cov(x
2
, x
2
)
_
=
1

1
+ Cov(x
1
, )V ar(x
2
) Cov(x
2
, )Cov(x
1
, x
2
)
_
=
1
+
1

_
Cov(x
1
, )V ar(x
2
) Cov(x
2
, )Cov(x
1
, x
2
)
_
onde = V ar(x
1
)V ar(x
2
) [Cov(x
1
, x
2
)]
2
. Logo obtemos
E[b
1
] =
1
+
1

_
V ar(x
2
)E[Cov(x
1
, )] Cov(x
1
, x
2
)E[Cov(x
2
, )]
_
=
1
2. precisao
A varia cao populacional D[b
1
] para o coeciente b
1
e dada pela formula seguinte
D[b
1
] =

2

nV ar(x
1
)

1
1 r
2
x
1
,x
2
(9)
onde, como antes,
2

e varia cao populacional de termo perturbativo .


Observamos, que em caso de duas variaveis explicativas a variacao do estimador de minimos quadrados para
coeciente depende tambem de correlacao entre as variaveis explicativas r
x
1
,x
2
. Se maior correlacao entre variaveis
explicativas x
1
e x
2
, assim maior varia cao populacional tem o coeciente, e como conseuencia maior erro.
O erro padrao logo
s.e.(b
1
) =

s
2

nV ar(x
1
)

1
1 r
2
x
1
,x
2
, onde s
2

=
1
n 3
n

i=1
e
2
i
(10)
3. t-teste
Seja k n umero de variaveis explicativas: x
1
, x
2
, . . . , x
k
. entao
a
s.e.(a)
t
nk1
and
b
i

i
s.e.(b
i
)
t
nk1
para todos i = 1, 2, . . . , k (11)
t teste de signicancia testa a hipotese nula H
0
:
i
= 0 para i xo, com alternativa A : = 0. Para esse caso a t-
estatstica e t = b
i
/s.e.(b
i
).
4. F-teste
Seja k n umero de variaveis explicativas: x
1
, x
2
, . . . , x
k
. entao
F =
R
2
/k
(1 R
2
)/(n k 1)
F
k,nk1
(12)
F-estatstica usa-se para testar a hipotese nula com alternativa
H
0
:
1
=
2
= =
k
= 0
A : existem i = j tais que
i
=
j
5. F analise adicional
Observacao - se aumentar o n umero de variaveis explicativas, automaticamnte o soma de quadrados resduo vai
diminuir. Como separar o ganho em explicacao contra o ganho de causa de aumento de n umero de variaveis explica-
tivas?
Supomos que zemos uma regressao com k variaveis explicativas. Seja SS
Reg
(k) a soma de quadrados explicativa,
e SS
Erro
(k) a soma de quadrados de resduos para essa regressao com k variaveis explicativas. Supomos que nos
adicionamos variaveis explicativas e novo modelo contem m variaveis explicativas (m > k). A F estatistica para testar
se o aumeto de variaveis adicionas foi signicante
H
0
:
k+1
= =
m
pode ser expressa em geral em seguinte maneira:
F =
(ganho em explicacao)/(graus de liberdade adicional)
( nova soma de quadrados de residuos)/( graus de liberdade em modelo novo)
(13)
Ganho em explicacao e simplesmente a quantidade em que a some de quadrados de residuos diminuiu: SS
Erro
(k)
SS
Erro
(m) lembramos que SS
Erro
(k) > SS
Erro
(m). Logo
F =
(SS
Erro
(k) SS
Erro
(m))/(mk)
SS
Erro
(m)/(n m1)
F
mk,nm1
(14)
Escolha de variaveis.
Espicicacao do modelo envolve especicacao de relacoes que constituem o modelo, especicacao de variaveis, e
especicacao de funcao matematica. Esta aula e sobre especicacao de variaveis. O que ocorre se uma variavel nao
entrou em modelo, e o que ocorre, se uma variavel que nao deveria estar no modelo esta la? Vamos considerar o caso
simples, as relacoes lineares, e vamos ver quais sao propriedades estatsticas de estimadores de coecientes de regressao
podem ser violadas se ocorre o erro na especicacao de variaveis. Aula pode ser redusida em duas proposicoes.
1. Se uma variavel, que deveria estar em modelo, esta fora do modelo, entao coecientes em geral (nao sempre) sao
viesados. O erro padrao de coecientes e t-teste sao, em geral, invalidos.
2. Se em modela entra uma variavel que deveria estar fora do modelo, entao coecientes de regressao sao em
geral (mas nao sempre) nao ecientes, mas nao vieados. O erros padrao em geral sao validos mas, de causa de
nao-eciencia de estimadores, sao desnecessariamente grandes.
Efeito de ausencia de variavel que deveria estar em modelo.
Supomos que variavel y depende de duas variaveis explicativas x
1
, x
2
de accordo com
y = +
1
x
1
+
2
x
2
+ , (15)
mas nos ignoramos a importancia de x
2
. Pensando que o modelo deveria ser
y = +
1
x
1
+ , (16)
nos usaremos analise de regressao
y = a + b
1
x
1
(17)
e nos calculamos b
1
usando a expressao Cov(x
1
, y)/V ar(x
1
), em vez de espressao correta
b
1
=
Cov(x
1
, y)V ar(x
2
) Cov(x
2
, y)Cov(x
1
, x
2
)
V ar(x
1
)V ar(x
2
) [Cov(x
1
, x
2
)]
2
. (18)
Calcularemos a esperanca de b
1
:
E[b
1
] = E
_
Cov(x
1
, y)
V ar(x
1
)
_
= E
_
Cov(x
1
, +
1
x
1
+
2
x
2
+ )
V ar(x
1
)
_
= E
_
Cov(x
1
, )
V ar(x
1
)
_
+ E
_
Cov(x
1
,
1
x
1
)
V ar(x
1
)
_
+ E
_
Cov(x
1
,
2
x
2
)
V ar(x
1
)
_
+ E
_
Cov(x
1
, )
V ar(x
1
)
_
=
1
+
2
Cov(x
1
, x
2
)
V ar(x
1
)
o vies pode ser explicado intuitivamente:
2
e um efeito direto da variavel x
2
, e Cov(x
1
, x
2
)/V ar(x
1
) e o coeciente
de inclinacao para regressao x
2
contra x
1
. Entao Cov(x
1
, x
2
)/V ar(x
1
) signica o efeito indireto de x
1
que desempenha
o papel de imitador de x
2
. Assim o produto de dois efeitos (mais um erro de amostra) constituem o vies.
O vies e igual `a zero se
2
= 0, mas nesse caso o modelo verdadeiro e um-dimencional, ou se variaveis x
1
e x
2
sao
nao corelacionadas Cov(x
1
, x
2
) = 0. A direcao de vies determina-se automaticamente.
Efeito de presenca de variavel que nao deveria estar em modelo.
Supomos que o modelo verdadeiro e
y = +
1
x
1
+ (19)
e nos pensamos que
y = +
1
x
1
+
2
+ (20)
e estimamos b
1
usando (18) em vez de Cov(x
1
, y)/V ar(x
1
).
Em geral nao existe o vies, mesmo se a gente calculou pela formula errada. A esperanca E[b
1
] =
1
, mas em geral
b
1
vai estar ineciente. Ele e mais erratico, em sentido de ter a variancia maior ao redor de
1
de que se ele estivesse
calculado corretamente. A perda de eciencia de causa de incluso em modelo x
2
que deveria estar fora depende de
correlacao entre x
1
e x
2
. Comparando as formulas para variancia de b
1
em regressao simples e bi-dimensional
D[b
1
] =

2

nV ar(x
1
)
em regressao simples;
D[b
1
] =

2

nV ar(x
1
)

1
1 r
2
x
1
x
2
em regressao bidimensional;
vejamos que a variancia aumenta se a correlacao ca forte (perto de 1 e -1).
Exsite uma excecao na hora de concluir que o estimador nao sofre vies: se x
2
e correlacionado com , (violando a
quarta condicao de Gauss-Markov para o modelo) o coeciente de regressao ao nal vai ser viesado.
Variavel substituto (proxy variable).
Freq uentemente ocorre que a variavel que voce quer por no modela nao esta disponvel: ou nao pode ser medida (como
qualidade de educacao, ou estado socioeconomica); ou requera m uito tempo para ser medida. Por qualquer razao,
usualmente uma boa ideia e em vez de tirar essa variavel do modelo, tentar achar um substituto dela. Por exemplo
para estado socioeconomico poderiamos usar o salario, se ele e disponivel.
Existe duas rasoes para tentar achar o substituto. Primeira, se nos simplesmente jogamos fora uma variavel
que deveria estar em modelo, sabemos que os coecientes de modelos sofem vies, e testes estatsticos sao invalodos.
Segundo, e que os resultados com variavel substituta pode esclarecer alguma coisa sobre a variavel que ela substitua.
Supomos que omodelo verdadeiro e
y = +
1
x
1
+
2
x
2
+ +
k
x
k
+ (21)
Supomos que nao temos os dados sobre x
1
, mas outra varavel z e um ideal substituto existe uma relacao exata entre
elas: x
1
= + z, onde , sao constantes xas, mas desconhecidas. Notamos que nos nao podemos estimar essas
constantes - pois precisamos de dados de x
1
que sao indisponveis. Se nos faremos a regressao
y = a + b
2
x
2
+ + b
k
x
k
+ cz,
entao estimadores b
2
, . . . , b
k
, desvios padrao deles, e R
2
estariam mesmos como na regressao com variavel x
1
. ` unico
defeito e que nos nao temos o estimador para coeciente de x
1
e o coeciente a nao e estimador de mas de ( +).
Testando restricoes lineares.
Consideramos um exemplo funcao de Cobb-Douglas
Y = AK

onde Y e produtividade; K - capital e L trabalho. A funcao como ela foi sugerida pela pesquisadores inicialmente
tem a seguinte forma
Y = AK

L
1
que pode ser reduzida em Y/L = A(K/L)

colocando a restricao = 1 . Pergunta e como que nos podemos testar se essa restricao signicante?
F teste de restricao
Seja SS
(R)
Erro
e soma de quadrados de resduos em regressao com a restricao e SS
(U)
Erro
e soma de quadrados de resduos
em regressao sem a restricao.
`
E obvio que SS
(R)
Erro
> SS
(U)
Erro
. Para testar se essa diferen ca e signicante podemos usar
F-teste:
F =
(SS
(R)
Erro
SS
(U)
Erro
)/r
SS
(U)
Erro
/(n k 1)
F
r,nk1
(22)
onde r e n umero de parametros a mais para estimar em regressao sem restricao (no caso descrito acima r = 1 porque
temos que estimar a mais ) e k e n umero de variaveis explicativas em regressao sem restricao.
Multicolinearidade (Aivasian)
Multicolinearidade interdependencia multipla ou conjunta de variaveis explicativas do modelo x
(1)
, . . . , x
(p)
. Sera
que podemos denir a multicolinearidade? Quais sao sintomas externas de presenca dela? Quais diculdades ela cria
na analise de regressao e como ultrapassar essas diculdades?
Sintomas e causas da multicolinearidade
Multicolinearidade completa se-dene como a violacao de seguinte condicao de Gauss-Markov do modelo de regressao:
a condicao de posto de matriz X. Falam que as variaveis explicativas do modelo x
(1)
, . . . , x
(p)
possuam a propriedade
de multicolinearidade, se o posto de matriz X e menor de que p + 1. Neste caso existe a dependencia linear entre
as variaveis explicativas. Quando isso ocorre a matriz X
T
X e singular e nao existe a matriz inversa (X
T
X)
1
. Na
pratica a multicolinearidade completa quase nao aparece, pois e facil detectar ela, e nao e dicil evitar ela ja na analise
preliminar da escolha de conjunto de variaveis explicativas.
Multicolinearidade real (ou parcial) aparece quando existem as ligacoes estatisticas lineares fortes entre as variaveis ex-
plicativas. Nos nao temos criterios exatos e quantitativos para denicao de presenca-ausencia de da multicolinearidade
real. Mas temos algumas recomendacoes euristicas como revelar a multicolinearidade.
(1) In primeiro lugar podemos analisar a matriz de correlacao R de variaveis explicativas. Considera-se que
a existencia de coecientes de correlacao com valores absolutos maior de que 0.75-0.8 indica sobre a existencia de
multicolinearidade.
(2) A existencia de ligacoes estatisticas lineares e fortes leva `a chamado condicionalidade fraca de matriz X
T
X, o
que e a proximidade de determinante do matriz X
T
X ao zero. Por isso se det(X
T
X) 0, entao isso tambem indica
a presenca de multicolinearidade.
(3) O autovalor minimal
min
de matriz X
T
X desempenha o papel importante na analise da multicolinearidade.
Isso explica-se com dois fatos. Primeiro e que do
min
0 segue det(X
T
X) 0 e vice versa. Em segundo lugar,
podemos mostrar que o erro padrao de

i
inversamente proporcional `a o valor de
min
(veja por exemplo ...). Porisso
junto com o valor de det(X
T
X) calculam
min
ou seja o raiz da equacao det(X
T
X I
p+1
) = 0.
(4) Analise de matriz de correlacao R permite na primeira aproximacao (e relativamente supercial) julgar sobre
a existencia da presenca-ausencia da multicolinearidade em nossos dados. O estudo mais detalhado dessa questao e
alcancada com calculo de coecentes de determinacao R
2
x
(i)
,X(i)
de cada variavel explicativa x
(i)
contra todas as outras
vari`aveis X(i) = (x
(1)
, . . . , x
(i1)
, x
(i+1)
, . . . , x
(p)
)
T
. Isso explica-se pelo fato que erro padrao de estimador

i
e ligado
com o valor de R
2
x
(i)
,X(i)
cde seguinte modo s.e.(

i
) =
2
/n(1 R
2
x
(i)
,X(i)
).
(5) Anal, sobre a presenca de multicolinearidade sinaliza alguns sintomas externas, que sao consequencias dela.
Por exemplo:
1. alguns de estimacoes

i
possuam os sinais errados de ponto de vista da teoria estudada (economia, biologia, ect.)
ou valores absolutos injusticadamente grandes;
2. alteracao pequena ne dados iniciais (quando adicionam ou retiram alguma porcao de observacoes) leva `a grande
mudan ca de valores de estimacoes, ate a mudan ca de sinal do estimacao;
3. a maioria ou ate todas as estimativas de coecientes sao estatisticamente insignicantes de ponto de vista de
t-estatistica, enquanto na realidade a maioria deles tem os valores reais diferentes de zero, e o modelo em geral
e estatisticamente signicante pela F-estatistica.
Essas e outras similares peculiaridades de modelo podemos entender e prever, se lembrarmos as relacoes

= (X
T
X)
1
X
T
Y e

=
2
(X
T
X)
1
ou

=
2
(X
T
X)
1
Em todas as relacoes temos a matriz (X
T
X)
1
, cujos elementos sao inversamente proporcionais `a det(X
T
X). Se
esse valor e bastante pequeno, entao colocacao ou a retirada de uma-dias linhas de matriz X (o que e equivalente `a
adicao ou a retirada de uma-duas observacoes de dados iniciais) pode radicalmente (em muitas vezes) alterar o valor
de det(X
T
X), e consequentemente, alterar

e

dependentes dele. Ao mesmo tempo pequenez do valor det(X


T
X)
implica valores exorbitantes de elementos dioganais de matriz

(ou seja D(

i
)), o que pode levar `a insignicancia
de valores |

i
|/s.e.(

i
).
Metodos de eliminacao de multicolinearidade
Trasicao para estimadores viesados
Sabemos que os estimadores de coecientes de regressao tem a o erro quadratico minimas em classe de estimadores
lineares e nao-viesados. Pode existir um estimados viesado

, mas mais preciso (em termos de erro quadratico E(

))
de que o estimador otimas em classe de estimadores nao viesados?
`
E sim, pode! ... desenho ... Seja

v
um estimador
viesado e seja o vies dele,

e nao viesado. E desigualdade E(

)
2
> E(

v
)
2
pode ocorrer em seguinte situacao:
se D(

) > D(

v
) +
2
, pois
E(

)
2
= D(

)
E(

v
)
2
= E(

v
E

v
+E

v
)
2
= E(

v
E

v
)
2
+ (E

v
)
2
= D(

v
) +
2
Mostraremos um dos jeitos de construir os estimadores vieasdos. A abordagem ridge regression (ou regressao crista
??? cume ???). O metodo e baseado em consideracao de uma familia de um paramentro de estimadores de mnimos
quadrados corrigidos, ou seja os estimadores da seguinte forma

= (X
T
X + I
p+1
)
1
X
T
Y. (23)
A adicao da cristaou cume para elementos diagonais de matriz X
T
X, de um lado, faca que esses estimadores
cam viesados, mas de outro lado, faca que a matriz de mal condicionada vira bem condicionada. Consequentemente,
mais para frente nos nao vamos encontrar valores pequenos de determionante de matriz X
T
X (agora ele vai ser matriz
X
T
X + I
p+1
) e as diculdades ligadas com isso. Existe o teorema (veja Hoerl A.E., Kennard R.W., Technometrics,
1970, vol.12, No 1, pp.55-67) que arma que sobre as condicoes de multicolinearidade existe um valor
0
tal que os erros
medios quadraticos de estimadores

0
vao ser menores de que os erros correspondentes para

de minimos quadrados.
Nao existem as recomendacoes universais como escolher
0
(geralmente escolhem o valor de
0
em intervalo de 0.1 ate
0.4.
Transicao para variaveis explicativas ortogonalizadas pelo metodo de componente principal
Componentes principais de um vetor aleatorio. Seja X = (x
(1)
, . . . , x
(p)
) um vetor aleatorio p dimensional com vetord
da medias a = (a
(1)
, . . . , a
(p)
) e matriz de covariancia = (
ij
) quem em geral sao desconhecidas. Consideramos uma
classe F(X) de transformacoes permissveis de variaveis x
(1)
, . . . , x
(p)
como qualquer combinacao linear e ortogonal
padronizado:
F(X) =
_
Z = (z
(1)
, . . . , z
(p)
) : z
(i)
=
p

j=1
c
ij
(x
(j)
a
(j)
), j = 1, . . . , p
_
,
onde
i
n

j=1
c
2
ij
= 1 e i = k
n

j=1
c
ij
c
jk
= 0.
Como a medida de informatividade de sistema p

-dimensional de variaveis Z(X) = (z


(1)
(X), z
(2)
(X), . . . , z
(p

)
(X))
usaremos a formula
I
p
(Z(X)) =
Dz
(1)
+ +Dz
(p

)
Dx
(1)
+ +Dx
(p)
. (24)
Agora, para qualquer p

xo, o vetor de componentes auxiliares Z(X) = (z


(1)
(X), z
(2)
(X), . . . , z
(p

)
(X))
T
determi-
namos como tal combinacao linear
Z(X) = LX =
_
_
_
l
11
l
1p
.
.
.
.
.
.
.
.
.
l
p

1
l
p

p
_
_
_X matriz L e uma matriz ortogonal
que
Z(X) = arg max

Z(X)F(X)
I
p
(

Z(X)).
Obtidos desse modo variaveis z
(1)
(X), z
(2)
(X), . . . , z
(p)
(X) colocadas em ordem crescente em relacao ao variancia de
cada uma chamam-se componentes principais de vetor X.
Agora lembraremos que estamos na estatstica tentando estimar coecientes de regressao linear. O procedimento vai
ser parecido, somente alterado para amostras. Primeiramente construimos matriz de observacoes centralizadas:
X
c
= X ( x
(1)
, . . . , x
(p)
) =
_
_
_
_
x
(1)
1
x
(1)
x
(p)
1
x
(p)
.
.
.
.
.
.
.
.
.
x
(1)
n
x
(1)
x
(p)
n
x
(p)
_
_
_
_
A regressao de Y pelo X em termos de variaveis centralizadas Y
c
= Y

Y e X
c
= X

X pode ser representada como
E(Y

Y | X

X) =
1
(x
(1)
x
(1)
) + +
p
(x
(p)
x
(p)
).
O intercept
0
da regressao original pode ser representado como
0
= y

p
i=1

i
x
(i)
. Deste modo a realizacao de
metodo de componente principal preve seguintes passos:
1. Acharemos os outovalores
1

2

p
> 0 e correspondentes autovetores l
i
= (l
i1
, . . . , l
ip
), i = 1, . . . , p
de matriz X
T
c
X
c
.
2. Construa-se matriz de coecientes de transformacao
LX =
_
_
_
l
11
l
1p
.
.
.
.
.
.
.
.
.
l
p

1
l
p

p
_
_
_
onde cada linha e o correspondente autovetor. Notamos que pela construcao de matriz segue que ela e ortoginal,
ou seja L
T
= L
1
e consequentemente L
T
L = LL
T
= I
p
.
3. Usando L acharemos vetor de componentes principais
Z = (z
(1)
, . . . , z
(p)
)
T
= LX
c
.
Notamos tambem que de construcao segue que Z
T
Z e uma matriz diagonal
Z
T
Z =
_
_
_
_
_

1
0 0
0
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0
p
_
_
_
_
_
,
e consequentemente
(Z
T
Z)
1
=
_
_
_
_
_
1/
1
0 0
0 1/
2
0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 1/
p
_
_
_
_
_
,
Notamos tambem que o vetor centralizado de dados originais X
c
pode ser representado como
X
c
= X

X = L
1
Z = L
T
Z.
4. Retornando para o modelo de regressao, construimos a regressao Y
c
pelo vetor dos componentes principais Z:
E(Y
c
| Z) = c
1
z
(1)
+ c
2
z
(2)
+ + c
p
z
(p)
usando as formulas de metodo de minimos quandrados obtemos
c = ( c
1
, . . . , c
p
)
T
= (Z
T
Z)
1
Z
T
Y
c

c
=
2
pc
(Z
T
Z)
1
onde

2
pc
=
1
n p
n

i=1
(y
ci
c
1
z
(1)
i
c
p
z
(p)
i
)
2
.
Assim os componentes de c sao nao correlacionadas e
c
j
=
1

j
n

i=1
z
(j)
i
y
ci
e E( c
j
c
j
)
2
=

2
cp

j
. (25)
5. Anal, vericamos as hipoteses em sequencia
H
0j
: c
j
= 0 j = 1, . . . , p
usando (25) e estatsticas

j
=

n
i=1
z
(j)
i
y
ci


cp
/

j
=

n
i=1
z
(j)
i
y
ci


cp

j
.
Seja J
0
conjunto de indices de componentes principais para quais rejeitamos a hipotese H
0j
. Entao o estimador
de funcao de regressao pode ser descrito em seguinte modo
y = y +

jJ
0
c
j
z
(j)
. (26)
Neste caso a expluzao de modelo as variaveis nao leva a alteracao de valores de coecientes estimados, pois a
forma de matriz (Z
T
Z)
1
garante independencia de resultados de calculo de estimadores c
j
de n umero e de
conjunto de variaveis enclusos em modelo de componentes principais.
Se podemos dar a interpreta cao adequada da regressao (26). Neste caso podemos terminar a analise. Caso contrario
os estimadores

0,cp
, . . . ,

p,cp
para os parametros
0
,
1
, . . . ,

p
da regressao original podem ser obtidas de seguinte
forma

i,cp
=

jJ
0
c
j
l
ji
, i = 1, 2, . . . , p,

0,cp
= y
p

i=1

i,cp
x
(i)
Em geral esses estimadores sao viesados, mas existem as formulas de valores de vies.
Exerccios Domesticos.
1. ([2]) A regressao multipla foi aplicada para explicar gastos em moradia (y) atraves de slario (x) e indice de precos
relativa (p)
y = 43.4 + 0.181x + 0.137p
dar a interpretacao dessa regressao. Porque voce nao pode ser satisfeito com essa regressao? A regressao
logaritmica para gastos em moradia foi realizada:
logy = 0.60 + 1.18logx 0.34logp
dar a interpreta cao de equacao. Compare com a regressao anterior. In qual sentido houve melhora no resultado?
2. ([1]) O proprietario da Showtime Movie Theater, Inc., gostaria de estimar o faturamento bruto semanal (Y)
como funcao dos gastos com publicidade. Dados historicos para uma amostra de seis semanas sao apresentadas
a seguir.
Faturamento Bruto Semanal (Y) An uncio de Televisao (TV) An uncio de Jornal (J)
(US$ 1.000) (US$ 1.000) (US$ 1.000)
96 5.0 1.5
90 2.0 2.0
95 4.0 1.5
92 2.5 2.5
95 3.0 3.3
94 3.5 2.3
94 2.5 4.2
94 3.0 2.5
Foram obtidas tres regressoes:
Y = 88.64 + 1.60 TV R
2
= 0.65
(s.e.) (1.58) (0.48)
Y = 93.86 - 0.04 J R
2
= 0.0004
(s.e.) (2.23) (0.85)
Y = 83.23 + 2.29 TV + 1.30 J R
2
= 0.92
(s.e.) (1.57) (0.30) (0.32)
(a) Qual modelo voce escolha? Porque?
(b) Coeciente de correla cao entre gastos em anuncios em jornal e gastos em anumcios em televisao e negativa
e igual `a -0.55. Como voce pode explicar a diferenca em valores de coeciente para TV na primeira e na
terceira regressao?
(c) Qual e a estimativa do faturamento bruto para uma semana quando US$ 3.500 sao gastos em an uncio de
televisao e US$1.800 sao gastos em an uncio de jornal?
3. Para oserva coes anuais 1959-1985 a regressao linear simples logaritmoca foi aplicada para explicar os gastos em
alimentos (food) atraves de salario liquido (dpi) (com erro padrao em parentesis):
ln(food) = 1.113 + 0.563 ln(dpi) R
2
= 0.9596
(0.156) (0.024) SS
Erro
= 0.0205
Com objetivo achar o modelo mais adequado o pesquisador adicionou mais duas variaveis em regressao indice
de preco relativo (pfood) e o tempo t (t=1 para 1959 ect.)
ln(food) = 5.116 + 3.47e-05ln(dpi) 0.136 ln(pfood) + 0.027t R
2
= 0.983
(0.863) (0.112) (0.058) (0.006) SS
Erro
= 0.0088
(obs: 3.47e-05 e simplesmente o n umero 0.0000347)
(a) Quais modelos sao consideradas para consumo de alimentos?
(b) Da interpreta cao para cada equacao obtida e realiza os testes de signicancia para coecientes.
(c) Como voce explica o aumeto de R
2
e diminuicao de SS
Erro
da primeira equacao para a segunda. Somente
esse fato signica que o modelo melhorou?
(d) Realize o F-teste para dous modelos.
(e) Realize o F-teste para adicao de variaveis em segundo equacao. A adicao de indice de preco para alimentos
e o tempo e signicante com o nvel de signicancia de 1%?
(f) Como voce explicaria o fato que a vari`avel ln(dpi) e extremamente signicante em primeira equacao e nao
signicante em segunda?
4. ([2] p.176, Problem 6.1) Assumimos que a regressao de gastos em alimentos, y, contra salario, x, e preco relatvo,
p, e correta. Avaliar a direcao de vies in coecientes de outra variavel se (1) p e (2) x e ausente. Sabemos que x
e p sao positivmente correlacionadas. Os resultados sao em tabela
variaveis constante x p R
2
x, p 116.7 0.112 - 0.739 0.99
(9.6) (0.003) (0.114)
x 55.3 0.093 0.98
(2.4) (0.003)
p -125.9 2.462 0.62
(42.1) (0.407)
Verica se esses resultados conrma seu analise e comenta valores de R
2
em tres regressos.
5. ([2] p.178, Problem 6.7) In experimento Monte Carlo descrito em Aula 8 (apresentacao) onde salario Y e de-
terminado atraves de anos de escolaridade, S, e anos da experiencia, X, e idade, A. X e A sao positivamente
correlacionadas, e S e negativamente correlacionada com outras duas. A parte esquerda da tabela mostra o valor
de R
2
quando Y regressacontra somente S, depois contra S e X, e depois contra todas tres S, X, A. A perte
direita mostra o valor de R
2
quando T regressa contra somente A, depois contra A e X, e depois contra tres
A, X, S.
S 0.301 A 0.189
S, X 0.688 A, X 0.213
S, X, A 0.695 A, X, S 0.695
Explicar porque o poder explicativo aparente de A e menor quando ela entra no nal de que quando ela entra
no inicio. Enquanto o poder de S e maior quando entra no nal.
6. ([2] p.182, Problem 6.9) O pesquisador de ciencias sociais pensa que o nvel de atividade em mercadonegro,
Y
t
, depende ou positivamente de nvel de carga de impostos, X
t
, ou negativamente de nvel de atividade gov-
ernamental contra a atividade de mercado negra. Y
t
pode tambem depender das duas. Dados anuais de serie
temporal sao obtidos durante 20 anos, todas sao medidas em mesma unidade. O pesquisador regressa
(a) Y
t
contra somente X
t
(b) Y
t
contra somente Z
t
(c) Y
t
contra ambos X
t
e Z
t
para cada cidade com seguintes resultados (erro padrao em parentesis)
constante X
t
Z
t
R
2
Cidade A
(a) 315.7 1.54 0.12
(18.5) (0.97)
(b) 128.6 -0.96 0.94
(50.9) (0.06)
(c) 218.0 2.85 -1.21 0.99
(76.6) (0.25) (0.03)
Cidade B
(a) 197.6 2.86 0.88
(16.8) (0.25)
(b) 512.2 -0.05 0.02
(202.6) (0.08)
(c) 230.8 2.94 -0.01 0.88
(82.5) (0.27) (0.03)
Fazendo os testos estatsticos apropriados, escrever o resumo curto aconselhando o pesquisador como interpretar
os resultados.
7. Um pesquisador acredita que existe a relacao entre salario do individuo, y, anos de experiencia prossional, x, e
anos escolares, S, e dada pela formula
y = +
1
x +
2
S +
Pesquisador tem os dados de y e S para 1000 individuosm, mas nao tem os dados diretos sobre x. Existe os
dados sobre idade de pessoas. Por isso numero de anois passados depois de formacao escolar pode ser calculada
pela formula
z = Idade S 6
assumindo que cada individuo vai para escola em 6 anos. Descrevem vantagens e desvantagens de
(a) regressandoy contra somente S
(b) regressandoy contra S e z, usando z como substituto de x
Explica como os resultados da regressao tem que ser interpretadas e quais estatsticas podem ser realizadas.
8. A regressao de gastos em moradia contra renda individual, imposto, e indice de preco relativo e
y = 41.6
(50.0)
+ 0.177z
(0.020)
0.160tax
(0.094)
+ 0.131p
(0.432)
R
2
= 0.99
A regressao de mesmos gastos contra o salario (renda lquida) e
y = 43.4 + 0.181x + 0.137p
Compara as equacoes obtidas. Qual restricao foi usada para formar a segunda equacao? Soma de quadrados de
resduos em modelo sem restricao e com restricao sao 382.4 e 383.3 correspondente. Realise teste de restricao.
Referencias
[1] D.R.Andreson, D.J.Sweeney e T.A.Willians (2000) Estatstica Aplicada `a Adnimistracao e Economia. Traducao
da 2
a
edicao norte-americada. Thomson.
[2] C.Dougherty (1992) Introduction to Econometrics. New York, Oxford University Press. (captulo 6 - specifi-
cation of regression variables: a priliminary skirmish.)

You might also like