Professional Documents
Culture Documents
1 Le serie storiche o temporali vengono dette in lingua inglese time series mentre i dati
sezionali sono detti cross-section data.
1-2
Modulo II – Minimi quadrati
∑λ i =1
i =1
si ha che
y it = λ i y t .... t = 1,2,..., n ; i = 1,2,..., N (1.1.4)
per cui, sostituendo le (1.1.4) nelle (1.1.3) e tenendo conto del vincolo, si ottiene
sommando membro a membro
ct = α + β 0 yt
N
dove β 0 = ∑ λ i βi , di nuovo del tipo (1.1.1) ma con un’altra aggregazione sezionale.
i =1
Dati longitudinali
Se il campione di famiglie considerato nella (1.1.3) rimane costante negli n tempi, i
dati ad esso relativi, {c it } e {y it } sono chiamati longitudinali, alludendo al fatto che
un campione di più individui viene seguito lungo il tempo2. Per il trattamento dei
dati longitudinali si usano procedure econometriche specifiche che non saranno
trattate nel presente modulo.
2 In lingua inglese i dati longitudinali vengono chiamati panel data (dal termine panel, che
indica un gruppo di individui).
1-3
Modulo II – Minimi quadrati
400,000
350,000
300,000
Y90
250,000
200,000
150,000
100,000 120,000 140,000 160,000 180,000 200,000 220,000
CF90
1-4
Modulo II – Minimi quadrati
Si può, invece, trovare una retta del tipo (1.1.1), e quindi una coppia di valori α
e β, tale che attraversi la “nuvola” di punti ( ct, yt ) nel diagramma di figura 1.1 con
una distanza ut da questi punti, misurata secondo le ordinate, che obbedisca ad un
particolare criterio di ottimo, scelto soggettivamente. Se il criterio fa determinare i
valori α̂ e β̂ , l’equazione della retta è
cˆ t = α
ˆ + βˆ y t
definente i valori teorici ĉ t per il consumo, in funzione delle yt campionarie e di α̂ e
β̂ ; le differenze tra i valori osservati e quelli teorici per le ct costituiscono i residui
û t
uˆ t = c t − cˆt = c t − αˆ − βˆ y t t = 1, 2, …, n
Ad ogni coppia α̂ , β̂ corrisponde una serie storica di residui {ût } diversa, per cui
finché ad α e a β non si danno valori determinati è possibile considerare una serie
di residui {ut } non specificata ma che si suppone generata dal modello
ut = ct - α - βyt t = 1, 2, …, n (1.2.1)
1-5
Modulo II – Minimi quadrati
per ogni coppia e cioè per ogni t . Ipotizziamo, in altre parole, che la “struttura
dell’economia”, nella fattispecie l’equazione del consumo, rimanga inalterata nel
periodo campionario ovverosia che il campione sia omogeneo.
Osservazione 1.1- In ambedue i criteri sopra indicati i valori negativi e
quelli positivi delle ut sono trattati alla stessa stregua
(simmetricamente). Nel criterio definito dalla (1.2.2) i residui
intervengono a comporre la devianza in modo non lineare, in quanto il
loro contributo ad essa è proporzionale al loro quadrato. In termini
geometrici questo equivale a dire che la retta dei minimi quadrati del
tipo (1.1.1) è determinata in modo che sia più sensibile ai punti più
“esterni” nella nuvola ( ct, yt ) che non a quelli più “interni” (e vicini alla
stessa retta).
Osservazione 1.2 - Le distanze sono prese parallelamente all’asse delle
ordinate ma potrebbero essere parimenti considerate parallelamente
all’asse delle ascisse, oppure anche ortogonali alla retta che definisce i
valori teorici ĉ t .
1-6
Modulo II – Minimi quadrati
min
a1 ,..., a h
∑u 2
t = min
a 1 ,..., a h
∑ [g ( y , x
t 1t , x 2t ,..., x kt ; a1 , a 2 ,..., a h )] = min S (a1 , a 2 ,..., a h )
a1 ,..., a h
(1.3.6)
t =1 t =1
1-7
Modulo II – Minimi quadrati
min
β1 , β2
∑ (y t − β1 − β 2 x t ) = min S (β1 , β2 )
β1 ,β 2
t =1
∂S n
∂β = 2 ∑ ( y t − β1 − β 2 x t )(− 1) = 0
1 t =1
∂S = 2 ( y − β − β x )(− x ) = 0
n
∂β 2 ∑ t 1 2 t t
t =1
cioè
n n
∑ t y = n β 1 + β 2 ∑ xt
t=1 t =1 (1.3.7)
n n n
x y =β
∑ 1∑ t 2 ∑ xt
t t x + β 2
t =1 t =1 t =1
Se si pone
1 n 1 n 1 n 2 1 n
x = ∑ xt , y = ∑ y t m xx = ∑ x t ,
, m xy = ∑ xt yt (1.3.8)
n t =1 n t=1 n t=1 n t=1
dalla prima delle (1.3.7) si ricava, dividendo per n,
y = β1 + β2 x (1.3.9)
e dalla seconda, sostituendo il valore di β1 dato dalla (1.3.9),
n n n
∑ x t yt = ( y − β2 x )∑ x t + β 2 ∑ xt 2
t =1 t =1 t =1
cioè
1-8
Modulo II – Minimi quadrati
(
m xy = yx + β 2 m xx − x 2 )
dalle quali si ottiene la stima dei minimi quadrati di β2
mxy − yx (1.3.10)
βˆ 2 = m xx ≠ x 2
mxx − x 2
βˆ 1 = y − βˆ 2 x (1.3.11)
∂2S ∂2S n
∂2 S n
∂β12
= 2n > 0 ,
∂β 2
2
= 2 ∑
t =1
xt2 > 0 ,
∂β12 ∂β22
= 2 ∑
t =1
xt
n
( )
n
∑ t − β − β = ∑ uˆ t = 0
y ˆ ˆ x
1 2 t
t=1 t =1 (1.3.13)
n
( )
n
∑ ∑
y t − β
ˆ 1 − β
ˆ x
2 t xt = uˆ t xt = 0
t =1 t =1
1-9
Modulo II – Minimi quadrati
∑ t 1 2 n ∑ xt = βˆ 1 + βˆ 2 x = y
n t=1
ˆ
y = β
t =1
1-10
Modulo II – Minimi quadrati
y = [ y1 y2 ... y n ]′
e alle variabili esplicative x it, che riportiamo in forma matriciale4
x11 x 21 ... x k 1
x ... xk 2
x22 (1.4.1)
X = 12
... ... ... ...
x1n x 2n ... x kn
( )
uˆ t = yt − yˆ t = y t − βˆ 1 x1t + βˆ 2 x 2t + ... + βˆ k x kt = y t − βˆ ' x t (1.4.2)
4 I concetti di algebra matriciale necessari alla comprensione dei passaggi successivi sono
esposti nel capitolo XIX-1.
1-11
Modulo II – Minimi quadrati
Per ottenere questo minimo è utile riscrivere il modello (1.3.4), per tutte le t , in
forma matriciale
y1 β1 u1
y x k 1 β 2 u 2
2 x11 x 21 ...
... x12 x 22 ... x k 2 ... ...
= +
... ... ... ... ... ... ...
... x1n x 2n ...
x kn ... ...
y n β k u n
cioè
y = Xβ + u (1.4.4)
dove u = [u1 u2 …un ]′. Allora la devianza S(β) è
′
n
S (β) = ∑ u t = u′u = ( y − Xβ) ( y − Xβ)
2
(1.4.5)
t =1
1-12
Modulo II – Minimi quadrati
β̂ = ( X ′X) −1 X ′y (1.4.10)
1-13
Modulo II – Minimi quadrati
X ′uˆ = X ′( y − X βˆ ) = X ′y − X ′X βˆ = 0 (1.4.15)
1-14
Modulo II – Minimi quadrati
y ′y = ( Xβˆ + uˆ )′( Xβˆ + uˆ ) = βˆ ' X ′Xβˆ + βˆ ' X ′uˆ + uˆ ' Xβˆ + uˆ ′uˆ = yˆ ' yˆ + uˆ ′uˆ (1.4.17)
∑ uˆ t =0 (1.4.18)
t =1
cioè il valor medio campionario dei residui stimati è nullo, se viene calcolata
l’intercetta. La (1.4.18) generalizza la prima delle (1.3.13). In questo caso,
considerando la (1.4.2), si ha anche che il valor medio campionario delle yt è uguale
al valor medio campionario delle ŷ t stimate
n n
1 1
y=
n
∑y t =
n
∑ yˆ t (1.4.19)
t =1 t =1
∑ x it ( y t − x ′t βˆ ) = ∑ x ituˆt = 0 (1.4.20)
t =1 t =1
y1 u1
y u
2 1 x1 2
... 1
x 2 β1 ...
= +
... ... ... β 2 ...
... 1 xn
...
y n u n
per cui la matrice X′X è
1-15
Modulo II – Minimi quadrati
n
n ∑x t
X′X = n t =1
n
x 2
∑ ∑ xt
t =1
t
t =1
2
nn
con determinante det( X′X) = n∑ x − ∑ x t e aggiunta
2
t
t =1 t=1
n 2 n
∑ xt − ∑ xt
agg ( X′X) = t=1n t =1
− x n
∑t =1
t
βˆ 1 −1 1 m xx − x y 1 m xx y − xm xy
ˆ = ( X ′X ) X ′y = m =
β 2 m xx − x 2 − x 1 xy m xx − x 2 m xy − x y
∂ 2 S (β)
∂β i ∂β j
d2S(β ) è positivo o negativo a seconda che H sia definita positiva o negativa. Così la
condizione sufficiente affinché β̂ corrisponda ad un minimo (la positività del
differenziale d2S(β )) è che la matrice
∂ 2 S (β)
H= =2X′X (1.4.22)
∂β i ∂β j
1-16
Modulo II – Minimi quadrati
t =1
0 = (β − βˆ ) ′X ′( y − Xβˆ )
Sfruttando il corollario XIX -1.1 del par. XIX -1.8, dato che det(X′X) ≠ 0 la forma
quadratica in (β - β̂ ) data dalla (β − βˆ ) ′X ′X (β − βˆ ) nella (1.4.23) sarà maggiore di
zero se (β - β̂ ) ≠ 0. Allora, poiché β̂ è un vettore di costanti, il minimo di S(β ) viene
ottenuto se si prende β = β̂ dato dalla (1.4.10), che quindi costituisce il vettore delle
stime dei minimi quadrati dei parametri del modello (1.4.4).
Osservazione 1.12 - La condizione sufficiente consistente nella
definitezza positiva della matrice X′X corrisponde al fatto che
(β − βˆ ) ′X ′X (β − βˆ ) > 0 per un qualsiasi β − βˆ ≠ 0 , cioè alla
disuguaglianza utilizzata per mostrare che la devianza S(β ) è minima
nella (1.4.23) quando β = βˆ .
1-17
Modulo II – Minimi quadrati
∑ ( y t − y ) 2 = ∑ ( y t − yˆ t + yˆ t − y ) 2 =
t =1 t =1 (1.5.1)
n n n
= ∑ ( y t − yˆ t ) 2 + ∑ ( yˆ t − y ) 2 + 2∑ ( yt − yˆ t )( yˆ t − y )
t =1 t =1 t =1
1 n
dove y = ∑ yt come nelle (1.3.8). Il termine misto è nullo poiché
n t =1
n n n n
k ˆ n
∑ ( yt − y
ˆ t )( y
ˆ t − y ) = ∑ u
ˆ y
ˆ
t t − y ∑ u
ˆ t = ∑ u
ˆ t ∑ i it
β x − y ∑ uˆ t =
t =1 t =1 t =1 t =1 i =1 t =1
k n n
= ∑ βˆ i ∑ x ituˆ t − y ∑ uˆ t =0
i =1 t =1 t =1
avendo applicato le (1.4.18) e (1.4.20), per cui vale la scomposizione della devianza
(totale) di yt nella devianza di regressione ed in quella residua 9, essendo y per la
(1.4.19) il valor medio campionario sia di yt che di ŷ t ,
∑(y
t
t − y )2 = ∑ ( yˆ
t
t − y) 2 + ∑( y
t
t − yˆ t ) 2 (1.5.2)
9In lingua inglese: Dev. totale = Total Sum of Squares (TSS); Dev. di regressione =
Explained Sum of Squares (ESS); Dev. residua = Residual Sum of Squares (RSS).
1-18
Modulo II – Minimi quadrati
∑ ( y t − y ) = y ′y + ∑ y 2 − 2 y ∑ yt = y′y − ny 2
2
(1.5.5)
t =1 t =1 t =1
e quella residua
n
∑(y
t =1
t − yˆ t ) 2 = uˆ ′uˆ = ( y − Xβˆ )′( y − Xβˆ ) = y ′y − y ′Xβˆ − βˆ ′X ′y + βˆ ′X ′Xβˆ =
(1.5.6)
= y ′y − 2βˆ ′X ′y + βˆ ′( X ′X βˆ ) = y ′y − βˆ ′ X ′y
dove si è nuovamente sfruttato il fatto che β̂′X ′y è uno scalare e quindi uguale al
suo trasposto, e si è utilizzata la (1.4.12). Sostituendo queste relazioni nella (1.5.3)
si ottiene
y ′y − βˆ ′X ′y βˆ ′X ′y − ny 2 uˆ ′uˆ (1.5.7)
R2 = 1 − = =1−
y ′y − ny 2
y ′ y − ny 2
y ′y − ny 2
1-19
Modulo II – Minimi quadrati
sempre positivo, mentre quello espresso dalla (1.5.7) può essere negativo se dal
modello viene omessa l’intercetta, perché in tal caso l’ortogonalità (1.4.16) non
implica più il risultato (1.4.18) e quindi il termine misto nella scomposizione (1.5.1)
non si annulla.
Il coefficiente non centrato Ru2 riveste particolare importanza nella costruzione
di test diagnostici sul modello, come si vedrà in seguito nei moduli III e VIII.
Viceversa, per quanto attiene alla valutazione della bontà di adattamento10 del
modello ai dati, e quindi alla scelta delle variabili da considerare nel modello
stesso, si fa riferimento al coefficiente centrato R2 o alla sua versione corretta, che
passiamo a descrivere.
Rc2 = 1 − t =1 (1.5.10)
n
∑
1
( yt − y) 2
n − 1 t =1
Siamo così passati dal rapporto fra somme di quadrati (1.5.8) e dal rapporto fra
devianze (1.5.7) al rapporto fra varianze (1.5.10), nell’ultimo dei quali si tiene
esplicito conto del numero di variabili esplicative k .
Se, dato un modello, gli si aggiunge una variabile esplicativa qualsiasi,
assolutamente non significativa, cioè non legata da alcuna effettiva relazione con la
variabile dipendente, l’R2 comunque aumenterà. Al limite, inserendo nel modello n
variabili esplicative (cioè tante quante sono le osservazioni disponibili) si otterrà un
1-20
Modulo II – Minimi quadrati
adattamento perfetto ai dati (R2 = 1), in conseguenza del fatto che una nuvola di n
punti può essere interpolata esattamente da un iperpiano a n dimensioni. L’ Rc2
invece diminuisce, poiché a parità di devianze è Rc2 < R2 come si può ricavare
comparando la (1.5.9) con la (1.5.10). In questa maniera il confronto tra due modelli
con un diverso numero di variabili esplicative, effettuato ricercando quale dei due
possiede un coefficiente di determinazione maggiore, diventa più significativo in
quanto al modello con k più grande si attribuisce uno svantaggio, funzione appunto
della sua maggiore dimensione. Talvo lta Rc2 è indicato mediante una
soprallineatura: R 2 .
La relazione esistente tra R2 ed Rc2 è presto trovata
n −1 1− k n −1 2
Rc2 = 1 − (1 − R 2 ) = + R (1.5.11)
n−k n− k n− k
La (1.5.11) mostra che quando k si avvicina molto a n il coefficiente corretto R 2
diventa negativo tendendo a meno infinito.
Si noti che nonostante questa penalizzazione possa apparire molto severa, in
realtà è possibile dimostrare che anche il coefficiente Rc2 può aumentare (anche se
non aumenta necessariamente) quando al modello vengono aggiunte variabili
irrilevanti.12 Di conseguenza le misure di bontà dell’interpolazione, anche se
costituiscono un utile indicatore sintetico della bontà complessiva del modello, non
possono essere considerate come unica guida nella strategia di specificazione
econometrica.
12Una descrizione più rigorosa di questo fenomeno verrà fornita nel paragrafo 2.3 dopo aver
introdotto i test di significatività dei coefficienti.
1-21
Modulo II – Minimi quadrati
nella quale il termine noto non è più presente. Il coefficiente di determinazione per
la (1.5.13) è allora calcolato semplicemente applicando la (1.5.7) all’equazione
(1.5.13): questo può essere effettuato partizionando la matrice X originale in modo
da isolare l’ultima colonna formata da tutti uno ed indicata con i13
X=[ X1|i]
considerando il nuovo vettore dei parametri β 1 = [β1 β2 … βk ]’, ed effettuando le
seguenti sostituzioni, derivate dall’uso del modello (1.5.12):
al posto di si considera
yt y t − y = y t − i ′y / n
y y − iy = y − ii ′y / n = Cy
y′y y′Cy
xi x i − ixi = x i − ii ′x i / n = Cx i
X CX1
X′ X1′C
y 0
dove si è utilizzata la matrice di centraggio C definita dalla XIX-(1.10.5) come
1
C = In − ii ′
n
e le sue proprietà di simmetria e idempotenza dimostrate dalla (XIX-1.10.6). Si ha
allora
β̂1 X′1Cy
R2 = (1.5.14)
y ′Cy
dove si è ancora fatto uso dell’idempotenza di C e βˆ 1 = [βˆ 1 βˆ 2 ... βˆ k −1 ] ′ .
Osservazione 1.13 - Dalle (1.5.12) e (1.5.13) si trae che i residui stimati
con il modello degli scarti sono uguali a quelli stimati con il modello
(1.3.4) quando quest’ultimo contenga l’intercetta. In altre parole,
l’introduzione dell’intercetta vale a depurare i residui del modello
1-22
Modulo II – Minimi quadrati
1-23
Modulo II – Minimi quadrati
14 Indichiamo con una tilde una variabile aleatoria. Tale simbolo è utilizzato soltanto
quando la variabile è considerata in una contesto dichiaratamente stocastico (ad esempio
sotto il simbolo di valor medio E). In contesti più generali (ad esempio in un modello) è
solitamente omesso.
1-24
Modulo II – Minimi quadrati
15Si tratta di una conseguenza della proprietà di linearità dell’operatore di valor medio o
speranza matematica, definita dalla XXI-1.3.6
16 Dai termini greci οµοιοσ, uguale, e σκεδασι σ, dispersione. Una definizione più rigorosa di
omoschedasticità richiede l’impiego delle distribuzioni di probabilità condizionate ed è
fornita nel par. XXI-2.4
1-25
Modulo II – Minimi quadrati
[
V ( ~yt ) = E ( ~
yt − E (~ ] ( )
y t )) = E u~t2 = σ 2
2
Retribuzioni lorde
Italia 1970-1996
250000
200000
150000
100000
50000
0
1970.1 1974.1 1978.1 1982.1 1986.1 1990.1 1994.1
Figura 1.2 Le retribuzioni lorde complessive in Italia, dati trimestrali grezzi dal 1970 al
1996 (fonte ISTAT).
1-26
Modulo II – Minimi quadrati
diventano 18
βˆ 2 =
1
(m − y x ) =
1 1 n
∑ (x t − x )yt =
mxx − x 2 m xx − x 2 n t =1
xy
1 n
=
1
∑ ( xt − x )(β1 + β 2 xt + ~ut ) =
mxx − x n t =1
2
(1.6.4)
1 n 1 n
=
1
∑ ( x − x )(β + β x ) +
1
∑ ( x t − x )u~t =
mxx − x n t =1 mxx − x n t=1
2 t 1 2 t 2
1 n
= β2 +
1
∑ ( x t − x )u~t
mxx − x n t=1
2
1 n
βˆ 1 = y − βˆ 2 x = ∑ (β1 + β 2 x t + u~t ) − βˆ 2 x =
n t =1 (1.6.5)
( )
n n
1 1
= β1 + β 2 x − βˆ 2 x + ∑ u~t = β1 + x β 2 − βˆ 2 + ∑ u~t
n t=1 n t=1
1-27
Modulo II – Minimi quadrati
1 n
E (βˆ 1 ) = β1 + xE (β 2 − βˆ 2 ) + ∑ E (u~) = β1 (1.6.7)
n t=1
per cui gli stimatori β̂1 e β̂ 2 sono non distorti. 19
Calcoliamo ora le loro varianze:
2
1 1 n
Var (βˆ 2 ) = E[(βˆ 2 − β 2 ) ] = E 2
∑ ( xt − x ) u~t =
mxx − x n t=1
2
n
(1.6.8)
σ
2
∑ (x t − x)
2
σ2
1
= t =1
=
n (m xx − x )
2 2 2
n mxx − x 2
∑ (x t − x ) = n( m xx − x )
2 2
t =1
Inoltre
1 n ~
2
σ2 x2 σ2 σ2 x2
= + = 1 + 2
n mxx − x 2 n n mxx − x
dove nel quarton passaggio si è utilizzata la non correlazione dei due fattori
(β 2 − β 2 ) e ∑ ut . Infatti la loro covarianza è nulla
ˆ ~
t =1
~ ~
19 Uno stimatore θ del parametro θ è detto non distorto se E (θ) = θ. La non distorsione è
una buona proprietà di uno stimatore se, come avviene di solito, la distribuzione di
~
probabilità di θ è concentrata intorno al suo valor medio. In questo caso le stime,
realizzazioni dello stimatore, hanno alta probabilità di trovarsi vicino al valore θ del
parametro.
1-28
Modulo II – Minimi quadrati
n n 1 1 n n ~
Cov[(β 2 − β2 ), ∑ u t ] = E[( β 2 − β 2 ) ⋅ ∑ u t ] = E
ˆ ~ ˆ ~
∑ ( xt − x )u t ∑ u t =
~
m xx − x n t=1
2
t =1 t =1 t=1
1 1 n ~ n ~ n ~
= E ∑
m xx − x 2 n t =1
xt u t ∑ u t − xE ∑ u t =
t =1 t =1
1 1 2 n 2
= σ ∑ xt − nσ x
mxx − x n t =1
2
dove nel quarto passaggio è stata utilizzata la non correlazione delle u~t per indici
diversi.
X matrice di costanti
~
E (u ) = 0 (1.6.10)
Cov( ~ ~ ~
u ) = E ( u u ′) = σ I n
2
u = [u~1 u~2 ... u~n ]′ e dove la E (u~~
con ~ u ′) indica la matrice di dispersione (o di
covarianza, o di varianze e covarianze) del vettore di residui u ~ , essendo così
formata
E (u~12 ) E (u~1u~2 ) ... E (u~1u~n ) σ 2 0 ... 0
~~
E( u 2u1 ) E( u~22 ) ... E( u~2u~n ) 0 σ2
u ′) =
... 0
E (~
u~ = = σ 2 In (1.6.11)
... ... ... ... ... ... ... ...
~~ ~ ~
E (u n u1 ) E( u nu 2 ) ... E (u~n2 ) 0 0 ... σ 2
1-29
Modulo II – Minimi quadrati
e poiché E ~ ( )
ui u~j = E u~ j ~( )
ui , essa è simmetrica. Questa proprietà di
simmetria vale per qualsiasi matrice di dispersione (si veda la XXI-
2.3.6).
~ ) = X′E( u~ ) = 0. In altre parole, le
Le prime due ipotesi implicano che sia E(X′ u
ipotesi deboli implicano che le colonne della matrice X siano ortogonali20 rispetto ai
residui u~ . Si noti che questa condizione equivale di fatto a imporre sui momenti
della popolazione una condizione che abbiamo già visto essere verificata dai
momenti campionari (si veda la (1.4.15)).
In termini stocastici il modello matriciale (1.4.4) è scritto
~y = Xβ + ~
u (1.6.13)
dove ~
y = [~
y1 ~
y2 ... ~y n ]′ , con valor medio vettoriale
E (~
y ) = Xβ (1.6.14)
e matrice di dispersione
Cov( ~
y ) = Cov( ~
y − Xβ) = Cov(u~) = σ 2 I n (1.6.15)
La stima dei minimi quadrati β̂ può ancora essere calcolata mediante la
(1.4.10) ma se è interpretata in termini aleatori, in funzione della (1.6.13), diventa
che indica che lo stimatore dei minimi quadrati è non distorto (o corretto).
20 Ci riferiamo qui alla nozione di ortogonalità in senso stocastico definita dalla XXI-
(2.3.11).
21 I passaggi seguenti sfruttano la proprietà di linearità dell’operatore E discussa nel
paragrafo XXI-2.3 (si veda la XXI-(2.3.13)).
1-30
Modulo II – Minimi quadrati
1-31
Modulo II – Minimi quadrati
n
1
σ =
2
n−k
∑ uˆ 2
t = uˆ ′uˆ /( n − k ) (1.7.2)
t =1
uˆ = y − Xβˆ = y − X ( X ′X ) −1 X ′y = Xβ + u − X ( X ′X ) −1 X ′( X β + u ) =
(1.7.3)
= Xβ + u − Xβ − X( X ′X) −1 X ′u = [I n − X ( X ′X ) −1 X ′]u = Mu
dove si è posto
M = In −X(X′ X)-1X′ (1.7.4)
22In inglese: Standard Error of the Equation (SEE) oppure Standard Error of the
Regression (SER).
1-32
Modulo II – Minimi quadrati
u ) = E[tr (u~′M~
E (uˆ ′uˆ ) = E (u~′M~ u )] = E[tr(M ~
u~u ′)] = σ 2trM =
{ }
= σ 2 tr[ I n − X ( X ′X ) −1 X ′] = σ 2 trI n − tr[ X ( X ′X ) −1 X ′] = (1.7.7)
{ }
= σ 2 n − tr[( X ′X) −1 X ′X] = σ 2 ( n − trI k ) = σ 2 ( n − k )
1-33
Modulo II – Minimi quadrati
n− k 2 k 2
Dist (σˆ ) = σ − E ( σˆ ) = σ − E σ = σ
2 2 2 2
(1.7.8)
n n
che tende a zero per n → ∞ ; lo stimatore varianza campionaria è detto allora
asintoticamente non distorto e non si differenzia molto da quello non distorto (1.7.2)
se n è grande rispetto a k .
Come già accennato, una stima della matrice di dispersione (1.6.18) di β̂ è
ottenuta sostituendo al σ2 una sua stima, ad esempio σ̂ 2 o σ 2 date dalle (1.7.1) e
(1.7.2), dalle quali si nota che le stime delle varianze e delle covarianze dei
parametri di regressione sono, ceteris paribus , tanto meno disperse quanto più
grandi sono i valori n o n-k . Di fondamentale importanza, quindi, per avere stime
precise (con varianze piccole) e poco correlate tra loro (con covarianze piccole) è che
n o la differenza n-k siano sufficientemente grandi.
Questa indicazione, tuttavia, è di carattere statistico. Da un punto di vista
economico, invece, l’ingrandimento di n, cioè dell’ampiezza del campione, può
comportare la violazione del principio di omogeneità della struttura dell’economia
del periodo campionario, necessaria affinché la componente sistematica del modello
(1.6.10) possa rappresentare tale struttura in modo adeguato. Per determinare n (o
n-k ) è allora necessario trovare un compromesso tra un valore abbastanza grande
per avere stime delle varianze e covarianze dei parametri βi precise, ed uno
sufficientemente piccolo in modo tale che la struttura dell’economia non si
modifichi troppo nel periodo campionario.
1-34
Modulo II – Minimi quadrati
1-35
Modulo II – Minimi quadrati
1-36
Modulo II – Minimi quadrati
Corr (βˆ ) = σ −1 D −1Cov(βˆ ) D −1σ −1 = σ −1D −1[σ 2 ( X ′X) −1 ]D −1σ −1 = D −1[( X ′X) −1 ]D −1 (1.9.1)
dove D è la matrice diagonale i cui elementi nonnulli aii sono le radici quadrate
aritmetiche degli elementi diagonali di (X′X)-1.
Esempio 1.9 - Supponiamo che sia, con k =2,
a 2 2
a12
Cov(βˆ ) = σ2 ( X′X) −1 = σ 2 11
2 2
a21 a 22
per cui
a 0
σD = σ 11
0 a 22
(1.9.2)
1 / a 0 a11 a122 / a22 1 a122 / a11a 22
= 11 = 2
1 / a22 a 21
2
0 / a11 a 22 a21 / a11a 22 1
1-37
Modulo II – Minimi quadrati
Cov(βˆ 1 , βˆ 2 ) σ 2 a122
ρ(βˆ 1 , βˆ 2 ) = = = a122 / a11a22 (1.9.3)
[Var (β1 ) ⋅ Var (β 2 )]
ˆ ˆ 1/2
[σ 2 2
a11 ⋅ σ 2 2 1/ 2
a 22 ]
che si ritrova nei due elementi della (1.9.2) fuori della diagonale
principale, uguali poiché la matrice di dispersione è simmetrica. Si noti,
altresì, come la struttura del coefficiente di correlazione (1.9.3) sia
simile a quella della matrice di correlazione (1.9.1), con la matrice delle
varianze e delle covarianze “divisa” per le radici quadrate aritmetiche
delle varianze degli stimatori dei parametri disposte lungo la diagonale
della matrice σD.
Osservazione 1.22 - Generalizzando il caso definito dalla (1.9.3) si
ottiene che il coefficiente di correlazione tra due stimatori β̂ i e β̂ j è dato
dall’elemento a ij della matrice (X′X)-1 diviso per il prodotto aiiajj dei due
2
1-38
Modulo II – Minimi quadrati
dove
yt = importazioni di beni e servizi,
x 1t = consumi finali interni delle famiglie + consumi collettivi,
x 2t = investimenti fissi lordi + esportazioni di beni e servizi + variazioni delle scorte,
x 3t = deflatore implicito delle importazioni,
x 4t = deflatore implicito del prodotto interno lordo
per cui β2>0, β3>0, β4<0, β5>0.
y x1 x2
Figura 1.3 – La funzione delle importazioni in Italia, dati trimestrali grezzi a prezzi 1980
sul campione 1970:1-1989:4; y sono le importazioni di beni e servizi (scala di sinistra), x1 è la
somma dei consumi finali interni delle famiglie e collettivi (scala di destra) e x2 è la somma
di investimenti fissi lordi, esportazioni di beni e servizi e variazioni delle scorte (scala di
destra); si veda la (1.10.1).
1-39
Modulo II – Minimi quadrati
10.4
10.2
10
9.8
9.6
9.4
1970.1 1973.1 1976.1 1979.1 1982.1 1985.1 1988.1
y stime
Figura 1.4 – I valori storici delle importazioni e quelli stimati con l’equazione (1.10.2).
Per stimare la (1.10.1) utilizziamo dati trimestrali nel periodo campionario che
va dal primo trimestre del 1970 al quarto del 1989 (1970:1 – 1989:4), grezzi (cioè
non depurati delle stagionalità), a prezzi 1980 e di fonte ISTAT (1989).
Le serie yt , x 1t e x 2t sono rappresentate nella figura 1.3.24 Si vede facilmente
come la serie x 1t dei consumi abbia un andamento più livellato di quelle delle altre
componenti del prodotto. È questo un fatto stilizzato che abbiamo già incontrato nel
capitolo I-2 (si vedano ad esempio le figure I-2.1 e I-2.4 e i relativi commenti) e che
24Le serie storiche impiegate in questo esempio possono essere scaricate dalla home page
della Traccia nel sito Internet http://econometria.net.
1-40
Modulo II – Minimi quadrati
ha motivato diverse teorie economiche, fra le quali l’ipotesi del reddito relativo di
Duesenberry (esposta nel paragrafo I-2.2) e la teoria del ciclo di vita di Ando-
Modigliani (nota dai testi di macroeconomia). Nel presente contesto ciò comporta
che i consumi da soli possono spiegare in parte la tendenza della variabile
dipendente, ma non le sue oscillazioni cicliche, per tener conto delle quali diventa
determinante il contributo della serie x 2t.25
L’equazione stimata è:
lnyt = −6.023 + 0.572 lnx 1t + 0.900 lnx 2t − 0.164 lnx 3t + 0.104 lnx 4t + û t
(1.10.2)
R = 0.984, R = 0.983 , RSS = 0.0633, SEE = 0.029
2 2
c
dove û t è la serie storica dei residui stimati, definiti dalla (1.4.2) come differenza
fra la serie dei valori storici e di quelli stimati della variabile dipendente (si veda la
figura 1.4) e rappresentati nella figura 1.5; RSS è la devianza (minima) dei residui
stimati, cioè la S( β̂ ) = uˆ ′uˆ ; SEE è l’errore standard dell’equazione, cioè la radice
quadrata della (1.7.2), determinato con un numero di gradi di libertà pari a
n−k = 75.
0.1
0.08
0.06
0.04
0.02
0
-0.02
-0.04
-0.06
-0.08
1970.1 1973.1 1976.1 1979.1 1982.1 1985.1 1988.1
u^
La figura 1.4 mostra che l’accostamento fra valori storici e stimati è buono. Di
conseguenza i due coefficienti di determinazione, calcolati mediante le variabili
scarto (cioè centrati e quindi non influenzati dal termine noto), posseggono valori
1-41
Modulo II – Minimi quadrati
alti. Questo risultato va però considerato con cautela perché potrebbe dipendere
dalla presenza di tendenza nelle variabili dell’equazione.
Un buon accostamento fra valori storici e stimati significa residui “piccoli”. Il
grafico dei residui 1.4 mette però in luce che i residui, pur essendo relativamente
piccoli, potrebbero non rispettare le ipotesi stocastiche deboli (1.6.10). Si vede
infatti distintamente che fino a tutto il 1977 i residui presentano una variabilità
maggiore rispetto a quella mostrata nel periodo successivo (dal 1978 al 1989). Si
noti che il grafico 1.4 rappresenta i residui stimati mentre le ipotesi stocastiche si
riferiscono ai residui teorici. Tuttavia, nella misura in cui i residui stimati possono
essere interpretati come una buona approssimazione di quelli teorici, la figura 1.5
suggerisce che nella (1.10.2) viene a cadere l’ipotesi di omoschedasticità implicita
nella terza delle (1.6.10). Un’analisi più accurata mostra che in certi periodi i
residui tendono a seguire un ciclo stagionale (cioè di periodo quattro). Questo fatto
contrasta con l’ipotesi di non autocorrelazione (anch’essa implicata dalla terza delle
(1.6.10)), dato che in presenza di simili cicli ogni valore dei residui stimati è
positivamente correlato con quelli precedenti e seguenti a distanza di multipli
interi di quattro trimestri.26
L’inversa della matrice dei momenti è data dalla
1126.194
− 89.272 8.727
( X′X) −1 = − 11.938 − 0.786 1.945 (1.10.3)
− 3.425 0.189 0.129 0.442
27.674 − 2.151 − 0.344 − 0.525 1.151
nella quale sono omessi gli elementi simmetrici, e dalla quale è semplice
determinare la matrice di correlazione degli stimatori dei parametri di regressione
definita dalla (1.9.1): la matrice diagonale D è data da
D = < 33.559 2.954. 1.395 0.665 1.073 >
per cui la matrice di correlazione è
26 Ribadiamo che il grafico 1.4 rappresenta i residui stimati, non quelli teorici (non
osservabili). Le condizioni che giustificano l’uso dei residui stimati per analizzare le
proprietà dei residui teorici verranno descritte in modo più puntuale nei capitoli successivi.
1-42
Modulo II – Minimi quadrati
1
− 0.900 1
Corr (βˆ ) = − 0.255 − 0.191 1 (1.10.4)
− 0.153 0.096 0.139 1
0.769 − 0.679 − 0.230 − 0.736 1
nella quale si nota come i coefficienti di correlazione più alti in valore assoluto
riguardino la coppia ( β̂ 1, β̂ 2), con correlazione –0.9, e quelle formate dal
parametro β̂ 5 con β̂ 1, β̂ 4, e β̂ 2, pari rispettivamente a 0.77, -0.74 e –0.68; gli altri
valori della matrice sono bassi.
1-43
Modulo II – Minimi quadrati
f ( λl, λk ) = γλα+β l α k β
che comporta la condizione di omogeneità di grado uno se α+β = 1.
28 Infatti in questo caso, ricordando quanto riportato nella nota precedente,
f ( x 1, x 2, λx 3, λx 4 ) = (β4+β5) lnλ + f ( x 1, x 2, x 3, x4 )
1-44
Modulo II – Minimi quadrati
che possiede due variabili esplicative soltanto, la z1 = (x 1x 2) e la z2 =(x 3/x 4), che
rappresenta il prezzo relativo delle importazioni, calcolato come rapporto tra il
deflatore implicito delle importazioni di beni e servizi ed il deflatore implicito del
PIL.
b1 r1
r11 r12 ... r1k b2 r2
r r22 ... r2 k ... ...
21 = (1.11.8)
... ... ... ... ... ...
rq1 rq2 ... rqk ... ...
bk rq
1-45
Modulo II – Minimi quadrati
ln γ
[0 1 1] α = 1 (1.11.10)
β
con R matrice formata dal solo vettore riga [0 1 1] ed r vettore costituito dal solo
scalare 1. Anche il vincolo (1.11.3) per il modello (1.10.1) rappresenta una sola delle
equazioni (1.11.8), che è
β1
β
2 (1.11.11)
[0 1 − 1 0 0 ] β3 = 0
β 4
β5
con R matrice formata dal solo vettore riga [0 1 −1 0 0] ed r vettore costituito dal
solo scalare 0.
Se le due condizioni (1.11.3) e (1.11.4) sono imposte simultaneamente sulla
(1.10.1), il sistema (1.11.8) diventa
β1
β
0 1 − 1 0 0 0
2
(1.11.12)
0 0 0 1 1 β3 = 0
β
4
β5
1-46
Modulo II – Minimi quadrati
1-47
Modulo II – Minimi quadrati
in virtù della non distorsione di β̂ e della sussistenza del vincolo (1.11.9). Inoltre la
~
matrice di dispersione di β 0 è, per la (1.11.19),
~ ~ ~
Cov( β0 ) = E[( β0 − β)( β 0 − β) ′] =
{
= E [ I k − ( X′X) −1 R′U −1R]( X′X) −1 X′~
u~ }
u ′X( X′X) −1[ I k − R′U −1R ( X′X) −1 ] = (1.11.20)
= σ 2 [ I k − ( X′X) −1 R ′U −1R]( X′X) −1[I k − R ′U −1R( X′X) −1 ] =
= σ 2 [( X′X) −1 − ( X′X) −1 R ′U −1R( X′X) −1 ] = σ 2 [ I k − ( X′X) −1 R ′U −1R]( X′X) −1
Le stime dei minimi quadrati vincolati per una funzione delle importazioni
Stimiamo con il criterio dei minimi quadrati l’equazione delle importazioni (1.10.1)
sotto il vincolo (1.11.3) delle elasticità uguali. Volendo utilizzare la stima (1.11.18)
si osserva che la matrice R vale
R = [0 1 −1 0 0]
come anche indicato nella (1.11.11) per cui
− 6.023
0.572
Rβˆ = [0 1 − 1 0 0] 0.900 = −0.328
− 0.164
0.104
dove β̂ è la stima dei minimi quadrati ordinari riportata nella (1.10.2). Inoltre,
facendo uso della matrice (1.10.3) si ha
[R(X′X)-1R′]-1 = U-1 = 0.0817 (1.11.21)
per cui
R ′U −1 ( r − R βˆ ) = [ 0 0.0268 − 0.0268 0 0]′
essendo r = 0. Infine, si calcola, in virtù della (1.11.18),
− 6.023 0.0000 − 8.095
0.572 0.0268 0.827
β 0 = 0.900 + ( X′X) −1 − 0.0268 = 0.827
− 0.164 0.0000 − 0.162
0.104 0.0000 0.056
che si può ritrovare stimando la (1.10.1) con il vincolo inserito e con i minimi
quadrati ordinari
1-48
Modulo II – Minimi quadrati
per cui
637.76
− 29.19 1.34
[ I 5 − ( X′X) −1 R ′U −1R ]( X′X) −1 = − 29.19 1.34 1.34
− 3.05 0.14 0.14 0.44
16.26 − 0.75 − 0.75 − 0.52 0.88
1-49
Modulo II – Minimi quadrati
ρ 21 = ρ 31, ρ 32 = 1, ρ 42 = ρ 43, ρ 52 = ρ 53
R ′U −1 ( r − R βˆ ) = [ 0 0 0 0.1105 0.1105]′
Infine si calcola
− 6.023 0.0000 − 3.344
0.572 0.0000 0.355
β 0 = 0.900 + ( X′X) −1 0.0000 = 0.876
− 0.164 0.1105 − 0.173
0.104 0.1105 0.173
che può essere ritrovata stimando la (1.10.1) con il vincolo inserito e con i minimi
quadrati ordinari
lnyt = −3.344 + 0.355 lnx 1t + 0.876 lnx 2t − 0.173( lnx 3t − lnx 4t ) + û t
(1.11.23)
R = 0.982, R = 0.982 , RSS = 0.0699, SEE = 0.030
2 2
c
1-50
Modulo II – Minimi quadrati
due deflatori (1.11.4). L’inversa della matrice dei momenti è la stessa (1.10.3),
mentre la matrice R dei due vincoli, data dalla (1.11.12), vale
0 1 − 1 0 0
R=
0 0 0 1 1
per cui
− 6.023
0.572
0 1 − 1 0 0 − 0.328
Rβ̂ = 0.900 = − 0.060
0 0 0 1 1 − 0.164
0.104
−1
12.244 − 1.747 0.1510 0.4857
[ R( X′X) −1 R ′] −1 = =
− 1.747 0.543
0.4857 3.4044
R ′U −1 ( r − R βˆ ) = [ 0 0.079 − 0.079 0.363 0.363]′
Infine si calcola
− 6.023 0.0000 − 3.292
0.572 0.0787 0.607
β 0 = 0.900 + ( X′X) −1 − 0.0787 = 0.607
− 0.164 0.3636 − 0.189
0.104 0.3636 0.189
i cui elementi possono essere ritrovati stimando la (1.11.7) con il doppio vincolo
inserito e con i minimi quadrati ordinari
lnyt = −3.292 + 0.607( lnx 1t ⋅ lnx 2t ) − 0.190( lnx 3t ⁄ lnx 4t ) + û t
(1.11.24)
R2 = 0.972, Rc2 = 0.972 , RSS = 0.1109, SEE = 0.037
dove si nota che la devianza dei residui è ben più alta di quella calcolata nel
modello senza vincoli: è del 75.2% maggiore.
Per determinare la matrice di correlazione degli stimatori dei parametri
vincolati facciamo ancora una volta uso della (1.11.20), per calcolare la quale
notiamo che
12.244 − 1.748
U = R( X ′X) −1 R′ =
− 1.748 0.548
1-51
Modulo II – Minimi quadrati
0.151 0.485
U −1 =
0.485 3.399
1 − 0.093 0.093 − 44.898 − 44.898
0 0.516 0.484 2.054 2.054
I 5 − ( X′X) R′U R = 0
−1 −1
0.516 0.484 2.054 2.054
0 0.031 0.031 1.252 0.252
0 0.031 − 0.031 1.252 0.252
44.629
− 2.044 0.094
[ I 5 − ( X′X) −1 R ′U −1R ]( X′X) −1 = − 2.044 0.094 0.094
0.276 − 0.009 − 0.009 0.423
− 0.276 0.009 0.009 − 0.423 0.423
1-52
Modulo II – Minimi quadrati
1-53