Professional Documents
Culture Documents
Lanalisi bivariata vede se esistono legami tra due o pi fenomeni sulla stessa
popolazione.
DISTRIBUZIONE DI FREQUENZA
Quindi date due o pi modalit sulla stessa popolazione si costruir una tabella a
doppia entrata o tabella di contingenze dove si andr a vedere quante volte una
particolare coppia di valori si presenta nel campione . queste coppie si chiamano
distribuzione di frequenza e vengono indicate con nij.
n11 : frequenza congiunta nij
n.j : frequenze marginale di colonna
ni. : frequenze marginali di riga
n.j =
Mentre le distribuzioni marginali prevedono il rapporto tra le frequenze marginali di
riga e il numero totale delle osservazioni.
INDIPENDENZA STATISTICA
Se tutte le distribuzioni condizionate sono uguali per riga e conseguentemente per
colonna allora il presentarsi di una particolare modalit di un fenomeno, non
influenzata dal presentarsi dellaltro.se tutte le distr.cond di X sono uguali, allora sono
necessariamente uguali alle distribuzioni marginali di X. Viceversa questo vale anche
per Y.
Quindi
cone
Se questa relazione vera allora anche
Otteniamo quindi che la frequenza di indipendenza attesa nij* =
Se c indipendenza allora le frequenze interne della tabella dipendono dalle
marginali e soddisfano questa operazione di indipendenza .
Se in una tabella di distribuzione vi proporzionalit tra le varie frequenze congiunte
allora vi indipendenza statistica se invece compare anche un solo 0 non vi
indipendenza .
In una tabella di dati osservati le frequenze dipendono da una forma di attrazione o
di repulsione dalle modalit.
Quando non vi indipendenza allora bisogna costruire una tabella delle contingenze
in cui date due modalit come frequenze andremo ad inserire la frequenza di
indipendenza meno il valore osservato rispettando il segno del valore rispettato
nij* -nj = +/- contingenza
in questo modo andremo a scoprire quanto pi una frequenza attratta da una
modalit o meno .
- Se la somma delle contingenze 0 abbiamo attrazione verso una data
modalit
- Se la somma delle contingenze 0 abbiamo repulsione verso una data
modalit
- Se la somma delle contingenze pari a 0 allora vi indipendenza e quindi n
repulsione ne attrazione.
CONNESSIONE
Quando tra due fenomeni non vi dipendenza c connessione ovvero la presenza di
un legame che lega due fenomeni senza per spiegare la natura del legame che pu
essere di causa effetto, oppure possono essere legati tra loro da una terzo carattere
che non appare direttamente.
Ponendo a confronto nij* e ni pi grande la distanza tra questi valori minore il
legame tra le osservazioni .
Calc. Rapido
- 1
aumenta
Numero di colonne h e righe k
Per questo difficile stabile la forza del legame ed anche difficile confrontare
direttamente con le modalit , bisogna allora introdurre lindice normalizzato .
0 quando il num 0 e quindi non c connessione
1 quando il num 1 e quindi c massima connessione ovvero
quando ad una modalit ne
Ne corrisponde unaltra e solo unaltra
MASSIMA CONNESSIONE
- K=h tabella quadrata ad ogni mod y corrisponde 1 sola modalit x e
viceversa
y1 y2 y3
x1 10 0 0 10
x2 0 0 3 3
x3 0 20 0 20
10 20 3 33
- K h tabella rettangolare quando ad ogni y corrisponde 1 e 1 sola x ma non
viceversa
A y1 corrisponde 1 e una sola x x1
A x2 corrisponde y2 e y3
In questi casi
Quando almeno un fenomeno quantitativo e non c indipendenza
statistica possiamo calcolare lindipendenza in media o indice
.
y1 y2 y3
x1 10 0 0 10
x2 0 20 10 30
10 20 10 40
Quindi se le medie condizionate di y al variare x sono uguali tra loro e uguali
alla media di y abbiamo lindipendenza in media
Y1med = y2med = yimed = ykmed = ymed ymed|x
Indipendenza statistica : vi proporzionalit tra le
freq condizionate
Simmetria
Ym= 1 yf=1 ytot =1 indipendenz in media
Se c indipendenza statistica c anche indipendenza in media, ma non
necessario il contrario
Non c ind. Statistica : manca proprorzionalit
Ym= 1 yf=1ytot=1 indipendenza in media
Se non ce indipendenza in media c dipendenza in media e le medie
condizionate sono differenti quindi per calcolare quanto la dipendenza delle
medie viene usata la formula della var. between
misura assoluta della dipendenza in media essendo la varianza delle medie di
gruppo :
* ni normalizzato
^2
b max = var. totale
= 0 quando il numeratore 0 e la varianza between = indipendenza in
media
0 1 il numeratore minore di 0 o uguale al denominatore
= 1 la varianza between uguale alla varianza totale quindi non c
varianza tra i gruppi e ogni val x corrisponde ad un solo valore y e
quindi c dipendenza perfetta
{ {
.
. IN MEDIA E CONNESSIONE
Se = 0 allora = 0
Ind. Stat. legata allind. In media e connessione
es 0 1 2
m 10 20 10 40
f 20 40 20 80
30 60 30
es 0 1 2
m 10 20 10 40
f 40 20 40 100
50 40 50 140
Se 0 non c ind. Stistica ma pu esserci dipendenza in media , su per
non si pu dire nulla
Se = 1 si ha la massima dipendenza delle medie e = 1 abbiamo la
massima dipendenza statistica e quindi ad ogni x corrisponde una sola y.
La connessione si valuta tra frequenze e pu essere analizzata su qualsiasi
fenomeno
La dipendenza in media prevede che almeno un fenomeno deve essere
quantitativo in quanto lavora sulle medie.
COVARIANZA COV.
Per il calcolo della covarianza occorre lavorare su fenomeni
esclusivamente quantitativi e potremo verificare cosa accade
allaumentare di x a y e quindi bisogner{ prendere in considerazione non
pi la singola osservazione, ma la coppia di osservazioni xi,yi.
COV. (X,Y) =
Altra form. COV. (X,Y)
y + + II +-
I (xmed , ymed)
III -,- IV -+
X
Diagramma di dispersione
Ogni punto corrisponde ad una coppia di osservazioni e formano una nuvola di punti.
(xmed, ymed) punto medio che divide la popolazioni in quattro gruppi di cui
conosciamo le caratteristiche :
I contribuiscono con scarto ++ +
II contribuiscono con scaro +- -
III contribuiscono con scarto +
IV contribuiscono con scarto -+ -
Cov xy
Codevianza formata dagli scarti presi con segno di x e y
Cov. positiva quando prevalgono scarti di I e III quadrante si ha un legame diretto tra
le due modalit al crescere di cresce anche y al diminuire di x diminuisce anche y.
Cov. Negativa quando prevalgono scarti del II e IV quadrante non si ha un legame
diretto tra le modalit e quindi al crescere di x possiamo avere il diminuire di y e
viceversa .
COEFFICIENTE DI CORRELAZIONE
Con lindice relativo non si perde il segno
Cov xy
- varx * vary+ covxy + covx * covy
-
+
Dove
Bisogna quindi trovare i valori a e b che andranno a formare lequazione della
retta che rende minimi i quadrati :
= ( +)
b =
=
la varianza sempre positiva quindi la covarianza dar il segno al coefficiente
angolare :
b se cov xy
b se cov xy
b =0 se cov (xy) = 0 retta piatta e nessun andamento di y in funzione di x
a = ymed bxmed ymed -
la retta avr formula :
= ymed -
+
* x
PROPRIETA
-
* xmed+
* x = ymed
SCOMPOSIZIONE DELLA VARIANZA
Dev tot dev residua dev spiegata
DR : errore che il modello non spiega; se coincidessero tutti i punti quindi DS fosse
la retta sarebbe perfetta se invece ds fosse maggiore sarebbe la distanza e
tanto meno il modello spiegherebbe i dati
DS : indica la bont del modello
La retta dei minimi quadrati ci dice che la migliore possibile , ma perci non vuol
dire che passi vicino ai punti di osservazione dobbiamo quindi valutare la bont di
adattamento della retta ai dati tramite la devianza spiegata , la quale un numero
assoluto da normalizzare in modo da poter fare valutazioni , portando la devianza
spiegata al suo valore massimo avremo la devianza totale quando per la
devianza residua uguale a 0.
= 1 se
RELAZIONI UTILI
DS =
* DT
Es. Se
* DT
DR = ( 1-
) * DT .
Spesso la variabile indipendente potrebbe essere il tempo si va cos a creare una
serie temporale, in questo caso bisogna spostare lorigine degli assi verso quello
che la serie temporale considera lanno