You are on page 1of 2

Szymon Czarnik, Wprowadzenie do wielowymiarowej analizy danych.

WIARYGODNOŚĆ W REGRESJI LOGISTYCZNEJ

Zmienne: X – liczba dzieci (0, 1, 2 lub 3), Liczba przypadków: 20.

Y – posiadanie samochodu (0 – nie posiada, 1 – posiada).

Cel analizy: prognozowanie posiadania samochodu na podstawie liczby dzieci.

Przyjmijmy notację, według której ̂  = 1| =


oznacza warunkowe prawdopodobieństwo, że zmienna Y uzyska wartość 1 pod warunkiem, że zmienna X przyjmie
wartość x . Innymi słowy, jest to prognozowane prawdopodobieństwo posiadania samochodu  = 1
przez osobę mającą x dzieci  =
.

W postaci logitowej funkcja prognostyczna ma postać:

logit̂  = 1| =
 =  + 

Po odpowiednim przekształceniu uzyskujemy prognozowane prawdopodobieństwo, że osoba mająca x dzieci posiada samochód:

   
̂  = 1| =
=
1 +    

Parametry b0 oraz b1 w równaniu regresji logistycznej wyznaczane są metodą największej wiarygodności. Procedura jest następująca:

1. Wypróbujmy różne kombinacje wartości parametrów b0 oraz b1 i przy każdej kombinacji zobaczmy, jakie jest szacowane prawdopodobieństwo uzyskania
określonych wartości zmiennej Y (czyli 0 albo 1) w podgrupach wyróżnionych ze względu na zmienną X.
2. Sprawdźmy następnie, jak prawdopodobne byłoby uzyskanie takich danych, jakie w rzeczywistości mamy w próbie, jeśli w populacji prawdopodobieństwa uzyskania
wartości 0 i 1 w podgrupach byłyby właśnie takie, jak te wyliczone z równania regresji przy danej kombinacji b0 oraz b1.
3. Do prognozy wybierzmy te wartości b0 oraz b1, przy których uzyskanie zaobserwowanych danych jest najbardziej prawdopodobne.

Na następnej stronie przedstawione są:

 dane empiryczne dotyczące liczby dzieci i posiadania samochodu (kolumny X i Y);


 rzeczywiste (w próbie) warunkowe prawdopodobieństwa posiadania samochodu w podgrupach osób posiadających określoną liczbę dzieci, p0(Y=1|X);
 prawdopodobieństwo wylosowania z danej podgrupy populacji osoby posiadającej bądź nie posiadającej samochód, p0(y|x), przy założeniu, że
prawdopodobieństwa warunkowe w populacji są takie, jak te wyliczone w próbie;
 prawdopodobieństwa szacowane na podstawie 5 modeli o różnych parametrach
(model nr 2 to model zerowy, z samą stałą, model nr 5 to model największej wiarygodności, z parametrami oszacowanymi przez SPSS).
Model ze stałą 0 i współczynnikiem regresji 0 dla każdego Przy b0=-1 i b1=2 szacowane prawdop. posiadania auta Wartości parametrów
W grupie 5 osób nie mających Osoba 1 nie ma auta. -1+2∙1 -1+2∙1
przypadku prognozuje 50% prawdop. posiadania auta. w grupie z 1 dzieckiem to e /(1+ e )≈0,73 … wyliczone przez SPSS
dzieci (X=0) nikt nie posiada Takie osoby trafiają się
auta, zatem prawdopodobień- w tej podgrupie
stwo trafienia w tej grupie na z prawdopodobień-
osobę z autem (Y=1) wynosi 0. stwem 100%.
Model zerowy: stała równa logitowi w całej próbie. … a zatem prawdopodobieństwo nie-posiadania auta (przypadek osoby 6) wynosi 1-0,73=0,27

W grupie 5
osób
mających 2
dzieci (X=2)
3 osoby
posiadają
auto (Y=1),
zatem
prawdopo-
dobieństwo
trafienia w tej
grupie na
osobę z
autem wynosi
3/5=0,60.

Osoba 13 ma
auto (Y=1).
Prawdopo-
dobieństwo
trafienia na
taką osobę
w podgrupie
osób
mających
2 dzieci
wynosi 0,60
(patrz wyżej).

Osoba 12 nie
ma auta
(Y=0).
Prawdopodo
bieństwo
trafienia na
taką osobę Gdyby prawdop. posiadania auta wynosiło 50% Im mniejsza wiarygodność, Gdyby w populacji prawdopodobieństwa warunkowe były takie, jak wyliczone przez model
w podgrupie niezależnie od liczby posiadanych dzieci, takie dane tym bardziej ujemne log(L), o parametrach b0=-4,379 i b1=2,57, wówczas mielibyśmy prawdop. 0,00194155 wylosowania
osób jak nasze uzyskalibyśmy z prawdop. 0,00000095 tym większe -2log(L). takiej próby jak nasza. Według wyliczeń SPSS jest to model o największej wiarygodności.
mających
2 dzieci Wiarygodność L to prawdopodobieństwo wylosowania takiej próby jak nasza z populacji cechującej się określonymi prawdopodobieństwami warunkowymi w podgrupach. W tym przypadku:
wynosi 0,40 L = (1 x 1 x 1 x 1 x 1) x (0,8 x 0,8 x 0,8 x 0,8 x 0,2) x (0,4 x 0,4 x 0,6 x 0,6 x 0,6) x (1 x 1 x 1 x 1 x 1) ≈ 0,00283116. Ponieważ prawdopodobieństwa warunkowe były tu wyliczone bezpośrednio
(=1-0,60) z danych empirycznych (a nie szacowane na podstawie regresji), ta wartość L stanowi górną granicę wiarygodności jakiegokolwiek modelu.

You might also like