Skip to content

Regresja logistyczna

Jak w przypadku regresji liniowej jedno czy wielozmiennowej, tak w tym przypadku będziemy próbowali ocenić możliwości predykcji zmiennej zależnej. Tak samo naszym zadaniem będzie ocena dopasowania modelu do danych jak i procenta wyjaśnianej przez niego wariancji zmiennej zależnej oraz związków między predyktorem (predyktorami) a zmienną zależną. Jedyną różnica to, że regresja logistyczna wykorzystywana jest w sytuacji kiedy mamy do czynienia z dychotomicznym charakter zmiennej zależnej.

Zastosowanie i przygotowanie

Dość często w badaniach społecznych pomiar najważniejszej zmiennej ma charakter pomiaru dychotomicznego: zmienna zależna przyjmuje dwie wartości (zgoda lub brak zgody, pali papierosy lub nie pali papierosów, tak lub nie).  Może być to naturalnie dwuwartościowa zmienna lub może być także poddana dychotomizacji z wyników ilościowych np. na wyniki niskie i wysokie lub na wyniki w normie i  świadczące o stanie chorobowym. Warto w odpowiedni sposób kodować do analiz zmienną zależną. Wyższa wartość będzie zawsze w modelu przewidywaną. Więc jeżeli chcemy przewidywać palenie papierosów to zakodujemy jej wartość 1,00 a odpowiedziom nie pali – wartość 0,00. Podjęcie decyzji – 1,00 brak decyzji 0,00. Wyniki wysokie – 1,00, wyniki niskie – 0,00. Wiele zależy od tego jakie zdarzenie chcemy przewidywać i temu właśnie warto przypisać wyższą wartość. Jeżeli się tak nie stanie model będzie przewidywał zupełnie odwrotne zdarzenie. Predyktory w modelu regresji logistycznej mogą być zarówno jakościowe jak i ilościowe.

Interpretacja wyników

Ten model analiz jest praktycznie zwolniony ze standardowych założeń jak normalności rozkładu. By mieć zaufanie do wyników liczba obserwacji nie powinna być zbyt mała. Pierwszym w ocenie wyników pozostaje dopasowanie modelu do danych, do czego w tej analizie wykorzystuje się test dobroci dopasowania Hosmera-Lemeshowa (H-L). Oczekujemy wyniku nieistotnego.

Otrzymany wynik dla istotność H-L

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Różnica między liczebnością otrzymaną a oczekiwaną jest istotna. Model jest słabo dopasowany do danych.

p > 0,05

Wynik nieistotny

Różnica między liczebnością otrzymaną a oczekiwaną nie jest istotna. Model jest dobrze dopasowany do danych.

Wynik H-L jest pierwszym ważnym w ocenie analizy elementem. Istotny wynik sugeruje nam, że model jest słabo dopasowany a co za tym idzie nie da nam praktycznych wniosków i możliwości dobrego przewidywania zmiennej zależnej. W ocenie samego modelu można wykorzystać także wartość współczynnika wiarygodności. Mówi on jak wiele wariancji zmiennej zależnej pozostaje niewyjaśnione po dopasowaniu modelu. Im wyższy jest tym więcej niedopasowania modelu pozostaje zatem poszukiwać trzeba niższej wartości. Szczególnie warto zwracać uwagę na współczynnik wiarygodności kiedy porównujemy różne modele między sobą.

Dalej ocenić trzeba wartość wyjaśnianej wariancji przez model. Zamiast R2 lub poprawionego-R2 dla regresji logistycznej poszukujemy wartości R-Nagelkerkego R2N (inaczej pseudo-R2). Interpretacja tego wyniku jest taka sama jak zwykłego R2. Uzyskana wartość stanowi % wyjaśnianej przez model zmienności zamiennej zależnej. Przykład R2N = 0,29 stanowi, że model wyjaśnia 29% wariancji zmiennej zależnej.

Mając dopasowanie modelu, wyjaśnianą przez niego zmienność sięgnąć można po związki predyktorów z wystąpieniem zdarzenia kryterialnego (zmienną zależną). Do tego posłużyć może wartość Exp(β) – równoznaczność funkcji wykładniczej – inaczej, ilorazowi szans dla predyktora. Analiza dla każdego predyktora powinna skupić się na wyniku Exp(β), Współczynnika Wald oraz poziomu istotności. Ten ostatni wskazuje, na to czy predyktor ma istotne znaczenie w modelu dla przewidywania wystąpienia zdarzenia kryterialnego i dotyczy wartość Wald. Współczynnik ten jest wykorzystywany do oceny hipotezy zerowej. Po weryfikacji wartości Wald i poziomu istotności warto popatrzeć także na sam wynik Exp(β). Im wyższy wynik tym większa szansa na wystąpienie zdarzenia kryterialnego (wartości 1,00 dla zmiennej zależnej) przy jednostkowym wzroście zmiennej niezależnej. Kiedy mamy predyktor jakościowy, jednostkowy wzrost oznacza zmianę grupy (dlatego kodowanie musi być przemyślane).

Przykład. Zmienna zależna – podjęcie ryzykownej decyzji (1-podjął, 0-nie podjął); zamienna niezależna – płeć (1-mężczyzna; 0-kobieta). W modelu Exp(β) dla płci przewidując podjęcie decyzji osiągnął wynik 2,35. Oznacza to, że mężczyźni mają większą szansę na podjęcie ryzykownej decyzji niż kobiety. Zmiana płci o 1 jednostkę (z zero na jeden) oznacza wzrost szans na decyzję o 135%.

Dla predyktorów ilościowych także Exp(β) mówi o jednostkowej zamianie. Co oznacza, że musimy pilnować jednostki pomiaru. Jeżeli zmienną niezależną będzie wynik surowy testu osobowości to zmiana jednostkowa oznaczać będzie 1pkt uzyskany w teście. Jednak jeżeli zamienimy wynik np. na steny, to jednostkowa zmiana oznaczać będzie 1 sten (a to nie to samo co 1 punkt surowy testu). Zmiana o 1 sten jest znacznie większą zmianą niż 1 punkt surowy testu. Trzeba o tym pamiętać przy interpretacji wyników.

Przykład. Zmienna zależna – podjęcie ryzykownej decyzji (1-podjął, 0-nie podjął); zamienna niezależna – impulsywność (zmienna ilościowa). W modelu Exp(β) impulsywność, przewidując podjęcie decyzji, osiągnęła wynik 2,35. Oznacza to, że wzrost impulsywności o 1 pkt na mierzonej skali zwiększą szansę na podjęcie ryzykownej decyzji o 135%.

Dla skal ilościowych, szczególnie kiedy skale pomiaru są różne, warto pracować na wynikach przeliczonych, standaryzowanych lub na  wartościach odchylenia standardowego. W modelach wielozmiennowych kiedy nie mamy takiej samej skali pomiaru w regresji logistycznej wyniki można zapisać w postaci wartości odchylenia wyniku od średniej (statystyka z). Interpretacja będzie łatwiejsza, ponieważ jednostkowy wzrost oznaczał będzie zamianę o jedno odchylenie a nie o 1 pkt testowy.

Przy analizie Exp(β) pamiętać trzeba, że regresja logistyczna nie jest tożsama z liniową zmianą. Jeśli Exp(β) = 1,67 to zmiana o 1pkt pomiaru to wzrost o 67% wystąpienia zdarzenia kryterialnego, jednak wzrost o 2 pkt to NIE będzie 134% (2×67%), a wzrost o 10pkt to nie 670% (10×67%). Funkcja nie jest liniowa, więc by obliczyć Exp(β) dla więcej niż jednopunktowej zmiany trzeba wykorzystać wzór1:

gdzie: x – wartość zmiany ilościowej zmiennej niezależnej dla jakiej chcemy obliczyć wynik zamiennej zależnej, e – wartość podstawy logarytmu naturalnego, B – wartość B odczytana z modelu dla danej zmiennej niezależnej. W naszym przykładzie okazać by się mogło, że zmiana o 2ptk to Exp(β) = 2 a dla 10pkt Exp(β) = 32, co oznacza, że wzrost o 2 pkt to wzrost o 100% a dla zmiany 10pkt to wzrost o aż 3100% na wystąpienie zdarzenia kryterialnego. Ale co w sytuacji kiedy iloraz szans jest na minusie? Oznacza to po prostu spadek szans na wystąpienie. Wzrost dla zmiennej niezależna zmniejsza szanse na wystąpienie zdarzenia.

Oprócz samej wartości Exp(β) warto zobaczyć jego przedziały ufności. Jeżeli zarówno dolny jak i górny przedział znajdują się powyżej 1,00 mamy znacznie większą pewności o kierunku oddziaływania między zmiennymi.

Praktyczne wykorzystanie analizy regresji logistycznej można zobaczyć tutaj. Analiza modeli interakcyjnych dla wielozmiennowej analizy przekracza poniższe rozważania. Więcej o regresji logistycznej, szczególnie w poszukiwaniu interakcji winna zainteresować pozycja wskazana niżej.

 

1 Danieluk, B. (2010). Zastosowanie regresji logistycznej w badaniach eksperymentalnych. Psychologia Społeczna 5 (14), 199-216.

Masz pytania? Zadzwoń lub napisz!

Może zainteresuje Cię także:

Arkadiusz Prajzner

Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.