Skip to content

Analiza regresji

Idealny przykład dla wszystkich, którzy idąc na psychologię twierdzili, że matematyka im się nie przyda. Znana z matury podstawowej funkcja liniowa stanowi trzon analizy regresji. Linia regresji jest budowana wprost w oparciu o funkcje liniową. Dopasowanie tej linii do danych tworzone jest metodą najmniejszych kwadratów (różnic między wartością otrzymaną a oczekiwaną – czyli linią regresji).

Model regresji wykorzystywany jest w badaniach skupionych na przewidywaniu wyniku. Regresja poza analizą związku pozwala na predykcje. Jest czasami określana rozwinięciem modelu korelacyjnego, lecz wymaga ustalenia jaka zmienna jest zależną. Inaczej mówiąc, która zmienna oddziałuje na którą. Współwystępowanie (w analizie korelacje) nie musi pokazywać zależności przyczynowo skutkowej. Dzięki tej analizie możemy odpowiedzieć na pytanie jak wiele zmienności zmiennej zależnej przewiduje predyktor (zmienna niezależna w modelu predykcji).

Wyróżnić możemy dwa podstawowe modele regresji: jednozmiennowa, dla modelu z tylko 1 predyktorem (1 zmienna niezależna) oraz wielozmiennowej dla więcej niż 1 predyktora.

 

Regresja jednozmiennowa

Analiza ta wykorzystana może być do przewidywanie zmienności zmiennej zależnej przez jeden predyktor. Wymaga on od danych by spełniły pewne założenia, by w pełni zaufać jej wynikom.

Założenia

Przed przystąpieniem do analizy musimy spełnić szereg założeń. Część z nich to nic innego jak powtórzenie wymagań stawianych przed danymi dla korelacji R Pearsona.

Test

Założenie

Sposób testowania założenia

Jednozmiennowa analiza regresji

1. Pomiar ilościowy zmiennej zależnej

2. Związek liniowy między zmiennymi

3. Normalność rozkładu zmiennych ilościowych

Test Shapiro-Wilk lub Kołmogorow-Smirnow

4. Normalność rozkładu reszt modelu

Test Shapiro-Wilk lub Kołmogorow-Smirnow

5. Liczba osób minimum n >50

Bardzo ważna w ocenie jest liniowość związku zmiennej zależnej oraz predyktora. Regresja bazująca na wzorze funkcji liniowej nie będzie dobrze dopasowana do danych, jeżeli związek będzie nieliniowy. Ocenić trzeba także normalność rozkładu zmiennych ale także reszt jakie powstaną po zbudowaniu modelu. Idealną sytuacją jest kiedy wszystkie pomiary spełniają założenie normalności rozkładu. Więcej na temat testowania założeń można przeczytać tutaj. Co jeśli założenia są złamane? Należy poprawić dane, zlogarytmizować, zwiększyć liczbę badanych lub usunąć przypadki odstające. Jeżeli to nic nie pomoże spróbować regresji z wykorzystaniem mediany lub całkowicie porzucić w badaniu model regresji. Dobrym wyjściem jest także czasami pokazanie modelu i opisanie, że należy mieć do niego ograniczone zaufania z powodu złamanie założeń.

Interpretacja

Ocena wyników przebiega w 3 etapach. Pierwszy z nich to ocena założeń i ich spełnienia. Drugi element to oceny modelu. Zwrócimy szczególną uwagę na wartości ANOVY i r2. Istotny wynik ANOVY mówi o dobrym dopasowaniu modelu do danych. Lepsze dopasowanie danych to także mniejszy błąd oszacowania. R-kwadrat Pearsona (współczynnik determinacji) pokazuje procent wyjaśnianej zmienności zmiennej zależnej przez predyktor. Im silniejszy związek tym wynik ten będzie wyższy. Na końcu ocenie warto poddać współczynnik standaryzowany Beta mówiący o sile i kierunku związku predyktora ze zmienną zależną. W przykładowym podsumowaniu zapisać można: „Analiza pokazała, że model regresji jest dobrze dopasowany do danych, F(1, 88) = 15,760; p <0,001. Model jest lepszy w przewidywaniu zmiennej zależnej niż średnia arytmetyczna. Opracowany model pozwala na przewidywanie 30% zmiennej zależnej. Związek wskaźnika BMI z samooceną był silny i ujemny (β = 0,55; p < 0,001).” W modelu regresji jednozmiennowej współczynnik Beta jest równy wartości R Pearsona.

Wyniki regresji warto poddać dodatkowemu opracowaniu. Znając stałą w modelu współczynnik zmienności bez trudu oszacujemy ile wyniósłby wynik samooceny dla osoby ze wskaźnikiem BMI = 30. Trzeba w takich obliczeniach uwzględnić także błąd oszacowania, a wynik najlepiej podać w przedziale (wynik otrzymany +/- błąd oszacowania).

 

Regresja wielozmiennowa

W sytuacjach społecznych rzadko kiedy tylko jedna zmienne generuje zmienność wartości zmiennej zależnej. W sytuacji takiej kiedy do przewidywania wykorzystać chcemy więcej niż 1 predyktor sięgniemy po model regresji wielozmiennowej.

Założenia

Tak samo w tym przypadku warto ocenić jak nasze dane poradziły sobie z założeniami. Dla regresji wielzomiennowej najważniejsza może okazać się liczebność próby oraz poziom interkorelacji predyktorów.

Test

Założenie

Sposób testowania założenia

Wielozmiennowa analiza regresji

1. Pomiar ilościowy zmiennej zależnej

2. Związek liniowy między zmiennymi

3. Normalność rozkładu zmiennych ilościowych

Test Shapiro-Wilk lub Kołmogorow-Smirnow

4. Normalność rozkładu reszt modelu

Test Shapiro-Wilk lub Kołmogorow-Smirnow

5. Liczba osób minimum n >50 + 15 osób na każdy predyktor

6. Słaba interkorelacje predyktorów

VIF, Tolerancja, Durbin-Watson

Podobnie tutaj mamy do oceny rozkłady zmiennych i reszt modelu. Ważną zmianą jest liczba obserwacji. Musimy zadbać o rozmiar grupy badanej. Dla 4 predyktorów liczba badanych powinna wynosić =50+15*4=110 osób. Predyktory w modelu powinny być ze sobą słabo skorelowane. Ocenić to można zwykłą analizą korelacji współczynnikiem R Pearsona lub skorzystać z wyniku jaki podaje model.

Analiza interkorelacji

Wniosek

Pojedyncze związki R Pearsona

Związki mniejsze niż 0,3. Najlepiej blisko zero i nieistotne.

Statystykę Durbina-Watsona

Wynik koło 2,0 jest najbardziej pożądany. Między 1 a 3 jest dobry – słaba interkorelacja reszt.

Tolerancje

Wynik dla predyktora powinien być poniżej 2,000 a suma wszystkich poniżej 10,000 – słaba interkorelacja.

VIF

Wynik powyżej 0,2 (czasami nawet powyżej 0,1) jest dobrym wynikiem mówiącym o braku interkorelacji.

Oceniając założenia do modelu wielozmiennowego trzeba zwrócić uwagę na interkorelacje predyktorów. Jeżeli są silnie skorelowane to być może mierzą ten aspekt i włączenie ich obu do modelu osłabi go. Sytuacji bardzo silnych związków pomiędzy predyktorami trzeba unikać.

W modelu jako predyktory wykorzystać możemy także zmienne jakościowe. Ale ich interpretacja będzie wymagała dobrego kodowania zmiennej i logicznego myślenia.

Interpretacja

Wyniki ocenić możemy w kilku etapach. Pierwszym z nich jest zawsze analiza założeń. Brak ich spełnienia kończyć się może brakiem możliwości przeprowadzenia analizy. Jeżeli próba opracowania danych (logarytmizacja, zwiększenie liczbę badanych lub usunięcie przypadków odstających) nie pomogło, pozostaje nam zmniejszyć zaufania do wyników lub całkowicie pominąć analizę. Drugi etap to ocena modelu. Poszukujemy istotnego wyniku ANOVA, świadczącego o dobrym dopasowaniu do danych oraz wyniku skorygowanego r2. Skorygowane R-kwadrat Pearsona pokażemy ze względu na większą niż 1 liczbę predyktorów. Jego interpretacja jest taka sama jak r2. Ocenimy dzięki niemu procent wyjaśnianej zmienności zmiennej zależnej przez predytkry modelu. Ostatni element to współczynniki Beta. Mówią o sile i kierunku związków predyktorów ze zmienną zależna. W modelu wielozmiennowym Beta nie jest równa R Persona.

W przykładowym raporcie zapisać można: „Analiza pokazała, że model regresji jest dobrze dopasowany do danych, F(3, 147) = 25,760; p <0,001. Model jest lepszy w przewidywaniu zmiennej zależnej niż średnia arytmetyczna. Opracowany model pozwala na przewidywanie 52% zmiennej zależnej. Najsilniejszy związek widać między zmienną zależna a ekstrawersją. Związek ten jest dodatni i umiarkowany (β = 0,38; p < 0,001). Istotnym predyktorem okazała się także neurotyczność. Jej związek ze zmienną zależna był ujemny i umiarkowany (β = -0,35; p < 0,001). Pozostałe predyktory okazały się nieistotne w przewidywaniu zmiennej zależnej”. Tutaj także ocenić warto dodatkowe wartości takie jakie jak stała w modelu i współczynniki zmienności. Warto zwrócić uwagę na błąd oszacowania, szczególnie przy próbie przewidywania wyniki.

 

Metody

Model regresji wielozmiennowej pozwala na wybór sposób wprowadzania predyktorów. Ma to znaczenie dla analizy i warto dobrze przemyśleć jego wybór.

Metoda wprowadzania danych

Opis

Efekt

Wprowadzania

Model pokaże wszystkie predyktory razem. Nie odrzuci żadnych i pokaże wszystko. Warto z niego korzystać, gdy mamy jakiś model teoretyczny lub jest to analiza wstępna.

Model może okazać się mało dopasowany do danych, kiedy nie odrzuci zmiennych o słabej predykcji.

Hierarchiczna

Podobna do krokowej. Sami dodajemy predyktory. Tworzymy po kolei modele i sami decydujemy jakie zmienne mają być dodane a jakie usunięte.

Powstaje kilka modeli i możemy zobaczyć jak zmienia się dokładnie model po dodaniu kolejnych predyktorów.

Selekcji postępującej

Model doda nowe predyktory jedynie, gdy okażą się istotne statystycznie p<0,05

Otrzymujemy silny model bez słabych predyktorów.

Eliminacji wstecznej

Pokazuje się kilka modeli. Pierwszy stworzony metodą wprowadzania a następne z usuniętymi słabymi predyktorami.

Możliwość oceny kilku modeli i decyzji o wyborze najlepszego.

Warto czasami sięgnąć po kilka metod i porównać je. Modele selekcji i eliminacji pokazać mogą czasami bardzo ciekawe zależności i zmiany dopasowania ich do danych. W metodzie hierarchicznej sami możemy tworzyć modele i porównać zmiany między nimi. Opcja ta może wymagać od nas jednak, przynajmniej teoretycznej znajomości, które predyktory będą ważniejsze i wprowadzać je w kolejności od najsilniejszego do najsłabszego (hierarchicznie).

Analiza regresji jest niedocenianym narzędziem do analizy wyników. Pozwala na wiele ciekawych wniosków, lecz wymaga wiele od danych i badacza. Jest narzędziem w ocenie modeli moderacji i mediacji zmiennych, które w sposób szczególny ujmują kwestie związków między zmiennymi. Nie omówiliśmy tutaj sytuacji kiedy to zmienne zależna może być nominalna. Do tego najlepiej nadaje się regresja logistyczna opisana szerzej tutaj.

Masz pytania? Zadzwoń lub napisz!

Może zainteresuje Cię także:

Arkadiusz Prajzner

Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.