Analiza czynnikowa

       Metoda oceny struktury narzędzia psychologicznego. Element oceny trafności (teoretycznej), o której więcej można przeczytać tutaj. W analizie czynnikowej chcemy wykazać lub potwierdzić liczbę skali (czynników) jakim charakteryzuje się nasze narzędzie. Wyróżniamy dwie analizy czynnikowe:

  1. Analiza eksploracyjną EFA
  2. Analiza konfirmacyjną CFA

       Każda analiza czynnikowa to zestaw wyników, których interpretacja pozwoli na wskazanie jaką strukturę ma nasze narzędzie. Niżej zaprezentowane zostały metody interpretacji wyników takich analiz.

 

Eksploracyjna analiza czynnikowa (EFA)

       Wykorzystywana jest w sytuacji kiedy nie znamy struktury. Nie mamy przygotowanej liczby czynników jakie powinny się tutaj znajdować. Chcemy sprawdzić dopiero ile skali można wyróżnić w narzędziu. Analiza eksploracyjna może być też pierwszym etapem oceny struktury jak pewne wprowadzenie lub początek pracy nad narzędziem.  Przechodząc do analizy możemy wybrać metodą wyodrębniania czynników:

  1. Metoda osi głównych – nie wymaga wielowymiarowego rozkładu normalnego, dąży do maksymalizowania powiązania między czynnikami a itemami;
  2. Metoda największej wiarygodności – wymaga spełniania rozkładu normalnego poszczególnych pytań ankiety, pokazuje poziom istotności różnicy między strukturą empiryczną a modelowaną;
  3. Metoda głównych składowych – najbardziej podstawowa metoda, dąży do uzyskania maksymalnego procenta wyjaśnianej wariancji zmiennych wyjściowych.

       Po uzyskaniu wyników decydujemy ile czynników pokazała analiza. Oceniamy to wykorzystując dwa kryteria:

  1. Kaisera – wartość własna czynników jakie należy uznać w analizie powinna być większa od 1,00. W wynikach szukamy ile czynników posiada wartości własne powyżej 1,00. Wszystkie one wedle tego kryterium warto uznać za czynniki w narzędziu własnym. W tych wynikach zobaczymy także ile % wariancji wyników wyjaśnia nasza struktura oraz każdy z czynników osobno.
  2. Catella – wykres osypiska. Szukamy na wykresie punktu, ZA KTÓRYM linia zaczyna się wypłaszczać. Uznajemy, że nasze narzędzie ma tyle czynników ile jest przed tym wypłaszczeniem. Na rysunku niżej zobaczymy, że linia wypłaszcza się za punktem 2 w rysunku A i za punktem 3 w rysunku B.

       Oznacza to, że dla modelu na rysunku A powinniśmy wskazać w analizie czynnikowej istnienie 2 czynników a w modelu na rysunku B wskazalibyśmy 3 czynniki. Po tym jak ustalimy ile czynników powinno mieć nasze narzędzie możemy zobaczyć ich strukturę wewnętrzną (inaczej które itemy budują które czynniki). Tutaj ponownie mamy kilka możliwości w ocenie. Do tej oceny wykorzystywać będziemy rotacje czynników:

  1. Rotacje ortogonalne, często wykorzystywane kiedy budujemy zmienne np. do analizy regresji. Rotacje te dążą do zerowej korelacji między czynnikami:
  • viramax – minimalizuje odległości między czynnikami, buduje czynniki o mniejszej liczbie itemów, łatwiejsze w interpretacji, polecana i najczęściej wykorzystywana;
  • quatrimax – maksymalizuje odległości między czynnikami, buduje czynniki o dużej liczbie itemów, co czasami utrudnia interpretację;
  • equamax – hybryda powyższych.
  1. Rotacje nieortogonalne, ukośne – wykorzystywane kiedy dopuszczamy możliwość korelacji między czynnikami:
  • oblimin – dopuszcza korelacje między czynnikami na poziomie Delta, które ustalimy. Polecaną wartością delta jest 0,80;
  • promax – szybsza procedura stworzona dla dużego zestawu danych.

       Po przeprowadzeniu analizy ładunków otrzymamy tabele gdzie pokazana będzie siła ładunków każdego pytania, itemu z każdą skalą. Zobaczymy zatem czy pytanie numer 5 silniej związane jest z czynnikiem pierwszym czy drugim. Oceniając wnikliwie takie wyniki będzie w stanie dopasować pytania do ich czynników.

       W przykładzie wyżej zobaczymy, że pytania, itemy 1-4 silniej „ładują” czynnik pierwszy, kiedy itemy 5-8 związane są z czynnikiem drugim. Wiemy zatem, które pytania tworzą jakie skale w naszym narzędziu. W takiej analizie zobaczymy też pytania, itemy słabe. Jeżeli jakieś pytanie nie będzie związane z żadnym czynnikiem – warto będzie rozważyć jego zmianę lub usunięcie.

 

Konfirmacyjna analiza czynnikowa (CFA)

       Znacznie bardziej rozbudowana metoda oceny struktury narzędzia. Wykorzystywana w sytuacji kiedy chcemy potwierdzić, że struktura naszego narzędzia jest taka jak zakładaliśmy. W analizie tej wskazujemy które pytania, itemy tworzą które czynniki. Program porównuje macierz wariancji jaka powstanie z takiego modelu z modelem teoretycznym (o najlepszym dopasowaniu). Jeżeli między tymi modeli nie ma różnic – oznacza to, że nasz model, nasza struktura jest dobra, bliska idealnej. Tutaj ponownie mamy kilka możliwości estymacji modelu:

  1. Metoda największej wiarygodności (ML) – wymaga spełnienia założenia normalności rozkładu, najczęściej stosowana, odporna na zmiany skali pomiarowej;
  2. Metoda uogólniona najmniejszych kwadratów (GSL) – wymaga spełnienia założenia normalności rozkładu, wymaga dość dużej liczby obserwacji (ponad 200), mało odporna na istnienie współliniowości między zmiennymi objaśniającymi;
  3. Nieważona metoda najmniejszych kwadratów (ULS) – podobna do metody ML jednak nie musi wymagać spełniana wielowymiarowej normalności rozkładu co jednak nie pozwala oszacować błędów modelu;
  4. Ważona metoda najmniejszych kwadratów (WLS) – nie wymaga spełnienia normalności rozkładu, wymaga dużej próby.

       Wyniki takiej analizy będziemy mogli ocenić obiektywnie wykorzystując pokazane niżej wartości.

       W raporcie wyników pokazać warto uzyskane wartości chi-kwadrat, RMSEA jak i GFI. Bardzo często te wartości porównuje się między różnymi modelami tego samego narzędzia by ocenić, która jego forma jest lepsza. Czy model trójczynnikowy jest lepszy niż pięcioczynnikowy. Po ocenie samego modelu warto ocenić także ładunki opisane wyżej by zobaczyć, które itemy wydają się być najlepsze dla skali, a które najgorsze. Ocena psychometryczna narzędzia to proces. Po analizie warto ulepszyć narzędzie, usuwając lub zamieniając wybrane (najsłabsze) pytanie czy zadania.


Bedyńska. S., Cypriańska. M., (2013). Zaawansowane metody tworzenia wskaźników. (W:) S. Bedyńska., M. Cypriańka. (red.) Statystyczny drogowskaz 1. (s. 455-281). Warszawa: Wydawnictwo Akademickie Sedno Spółka z o.o.

Field. A., (2018). Exploratory factor analysis. (W:) A. Field. Discovering statistics using IBM SPSS Statistics. (s. 777-832). London: SAGE Publications Ltd.

Sagan. A., (2003). Model pomiarowy satysfakcji i lojalności. StatSoft Polska.

Zasuwa. G., (2011). Zastosowanie modelowania równań strukturalnych do badań nad zachowaniami konsumentów. StatSoft Polska.

Regresja logistyczna

Jak w przypadku regresji liniowej jedno czy wielozmiennowej, tak w tym przypadku będziemy próbowali ocenić możliwości predykcji zmiennej zależnej. Tak samo naszym zadaniem będzie ocena dopasowania modelu do danych jak i procenta wyjaśnianej przez niego wariancji zmiennej zależnej oraz związków między predyktorem (predyktorami) a zmienną zależną. Jedyną różnica to, że regresja logistyczna wykorzystywana jest w sytuacji kiedy mamy do czynienia z dychotomicznym charakter zmiennej zależnej.

Zastosowanie i przygotowanie

Dość często w badaniach społecznych pomiar najważniejszej zmiennej ma charakter pomiaru dychotomicznego: zmienna zależna przyjmuje dwie wartości (zgoda lub brak zgody, pali papierosy lub nie pali papierosów, tak lub nie).  Może być to naturalnie dwuwartościowa zmienna lub może być także poddana dychotomizacji z wyników ilościowych np. na wyniki niskie i wysokie lub na wyniki w normie i  świadczące o stanie chorobowym. Warto w odpowiedni sposób kodować do analiz zmienną zależną. Wyższa wartość będzie zawsze w modelu przewidywaną. Więc jeżeli chcemy przewidywać palenie papierosów to zakodujemy jej wartość 1,00 a odpowiedziom nie pali – wartość 0,00. Podjęcie decyzji – 1,00 brak decyzji 0,00. Wyniki wysokie – 1,00, wyniki niskie – 0,00. Wiele zależy od tego jakie zdarzenie chcemy przewidywać i temu właśnie warto przypisać wyższą wartość. Jeżeli się tak nie stanie model będzie przewidywał zupełnie odwrotne zdarzenie. Predyktory w modelu regresji logistycznej mogą być zarówno jakościowe jak i ilościowe.

Interpretacja wyników

Ten model analiz jest praktycznie zwolniony ze standardowych założeń jak normalności rozkładu. By mieć zaufanie do wyników liczba obserwacji nie powinna być zbyt mała. Pierwszym w ocenie wyników pozostaje dopasowanie modelu do danych, do czego w tej analizie wykorzystuje się test dobroci dopasowania Hosmera-Lemeshowa (H-L). Oczekujemy wyniku nieistotnego.

Otrzymany wynik dla istotność H-L

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Różnica między liczebnością otrzymaną a oczekiwaną jest istotna. Model jest słabo dopasowany do danych.

p > 0,05

Wynik nieistotny

Różnica między liczebnością otrzymaną a oczekiwaną nie jest istotna. Model jest dobrze dopasowany do danych.

Wynik H-L jest pierwszym ważnym w ocenie analizy elementem. Istotny wynik sugeruje nam, że model jest słabo dopasowany a co za tym idzie nie da nam praktycznych wniosków i możliwości dobrego przewidywania zmiennej zależnej. W ocenie samego modelu można wykorzystać także wartość współczynnika wiarygodności. Mówi on jak wiele wariancji zmiennej zależnej pozostaje niewyjaśnione po dopasowaniu modelu. Im wyższy jest tym więcej niedopasowania modelu pozostaje zatem poszukiwać trzeba niższej wartości. Szczególnie warto zwracać uwagę na współczynnik wiarygodności kiedy porównujemy różne modele między sobą.

Dalej ocenić trzeba wartość wyjaśnianej wariancji przez model. Zamiast R2 lub poprawionego-R2 dla regresji logistycznej poszukujemy wartości R-Nagelkerkego R2N (inaczej pseudo-R2). Interpretacja tego wyniku jest taka sama jak zwykłego R2. Uzyskana wartość stanowi % wyjaśnianej przez model zmienności zamiennej zależnej. Przykład R2N = 0,29 stanowi, że model wyjaśnia 29% wariancji zmiennej zależnej.

Mając dopasowanie modelu, wyjaśnianą przez niego zmienność sięgnąć można po związki predyktorów z wystąpieniem zdarzenia kryterialnego (zmienną zależną). Do tego posłużyć może wartość Exp(β) – równoznaczność funkcji wykładniczej – inaczej, ilorazowi szans dla predyktora. Analiza dla każdego predyktora powinna skupić się na wyniku Exp(β), Współczynnika Wald oraz poziomu istotności. Ten ostatni wskazuje, na to czy predyktor ma istotne znaczenie w modelu dla przewidywania wystąpienia zdarzenia kryterialnego i dotyczy wartość Wald. Współczynnik ten jest wykorzystywany do oceny hipotezy zerowej. Po weryfikacji wartości Wald i poziomu istotności warto popatrzeć także na sam wynik Exp(β). Im wyższy wynik tym większa szansa na wystąpienie zdarzenia kryterialnego (wartości 1,00 dla zmiennej zależnej) przy jednostkowym wzroście zmiennej niezależnej. Kiedy mamy predyktor jakościowy, jednostkowy wzrost oznacza zmianę grupy (dlatego kodowanie musi być przemyślane).

Przykład. Zmienna zależna – podjęcie ryzykownej decyzji (1-podjął, 0-nie podjął); zamienna niezależna – płeć (1-mężczyzna; 0-kobieta). W modelu Exp(β) dla płci przewidując podjęcie decyzji osiągnął wynik 2,35. Oznacza to, że mężczyźni mają większą szansę na podjęcie ryzykownej decyzji niż kobiety. Zmiana płci o 1 jednostkę (z zero na jeden) oznacza wzrost szans na decyzję o 135%.

Dla predyktorów ilościowych także Exp(β) mówi o jednostkowej zamianie. Co oznacza, że musimy pilnować jednostki pomiaru. Jeżeli zmienną niezależną będzie wynik surowy testu osobowości to zmiana jednostkowa oznaczać będzie 1pkt uzyskany w teście. Jednak jeżeli zamienimy wynik np. na steny, to jednostkowa zmiana oznaczać będzie 1 sten (a to nie to samo co 1 punkt surowy testu). Zmiana o 1 sten jest znacznie większą zmianą niż 1 punkt surowy testu. Trzeba o tym pamiętać przy interpretacji wyników.

Przykład. Zmienna zależna – podjęcie ryzykownej decyzji (1-podjął, 0-nie podjął); zamienna niezależna – impulsywność (zmienna ilościowa). W modelu Exp(β) impulsywność, przewidując podjęcie decyzji, osiągnęła wynik 2,35. Oznacza to, że wzrost impulsywności o 1 pkt na mierzonej skali zwiększą szansę na podjęcie ryzykownej decyzji o 135%.

Dla skal ilościowych, szczególnie kiedy skale pomiaru są różne, warto pracować na wynikach przeliczonych, standaryzowanych lub na  wartościach odchylenia standardowego. W modelach wielozmiennowych kiedy nie mamy takiej samej skali pomiaru w regresji logistycznej wyniki można zapisać w postaci wartości odchylenia wyniku od średniej (statystyka z). Interpretacja będzie łatwiejsza, ponieważ jednostkowy wzrost oznaczał będzie zamianę o jedno odchylenie a nie o 1 pkt testowy.

Przy analizie Exp(β) pamiętać trzeba, że regresja logistyczna nie jest tożsama z liniową zmianą. Jeśli Exp(β) = 1,67 to zmiana o 1pkt pomiaru to wzrost o 67% wystąpienia zdarzenia kryterialnego, jednak wzrost o 2 pkt to NIE będzie 134% (2×67%), a wzrost o 10pkt to nie 670% (10×67%). Funkcja nie jest liniowa, więc by obliczyć Exp(β) dla więcej niż jednopunktowej zmiany trzeba wykorzystać wzór1:

gdzie: x – wartość zmiany ilościowej zmiennej niezależnej dla jakiej chcemy obliczyć wynik zamiennej zależnej, e – wartość podstawy logarytmu naturalnego, B – wartość B odczytana z modelu dla danej zmiennej niezależnej. W naszym przykładzie okazać by się mogło, że zmiana o 2ptk to Exp(β) = 2 a dla 10pkt Exp(β) = 32, co oznacza, że wzrost o 2 pkt to wzrost o 100% a dla zmiany 10pkt to wzrost o aż 3100% na wystąpienie zdarzenia kryterialnego. Ale co w sytuacji kiedy iloraz szans jest na minusie? Oznacza to po prostu spadek szans na wystąpienie. Wzrost dla zmiennej niezależna zmniejsza szanse na wystąpienie zdarzenia.

Oprócz samej wartości Exp(β) warto zobaczyć jego przedziały ufności. Jeżeli zarówno dolny jak i górny przedział znajdują się powyżej 1,00 mamy znacznie większą pewności o kierunku oddziaływania między zmiennymi.

Praktyczne wykorzystanie analizy regresji logistycznej można zobaczyć tutaj. Analiza modeli interakcyjnych dla wielozmiennowej analizy przekracza poniższe rozważania. Więcej o regresji logistycznej, szczególnie w poszukiwaniu interakcji winna zainteresować pozycja wskazana niżej.

 

1 Danieluk, B. (2010). Zastosowanie regresji logistycznej w badaniach eksperymentalnych. Psychologia Społeczna 5 (14), 199-216.

Poziom istotności a siła efektu

Decyzja o przyjęciu lub odrzuceniu hipotezy zerowej w badaniach najczęściej podejmowana jest na podstawie wartości poziomu istotności. Wynik p poniżej przyjętego kryterium Alfa wywołuje uśmiech na twarzach badaczy i zadowolenie z wykonanych badań. Zdarza się także, że do generalizacji wniosków dochodzi jedynie na podstawie osiągniętego wyniku p w badanej próbie. 

 

Wartość p w ocenie istotności

Wynik istotny (czyli mniejszy od przyjętego poziomu Alfa) oznacza, że uzyskanie przez przypadek wyniku otrzymanego w próbie jest mało prawdopodobne wtedy, gdy H0 jest prawdziwa. Efektem tego uzyskanie w badaniach niskich wartości p (p < 0,05; p < 0,01; p < 0,001) prowadzić będzie do odrzucenia H0 i przyjęcia stawianej w badaniach hipotezy alternatywnej.

Wartość p jest „prawdopodobieństwem uzyskania w próbie takiej średniej, która w danym lub jeszcze większym stopniu będzie odchylona od wartości X, która w rzeczywistości zostałaby otrzymana, gdyby H0 była prawdziwa1. Małe prawdopodobieństwo czyli mały wynik p oznacza, że ciężko otrzymać w próbie takie wartości jak podaje H0 (więc mamy dowód by H0 uznać za fałszywą i ją odrzucić).

W przykładzie, jeżeli H0 mówi, że wynik z próby jest równy 65. Uzyskując wartość p = 0,01 mamy prawdopodobieństwo 1% (1/100), że utrzymany wynik z próby będzie równy 65. Skoro to tylko 1% trzeba uznać, że H0 kłamie, jest fałszywa. Gdyby p = 0,759, wniosek brzmiałby, że istnieje aż 76% na to, że otrzymany wynik w próbie jest równy 65. To już całkiem sporo i w takim przypadku ciężko odrzucić H0 – nie mamy do tego podstaw.

Poziom Alfa

Przyjęty przez badacza poziom, poniżej którego, uzna wynik za istotny. Najczęściej jest to Alfa = 0,05. Ale zdarzają się bardziej restrykcyjne jak Alfa = 0,01 lub Alfa = 0,001.

Wartość p

Wynik prawdopodobieństwa otrzymania wyniku z próby odchylanego od X, który otrzymalibyśmy kiedy hipoteza zerowa jest prawdziwa.

Istotność wyniku

Uznaniowa decyzja, czy dany wynik p można uznać za istotny. Podejmuje się ją na podstawie przyjętego poziomu Alfa. Wynik p mniejszy niż przyjęty poziom Alfa będzie istotny.

Mimo, że poziom istotności jest bardzo ważnym elementem oceny mocy danego testu jak i oceny uzyskanych wyników w badaniu, nie jest on zawsze wystarczający do podjęcia decyzji o odrzuceniu bądź przyjęciu hipotezy. Poleganie jedynie na samej tylko wartości wyniku p może prowadzić do błędnych wniosków. 

Odszukując w tablicach statystycznych wartości p dla konkretnego testu musimy znać wynik tego testu oraz liczbę stopni swobody. Taka sama wartość testu dla różnych stopni swobody będzie charakteryzowała się różnym wynikiem wartości p. Na liczbę stopni swobody w bezpośredni sposób składać się będzie liczba przebadanych osób, liczba obserwacji. W konsekwencji na wynik istotności danego testu będzie wpływać liczebność próby. Dojść można do wniosku, że zwiększając liczbę osób w badaniu zwiększamy prawdopodobieństwo odrzucenia hipotezy zerowej i przyjęcia hipotezy alternatywnej. Właśnie dlatego zbyt duże zaufanie jedynie dla samej wartości p może prowadzić do pewnych nadużyć. W bardzo dużej próbie badanych osób nawet niewielkie różnice mogą okazać się istotne, jedynie z powodu ilości przebadanych osób. W mniejszej próbie taki sam nawet wynik testu okazałby się bowiem już nieistotny.

 

Siła efektu

By uniknąć błędów przy odrzuceniu hipotezy zerowej oraz przy generalizacji wniosków oprócz samej wartości p, należy także wykazać inne miary określone siłami efektu. Wielkość efektu jest bowiem oszacowaniem stopnia, w jakim efekt oddziaływania jest obecny w populacji, wyrażony jako liczba uwolniona już od zastosowanej jednostki pomiaru, ale także niezależny jest od stopni swobody czyli niezależny od liczby przebadanych osób. Pokazanie takiej miary, która niezależna jest od liczby zbadanych osób, od zastosowanego pomiaru, czyli od narzędzia jakie zostało w badaniu wykorzystane, szczególnie ważne jest w metaanalizach, które łączą, agregują wyniki z różnych badań, z różnych krajów, w których każdy badacz mógł przebadać różną liczbę osób różnymi narzędziami. Tylko wykazanie wielkości efektu jest w obiektywny sposób daje możliwość by porównać wyniki takich badań w metaanalizie.

Różne testy statystyczne charakteryzować się będą różnymi wielkościami siły efektu jakie powinniśmy dla nie wyliczyć. Niżej w tabeli zostały zebrane najważniejsze, najczęściej wykorzystywane testy statystyczne wraz z odpowiadającymi im siłami efektu.

Test statystyczny

Siła efektu

Interpretacja

Test T Studenta dla danych niezależnych

d Cohena

0,2 – słaby efekt

0,5 – przeciętny efekt

0,8 – silny efekt

g Hedgesa

Delta Glassa

Test T Studenta dla danych zależnych

d Cohena

0,2 – słaby efekt

0,5 – przeciętny efekt

0,8 – silny efekt

U Manna-Whitney’a

rg – współczynnik korelacji dwuseryjnej Glassa

0,1 – słaby efekt

0,3 – przeciętny efekt

0,5 – silny efekt

0,8 – bardzo silny (jak R Pearsona)

Test Wilcoxona

rc – współczynnik korelacji dwuseryjnej dla par dopasowanych

0,1 – słaby efekt

0,3 – przeciętny efekt

0,5 – silny efekt

0,8 – bardzo silny (jak R Pearsona)

Jednoczynnikowa analiza wariancji

η2 – eta kwadrat

0,01 – słaby efekt

0,06 – przeciętny efekt

0,14 – silny efekt

ω2 – omega kwadrat

0,01 – słaby efekt

0,06 – przeciętny efekt

0,14 – silny efekt

Dwuczynnikowa analiza wariancji

η2 – eta kwadrat

0,01 – słaby efekt

0,06 – przeciętny efekt

0,14 – silny efekt

ω2 – cząstkowa omega kwadrat

0,01 – słaby efekt

0,06 – przeciętny efekt

0,14 – silny efekt

Test H Kruskala-Wallisa

ε2 – epsilon kwadrat

Przyjmuje wartości od 0,00 ( brak związku) do 1,00 (maksymalny związek)

ANOVA Friedmana

w – współczynnik zgodności Kendalla

Przyjmuje wartości od 0,00 ( brak związku) do 1,00 (maksymalny związek)

            Dla testu T Studenta dla danych niezależnych zauważyć można kilka współczynników siły efektu. D Cohena jest najczęściej wybieranym, g Hedgesa wykorzystać warto kiedy mamy różnoliczne grupy a Delta Glassa kiedy odchylenie standardowe w grupach jest różne. Dla analiz wariancji możemy skorzystać w wyników eta-kwadrat oraz omega-kwadrat. Ta pierwsza podwyższa oszacowane wartości, omega uznana jest za wynik nieobciążony, szacuje proporcje i ocenia każdy z czynników osobno. W przypadku jednoczynnikowych analiz wariancji z powtarzanym pomiarem lepiej sięgnąć po wynik eta-kwadrat. Siłę efekty należy interpretować w kontekście związków między zmiennymi i możliwością wyjaśniana zróżnicowania jednej zmiennej przez drugą, a nie ja wielkość różnic między pomiarami.

 
Podsumowanie

Standardy APA wymagają od autorów by ZAWSZE podawać wartości siły efektu kiedy to tyko możliwe. Pełne przedstawienie wyników, to także oprócz wartości testu statystycznego, stopni swobody czy poziomu istotności także siłę efektu. Czy zatem siła efektu może być kolejnym kryterium przyjęcia lub odrzucenia hipotezy zerowej?

 

1 King. B. M., Minium. E. E., (2020). Statystyka dla psychologów i pedagogów. Warszawa: Wydawnictwo Naukowe PWN. s. 323-325.                                       

Analiza regresji

Idealny przykład dla wszystkich, którzy idąc na psychologię twierdzili, że matematyka im się nie przyda. Znana z matury podstawowej funkcja liniowa stanowi trzon analizy regresji. Linia regresji jest budowana wprost w oparciu o funkcje liniową. Dopasowanie tej linii do danych tworzone jest metodą najmniejszych kwadratów (różnic między wartością otrzymaną a oczekiwaną – czyli linią regresji).

Model regresji wykorzystywany jest w badaniach skupionych na przewidywaniu wyniku. Regresja poza analizą związku pozwala na predykcje. Jest czasami określana rozwinięciem modelu korelacyjnego, lecz wymaga ustalenia jaka zmienna jest zależną. Inaczej mówiąc, która zmienna oddziałuje na którą. Współwystępowanie (w analizie korelacje) nie musi pokazywać zależności przyczynowo skutkowej. Dzięki tej analizie możemy odpowiedzieć na pytanie jak wiele zmienności zmiennej zależnej przewiduje predyktor (zmienna niezależna w modelu predykcji).

Wyróżnić możemy dwa podstawowe modele regresji: jednozmiennowa, dla modelu z tylko 1 predyktorem (1 zmienna niezależna) oraz wielozmiennowej dla więcej niż 1 predyktora.

 

Regresja jednozmiennowa

Analiza ta wykorzystana może być do przewidywanie zmienności zmiennej zależnej przez jeden predyktor. Wymaga on od danych by spełniły pewne założenia, by w pełni zaufać jej wynikom.

Założenia

Przed przystąpieniem do analizy musimy spełnić szereg założeń. Część z nich to nic innego jak powtórzenie wymagań stawianych przed danymi dla korelacji R Pearsona.

Test

Założenie

Sposób testowania założenia

Jednozmiennowa analiza regresji

1. Pomiar ilościowy zmiennej zależnej

2. Związek liniowy między zmiennymi

3. Normalność rozkładu zmiennych ilościowych

Test Shapiro-Wilk lub Kołmogorow-Smirnow

4. Normalność rozkładu reszt modelu

Test Shapiro-Wilk lub Kołmogorow-Smirnow

5. Liczba osób minimum n >50

Bardzo ważna w ocenie jest liniowość związku zmiennej zależnej oraz predyktora. Regresja bazująca na wzorze funkcji liniowej nie będzie dobrze dopasowana do danych, jeżeli związek będzie nieliniowy. Ocenić trzeba także normalność rozkładu zmiennych ale także reszt jakie powstaną po zbudowaniu modelu. Idealną sytuacją jest kiedy wszystkie pomiary spełniają założenie normalności rozkładu. Więcej na temat testowania założeń można przeczytać tutaj. Co jeśli założenia są złamane? Należy poprawić dane, zlogarytmizować, zwiększyć liczbę badanych lub usunąć przypadki odstające. Jeżeli to nic nie pomoże spróbować regresji z wykorzystaniem mediany lub całkowicie porzucić w badaniu model regresji. Dobrym wyjściem jest także czasami pokazanie modelu i opisanie, że należy mieć do niego ograniczone zaufania z powodu złamanie założeń.

Interpretacja

Ocena wyników przebiega w 3 etapach. Pierwszy z nich to ocena założeń i ich spełnienia. Drugi element to oceny modelu. Zwrócimy szczególną uwagę na wartości ANOVY i r2. Istotny wynik ANOVY mówi o dobrym dopasowaniu modelu do danych. Lepsze dopasowanie danych to także mniejszy błąd oszacowania. R-kwadrat Pearsona (współczynnik determinacji) pokazuje procent wyjaśnianej zmienności zmiennej zależnej przez predyktor. Im silniejszy związek tym wynik ten będzie wyższy. Na końcu ocenie warto poddać współczynnik standaryzowany Beta mówiący o sile i kierunku związku predyktora ze zmienną zależną. W przykładowym podsumowaniu zapisać można: „Analiza pokazała, że model regresji jest dobrze dopasowany do danych, F(1, 88) = 15,760; p <0,001. Model jest lepszy w przewidywaniu zmiennej zależnej niż średnia arytmetyczna. Opracowany model pozwala na przewidywanie 30% zmiennej zależnej. Związek wskaźnika BMI z samooceną był silny i ujemny (β = 0,55; p < 0,001).” W modelu regresji jednozmiennowej współczynnik Beta jest równy wartości R Pearsona.

Wyniki regresji warto poddać dodatkowemu opracowaniu. Znając stałą w modelu współczynnik zmienności bez trudu oszacujemy ile wyniósłby wynik samooceny dla osoby ze wskaźnikiem BMI = 30. Trzeba w takich obliczeniach uwzględnić także błąd oszacowania, a wynik najlepiej podać w przedziale (wynik otrzymany +/- błąd oszacowania).

 

Regresja wielozmiennowa

W sytuacjach społecznych rzadko kiedy tylko jedna zmienne generuje zmienność wartości zmiennej zależnej. W sytuacji takiej kiedy do przewidywania wykorzystać chcemy więcej niż 1 predyktor sięgniemy po model regresji wielozmiennowej.

Założenia

Tak samo w tym przypadku warto ocenić jak nasze dane poradziły sobie z założeniami. Dla regresji wielzomiennowej najważniejsza może okazać się liczebność próby oraz poziom interkorelacji predyktorów.

Test

Założenie

Sposób testowania założenia

Wielozmiennowa analiza regresji

1. Pomiar ilościowy zmiennej zależnej

2. Związek liniowy między zmiennymi

3. Normalność rozkładu zmiennych ilościowych

Test Shapiro-Wilk lub Kołmogorow-Smirnow

4. Normalność rozkładu reszt modelu

Test Shapiro-Wilk lub Kołmogorow-Smirnow

5. Liczba osób minimum n >50 + 15 osób na każdy predyktor

6. Słaba interkorelacje predyktorów

VIF, Tolerancja, Durbin-Watson

Podobnie tutaj mamy do oceny rozkłady zmiennych i reszt modelu. Ważną zmianą jest liczba obserwacji. Musimy zadbać o rozmiar grupy badanej. Dla 4 predyktorów liczba badanych powinna wynosić =50+15*4=110 osób. Predyktory w modelu powinny być ze sobą słabo skorelowane. Ocenić to można zwykłą analizą korelacji współczynnikiem R Pearsona lub skorzystać z wyniku jaki podaje model.

Analiza interkorelacji

Wniosek

Pojedyncze związki R Pearsona

Związki mniejsze niż 0,3. Najlepiej blisko zero i nieistotne.

Statystykę Durbina-Watsona

Wynik koło 2,0 jest najbardziej pożądany. Między 1 a 3 jest dobry – słaba interkorelacja reszt.

Tolerancje

Wynik dla predyktora powinien być poniżej 2,000 a suma wszystkich poniżej 10,000 – słaba interkorelacja.

VIF

Wynik powyżej 0,2 (czasami nawet powyżej 0,1) jest dobrym wynikiem mówiącym o braku interkorelacji.

Oceniając założenia do modelu wielozmiennowego trzeba zwrócić uwagę na interkorelacje predyktorów. Jeżeli są silnie skorelowane to być może mierzą ten aspekt i włączenie ich obu do modelu osłabi go. Sytuacji bardzo silnych związków pomiędzy predyktorami trzeba unikać.

W modelu jako predyktory wykorzystać możemy także zmienne jakościowe. Ale ich interpretacja będzie wymagała dobrego kodowania zmiennej i logicznego myślenia.

Interpretacja

Wyniki ocenić możemy w kilku etapach. Pierwszym z nich jest zawsze analiza założeń. Brak ich spełnienia kończyć się może brakiem możliwości przeprowadzenia analizy. Jeżeli próba opracowania danych (logarytmizacja, zwiększenie liczbę badanych lub usunięcie przypadków odstających) nie pomogło, pozostaje nam zmniejszyć zaufania do wyników lub całkowicie pominąć analizę. Drugi etap to ocena modelu. Poszukujemy istotnego wyniku ANOVA, świadczącego o dobrym dopasowaniu do danych oraz wyniku skorygowanego r2. Skorygowane R-kwadrat Pearsona pokażemy ze względu na większą niż 1 liczbę predyktorów. Jego interpretacja jest taka sama jak r2. Ocenimy dzięki niemu procent wyjaśnianej zmienności zmiennej zależnej przez predytkry modelu. Ostatni element to współczynniki Beta. Mówią o sile i kierunku związków predyktorów ze zmienną zależna. W modelu wielozmiennowym Beta nie jest równa R Persona.

W przykładowym raporcie zapisać można: „Analiza pokazała, że model regresji jest dobrze dopasowany do danych, F(3, 147) = 25,760; p <0,001. Model jest lepszy w przewidywaniu zmiennej zależnej niż średnia arytmetyczna. Opracowany model pozwala na przewidywanie 52% zmiennej zależnej. Najsilniejszy związek widać między zmienną zależna a ekstrawersją. Związek ten jest dodatni i umiarkowany (β = 0,38; p < 0,001). Istotnym predyktorem okazała się także neurotyczność. Jej związek ze zmienną zależna był ujemny i umiarkowany (β = -0,35; p < 0,001). Pozostałe predyktory okazały się nieistotne w przewidywaniu zmiennej zależnej”. Tutaj także ocenić warto dodatkowe wartości takie jakie jak stała w modelu i współczynniki zmienności. Warto zwrócić uwagę na błąd oszacowania, szczególnie przy próbie przewidywania wyniki.

 

Metody

Model regresji wielozmiennowej pozwala na wybór sposób wprowadzania predyktorów. Ma to znaczenie dla analizy i warto dobrze przemyśleć jego wybór.

Metoda wprowadzania danych

Opis

Efekt

Wprowadzania

Model pokaże wszystkie predyktory razem. Nie odrzuci żadnych i pokaże wszystko. Warto z niego korzystać, gdy mamy jakiś model teoretyczny lub jest to analiza wstępna.

Model może okazać się mało dopasowany do danych, kiedy nie odrzuci zmiennych o słabej predykcji.

Hierarchiczna

Podobna do krokowej. Sami dodajemy predyktory. Tworzymy po kolei modele i sami decydujemy jakie zmienne mają być dodane a jakie usunięte.

Powstaje kilka modeli i możemy zobaczyć jak zmienia się dokładnie model po dodaniu kolejnych predyktorów.

Selekcji postępującej

Model doda nowe predyktory jedynie, gdy okażą się istotne statystycznie p<0,05

Otrzymujemy silny model bez słabych predyktorów.

Eliminacji wstecznej

Pokazuje się kilka modeli. Pierwszy stworzony metodą wprowadzania a następne z usuniętymi słabymi predyktorami.

Możliwość oceny kilku modeli i decyzji o wyborze najlepszego.

Warto czasami sięgnąć po kilka metod i porównać je. Modele selekcji i eliminacji pokazać mogą czasami bardzo ciekawe zależności i zmiany dopasowania ich do danych. W metodzie hierarchicznej sami możemy tworzyć modele i porównać zmiany między nimi. Opcja ta może wymagać od nas jednak, przynajmniej teoretycznej znajomości, które predyktory będą ważniejsze i wprowadzać je w kolejności od najsilniejszego do najsłabszego (hierarchicznie).

Analiza regresji jest niedocenianym narzędziem do analizy wyników. Pozwala na wiele ciekawych wniosków, lecz wymaga wiele od danych i badacza. Jest narzędziem w ocenie modeli moderacji i mediacji zmiennych, które w sposób szczególny ujmują kwestie związków między zmiennymi. Nie omówiliśmy tutaj sytuacji kiedy to zmienne zależna może być nominalna. Do tego najlepiej nadaje się regresja logistyczna opisana szerzej tutaj.

Ścieżki wyboru testu statystycznego

Każda analiza to indywidualne podejście danych. Każda decyzja może być słuszna w przypadku jednej grupy danych lecz zupełnie zła w przypadku pozostałych zbiorów. Jest przecież różnica między lekko zaburzonym rozkładem danych, gdzie kurtoza i skośność mieszą się w granicach wartości <-1;1> a test Shapiro-Wilka jest na granicy istotności (p = 0,049) a wynikami skośności i kurtozy w przedziale <-10;-5> <5:10> i istotności testu S-W p < 0,001. Założenia trzeba oceniać zawsze w sposób obiektywny, ale nie zero-jedynkowy. Da się jednak zaproponować ścieżki wyboru drogi wnioskowania w oparciu o spełnione założenia. Niżej zaprezentowano podstawowe testy statystyczne i decyzje jakie trzeba podjąć by wykorzystać je w analizie.

Przyjrzymy się ścieżce wyboru testów dla grup niezależnych i zależnych. Ocenie poddamy ścieżkę wyboru podstawowych współczynników korelacji oraz bardziej rozbudowanych modeli badań.

Wybór testu grup niezależnych

Pierwsze pytanie to ocena liczby grup jakie chcemy porównać i równoliczności osób w tych grupach. Kolejne etapy to testowanie założeń normalności rozkładu zmiennych w grupach oraz jednorodności wariancji. Dwie grupy badanych i spełnione założenia prowadzą do analizy testem T Studenta dla danych niezależnych. Więcej niż dwie grupy i spełnione założenia to jednoczynnikowa analizę wariancji. Brak spełnionych założeń dla testów spowoduje konieczność sięgnięcia po testu U Mann-Whitney’a lub H Kruskala-Wallisa.

W sytuacji kiedy spełniona jest część założeń warto przeprowadzić analizę testem parametrycznym i nieparametrycznym. Jeżeli ich wyniki się zgadzają, pokrywają raportować możemy wyniku testu parametrycznego z czystym sumieniem braku błędu. Można też w przypisie wspomnieć o dodatkowej analizie i zamieścić ją np. w aneksie pracy. W sytuacji kiedy zgody nie ma między testami ocenić należy indywidualnie stopień złamania tych założeń. Ostatecznie w raporcie podać wynik testów nieparametrycznych. Szczegółowy opis testowania założeń można znaleźć tutaj.

Wybór testu grup zależnych

Dla zmiennych zależnych, czyli sytuacji kiedy mamy powtarzany pomiar/pomiary ocenić trzeba ich liczbę. Sferyczność danych jest ważniejsza w ocenie niż rozkład zmiennych. Ocena sferyczności to ocena zróżnicowania różnic między pomiarami więc można powiedzieć, że uproszczona jej forma występuję kiedy mamy 2 pomiaru i oceniamy rozkład między tym pomiarami. Spełnienie założeń dla zmiennych pozwala na wykorzystanie w analizie testów T Studenta dla danych zależnych lub jednoczynnikowej analizy wariancji z powtarzanym pomiarem. Brak sferyczności danych to konieczność wykorzystania poprawek w analizie wariancji, które opisane były tutaj. Złamanie znaczne założeń może okazać się powodem konieczności wykorzystania testu kolejności par Wilcoxona lub analizy wariancji Friedmana. Dokładnie informacje o testowaniu założeń można znaleźć pod tym linkiem.

Wybór współczynnika korelacji

Ocena metody analizy związku to głównie ocena sposobu pomiaru skali rozkładu zmiennych oraz liniowości tego związku. Najczęściej wykorzystywany jest współczynnik R Pearsona, ale wymaga spełnienia pewnych założeń. Brak odpowiedniej skali pomiaru lub rozkładu zmiennych zmusza do wykorzystanie współczynnika rho Spearmana i tau Kendalla  oraz w konkretnych warunkach współczynnika Gamma. Korelacja zmiennych ilościowych z jakościowymi to korelacje dwuseryjne lub współczynnik eta. W ocenie zmiennych nominalnych pomóc mogą współczynnik phi, C i V. Więcej o testowaniu założeń można znaleźć tutaj.

Wybór rozbudowanego modelu

Często w modelach badawczych interesują nas interakcje więcej niż 2 zmiennych. W ich analizie wykorzystuje się modele wieloczynnikowe. Istnienie samego powtarzanego pomiaru prowadzi nas do analizy z powtarzanym pomiarem lub (kiedy założenia nie są spełniona) do analizy wariancji Friedmana. Dwie lub więcej zmiennych niezależnych grupujących to wieloczynnikowej analizy wariancji w schemacie międzygrupowym. Jeżeli w modelu mamy powtarzany pomiar oraz zmienną niezależną grupującą wykorzystamy w analizie wieloczynnikową analizę wariancji w schemacie mieszanym.

Testowanie założeń testów statystycznych

Wiele z testów obarczone jest założeniami jakie trzeba spełnić by w pełni zaufać wynikom. Jeżeli dane nie spełniają wymagań czasami nie warto upierać się przy parametrycznym poziomie testowania. Złe dopasowanie do danych daje nam nietrafne interpretacje i prowadzić może do błędnych wniosków. Niżej zebrano podstawowe założenia jakimi obarczone mogę być testy statystyczne, które należy sprawdzić analizą danych. Przyjrzymy się równoliczności grup, rozkładzie normalnemu, jednorodności wariancji oraz sferyczności danych.

 

Równoliczność osób badanych w grupach

Niezależnie od tego ile mamy grup badanych, liczba osób w tychże grupach powinna być podobna. Nie jest problemem ocena kiedy mamy 50 kobiet i 50 mężczyzn. Jednak znacznie częściej spotkać się możemy z sytuacją, kiedy mamy stosunek nieidealnie równy. Szczególnie widoczne będzie to w modelach bardziej rozbudowanych, wielozmiennowych gdzie każda „celka” (podgrupa) może charakteryzować się zupełnie inną liczebnością.

By mieć pewność, że liczba osób w każdej grupie jest podobna wykorzystamy test niezależności chi-kwadrat. Porównanie wartości oczekiwanej do otrzymanej w każdej grupie pozwoli na wnioski.

Otrzymany wynik dla istotność

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Różnica między liczebnością otrzymaną a oczekiwaną jest istotna. Założenie złamane. Grupy nie są równoliczne.

p > 0,05

Wynik nieistotny

Różnica między liczebnością otrzymaną a oczekiwaną nie jest istotna. Założenie spełnione. Grupy są równoliczne.

Wynik nieistotny dla testu niezależności chi-kwadrat jest tym oczekiwanym i mówi o tym, że liczba osób w grupach jest podobna.

UWAGA. Zdarza się, że wartością oczekiwaną nie jest idealny stosunek 50/50. W badaniach społecznych czasami wykorzystuje się metody doboru badanych skupiające się na odwzorowaniu struktury populacji w próbie. Jeżeli w danej populacji jest 70% kobiet w naszym badaniu gdzie brało udział 100 osób powinniśmy zadbać by udział brało 70 kobiet. Tak by stosunek kobiet do mężczyzn był taki sam (lub zbliżony) w populacji jak i w próbie.

Co zrobić jeżeli założenie nie zostało spełnione:

1) Wyrównać liczbę poprzez losowe usunięcie liczby osób z grupy o większej liczebności lub dobadać osoby do grupy o mniejszej liczebności. Zmienia to jednak przebiega badania o zwiększa liczbę zmiennych niekontrolowanych w badaniu. Dobór celowy (czyli szukanie tylko takich osób, które pasują do jednej, mniej licznej grupy) może znacznie ograniczyć możliwości generalizacji wyników;

2) Zastosować rodzaj testowania nieparametrycznego;

Jeżeli liczba osób w grupie nie jest jedynym z założeń sprawdź ścieżkę wyboru testu statystycznego

 

Normalność rozkładu

Oceniając zmienne, reszty czy różnice między zmiennymi w kontekście normalności rozkładu mamy dwie możliwości oceny zmiennej ilościowej. W ocenie dopasowania rozkładu zmiennych ilościowych do krzywej Gausa wykorzystać możemy test Shapio-Wilk oraz Kołmogorow-Smirnow. Pierwszy z nich wykorzystamy kiedy mamy małą liczbę obserwacji mniej niż sto (n < 100). Kołmogorow-Smirnow będzie lepszy w ocenie prób powyżej 100 obserwacji (n > 100). Warto pamiętać, że kiedy oceniamy rozkład zmiennej w grupach to liczba osób w danej grupie sugeruje konieczność odpowiedniego testu, a nie liczba wszystkich osób w badaniu. Kiedy mamy 160 osób w całym badaniu, ale oceniamy rozkład zmiennej w grupach np. 80 kobiet i 80 mężczyzn to sięgniemy po test Shapiro-Wilk, ponieważ w każdej z grup jest mniej niż 100 obserwacji. Jak interpretować wyniki testów rozkładu?

Otrzymany wynik dla istotność

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Brak normalności rozkładu. Założenie złamane.

p > 0,05

Wynik nieistotny

Jest rozkład normlany. Założenie spełnione.

W przypadku kiedy test normalności rozkładu jest istotny statystycznie nasza zmienna nie pokrywa się z rozkładem normalnym. Założenie jest złamane. Co robić?

1) Pogodzić się z tym, że zmienna nie przyjmuje rozkładu normalnego i wykorzystać testy nieparametryczny, które odporne są na takie problemy;

2) Ocenić przypadki nietypowe i odstające. Na wykresie skrzynkowym (ramka-wąsy) oceniamy czy są przypadki nietypowe. Ich wynik może zaburzać rozkład. Możemy je usunąć z badania i sprawdzić czy poprawiło to rozkład. Przypadki skrajne mogą sugerować np. nierzetelnie wypełniony test;

3) Podjąć się próby zmian wyników np. logarytmizacji zmiennej. Takie działania  mogą poprawić rozkład.

Jeżeli rozkład nie jest jedynym z założeń sprawdź ścieżkę wyboru testu statystycznego.

 

Jednorodność wariancji

Założenie to jest ważne, gdyż jego ocena przesunie kierunek poszukiwania zależności post hoc. Grupa testów parametrycznych zakłada istnienie równej zmienności w obrębie grup. Jednorodność wariancji mówi o podobnym zróżnicowaniu zmiennej zależnej. Do oceny tego wykorzystamy test jednorodności wariancji Levene’a.

Otrzymany wynik dla istotność

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Różnie w zmienności wyników są znaczne. Brak jednorodności wariancji. Założenie złamane.

p > 0,05

Wynik nieistotny

Różnie w zmienności wyników są nieznaczne. Jest jednorodności wariancji.. Założenie spełnione.

Oczekujemy wyniku nieistotnego. Potwierdza on jednorodność wariancji. Wiele testów np. test T Studenta dla danych niezależnych jest odporny na złamanie tego założenia. Test ANOVA czy test T posiadają poprawki na złamanie tego założenia. W przypadku braku jednorodności wariancji:

1) Sięgamy po testy nieparametryczne jeżeli złamane zostały pozostałe założenia;

2) Wykorzystujemy wartość testu z poprawką na niejednorodne wariancje.

Jeżeli jednorodność wariancji nie jest jedynym z założeń sprawdź ścieżkę wyboru testu statystycznego.

 

Sferyczność danych

Kiedy jednorodność wariancji oraz rozkład normalny nie mogę w pełni oddać zróżnicowania między pomiarami wykorzystuje się założenie sferyczności danych. Dane sferyczny są, kiedy różnie pomiędzy wszystkimi pomiarami są jednakowo zróżnicowane. Do oceny sferyczności wykorzystuje się test W Mauchly’ego.

Otrzymany wynik dla istotność

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Istotne zróżnicowanie różnic między pomiarami. Założenie złamane. Brak sferyczności.

p > 0,05

Wynik nieistotny

Różnica zróżnicowania między pomiarami nie jest istotna. Założenie spełnione. Dane są sferyczne.

Kiedy wynik jest istotne – założenie jest złamane. Możemy w tej sytuacji:

1) wykorzystać wartości testu F z poprawkami (dolnej granicy epsilon, G-G, H-F);

2) sięgnąć po nieparametryczny test.

Jeżeli sferyczność nie jest jedynym z założeń sprawdź ścieżkę wyboru testu statystycznego. 

Nieparametryczne współczynniki korelacji

Brak spełnienia założeń normalności rozkładu czy jakościowy charakter zmiennych zmusza czasami badacza do wykorzystania innych korelacji niż R Pearsona. Niżej opisano wybrane przykłady współczynników korelacji.

 

Korelacja rangowa Rho Spearmana

Brak rozkładu normalnego dla danych zmusza do zastąpienia korelacji r Pearsona korelacjami rho Speramana. Czasami nazywany współczynnikiem korelacji rang, współczynnik rho poprzez działania na porządkowanych wynikach (rangowanych) niweluje wpływ braku rozkładu normlanego oraz przypadków odstających na wynik. Dodatkowo stosowany być może dla zmiennych interwałowych i przedziałowych jak podaję niektórzy autorzy.

Kiedy nie może zastosować współczynnika R Pearsona ze względu na rozkład zmiennych lub skale pomiaru przedziałową sięgamy po korelacje rangową Rho Spearmana. Jest ona nieparametrycznym odpowiednikiem współczynnika R. W swoim wzorze wykorzystuje rangi wyników a nie wartości surowe, co redukuje problemy z rozkładem oraz wynikami skrajnymi/odstającymi.

W interpretacji jest on taki sam współczynnik R. Przyjmuje wartości od -1 do 1 a jego siłę ocenia się zgodnie z poniższą tabelą.

0,0 – 0,30

Brak, bardzo słaba korelacja

0,31 – 0,50

Umiarkowana korelacja

0,51 – 0,70

Silna korelacja

0,71 – 1,00

Bardzo silna korelacja

Podobnie jak współczynnik R oceniamy siłę i kierunek korelacji rangowej Rho. W przykładowym raporcie zapiszemy: „W odpowiedzi na pytanie badawcze wykorzystano współczynnik korelacji rangowej rho Spearmana. Wyniki pokazały, że w badanej grupie istnieje związek lęku i pewności siebie (rho = -0,59; p = 0,008). Związek ten jest ujemny i silny. Oznacza, to wraz ze wzrostem lęku poziom pewności siebie maleje.” Jak zawsze ważna jest dbałość o standardy zapisu danych.

Kiedy jednak mamy małą liczbę obserwacji n < 10 oraz kiedy jest duża liczba rang wiązanych warto współczynnik rho zastąpić analizą tau-b. 

 

Korelacja tau-b Kendalla

Znacznie rzadziej wykorzystywany a nadal pomocny współczynnik Kendalla, tak jak Rho Spearmana bazuje na rangach wyników, jednak jest bardziej odporny na rangi wiązane. Rangi wiązane to takie same wartości rangowe. Współczynnik tau-b wykorzystamy kiedy w bazie danych znajdziemy dużo przypadków rang wiązanych (inaczej kiedy uporządkowanie jest słabe) lub liczba obserwacji jest bardzo mała n < 10. Warto sięgnąć po niego także kiedy liczba kategorii zmiennych porządkowych mieście się w przedziale 5-10 kategorii. Jego interpretacja jest taka sama jak współczynnika R  czy Rho.

 

Korelacja tau-c Kendalla

Podobnie jak tau-b, ten współczynnik służy do oceny związków dla zmiennych porządkowych. Warto po niego sięgnąć kiedy liczba kategorii zmiennych jest inna np. dla jednej zmiennej mamy skalę 10-cio stopniową, a dla drugiej jedynie 3 stopniową.

 

Współczynnik Gamma

Dość rzadko stosowany i niepolecany ponieważ ignorować może on rangi wiązane (co dla małej liczby kategorii może być ważne). Stosuje się go kiedy liczba kategorii zmiennych jest mniejsza niż 5. Inaczej skala pomiaru to mniej niż 5 stopni zmiennej przedziałowej (np. wykształcenie: 1) podstawowe; 2) średnie; 3) wyższe).

 

Współczynnik eta

Wykorzystywany kiedy jedna zmienna jest ilościowa a druga nominalna o dowolnej liczbie kategorii. Jego wyniki określa rozmiar zmienności (wariancji) wyjaśnianej poprzez przynależność, dopasowanie do kategorii. Normalność rozkładu zmiennej ilościowej nie jest wymagana.

 

Korelacja dwuseryjna

Sprowadzenie zmiennej ilościowej do postaci nominalnej, dychotomicznej, czyli przyjmującej dwie wartości. W tym przypadku ważne są dwie kwestie:

1) zmienna dychotomiczna musi być sztucznie zdychotomizowana to znaczy nie występuję w takiej formie „normalnie”. Wyniki IQ zamienić można na te powyżej i poniżej średniej. W taki sposób zmienną ilościową dychotomizujemy;

2) druga zmienna ilościowa – musi mieć rozkład normalny.

 

Korelacja punktowo-dwuseryjna

Podobna sytuacja jak opisana wyżej jednak zmienne nominalna jest z natury dychotomincza. To znaczy u podstaw jej tworzenia nie ma pewnego kontinuum. Taką zmienną będzie płeć, która naturalnie przyjmuje dwie wartości. Innym przykładem jest wynik testu/pytania ankiety: Tak vs Nie.

 

Phi Yule’a, C kontyngencji i V Cramera

Zdarzać będą się sytuacje kiedy analizie związku chcemy poddać zmienne jakościowe. Wykorzystamy do tego korelacje wskazane korelacje. Phi wykorzystamy kiedy zmienne mają jedynie 2 wartości (np. płeć), dla tabel 2×2. Współczynnik C kontyngencji będzie wykorzystywany tak jak phi z tą różnicą, że zmienne mogę mieć więcej kategorii, lecz nadal musi być to równa liczba kategorii. V Cramera posłuży do oceny związków o planach niesymetrycznych, kiedy zmienne jakościowe mogą przyjmować więcej różną liczbę kategorii. Przykłady planów badawczych:

Współczynnik

Plan

Przykładowy schemat planu

Phi Yule’a

2×2

 

Płeć

Kobieta

Mężczyzna

Zgoda

Tak

N1

N2

Nie

N3

N4

 

C kontyngencji

3×3

 

Wzrost

Niski

Przeciętny

Wysoki

Wykształcenie

Podstawowe

N1

N2

N3

Średnie

N4

N5

N6

Wyższe

N7

N8

N9

 

V Cramera

2×4

 

Płeć

Kobieta

Mężczyzna

Wykształcenie

Podstawowe

N1

N2

Zawodowe

N3

N4

Średnie

N5

N6

Wyższe

N7

N8

 

Ograniczeniem w stosowaniu tych dwóch metod analiz jest stawianie wniosków i interpretacja. Warto pamiętać, że analizy te w dalszym ciągu są jedynie analizami związku i tylko w takich kategoriach powinny być oceniane. Widząc związek płci z podejmowaniem decyzji nie można wnioskować o wpływie płci na kierunek decyzji, nawet jeżeli związek ten będzie bardzo silny.

 

Współczynnik d Sommersa

Uznawany za współczynnik niesymetryczny. Może zastąpić regresję liniową, co wymaga zdefiniowania co jest zmienną zależna i niezależną. Brak tego skutkować będzie różnymi wynikami. Działanie A na B będzie dawało inny wynik niż działania B na A. Tak jak w regresji trzeba ustalić (najlepiej za teorią), która zmienna to zmienna zależna. Współczynnik ten można obliczyć dla „słabszych skal” (innych niż ilościowe).

 

Podsumowanie

Istnieje wiele metod analizy związku. Jeżeli Twoje zmienne nie posiadają rozkładu normalnego, jeżeli ich pomiar nie jest ilościowy nadal możesz określić związek między nimi. Sięgnąć trzeba jednak po odpowiedni współczynnik. Jaki współczynnik wybrać może sprawdzić tutaj.

Nawet ten opis nie wyczerpuje złożonego świata analizy korelacji. Kwestie korelacji cząstkowych, korelacji wielokrotnych, semiczątkowych czy stosunków korelacyjny eta dla związków krzywoliniowych zostaną omówione tutaj.

Nieparametryczne testy różnic

Mimo starań podjętych w procesie zbierania danych zdarza się, że żadne zabiegi nie pomagają w spełnieniu założeń do testów parametrycznych. Nie powinno to jednak generować myśli o tym, że badanie jest złe a praca bez wartości. W takich sytuacjach trzeba zastąpić test jego odpowiednikiem ze świata testów nieparametrycznych.

Testy parametryczne

Odpowiadające im testy nieparametryczne

Test T Studenta dla danych niezależnych

Test U Manna-Whitney’a

Test T Studenta dla danych zależnych

Test kolejności par Wilcoxona

Jednoczynnikowa analiza wariancji w schemacie międzygrupowym

Test H Kruskala-Wallisa

Jednoczynnikowa analiza wariancji w schemacie wewnątrzgrupowym (powtarzany pomiar)

Jednoczynnikowa analiza wariancji Friedmana

 

Test U Manna-Whitney’a

Wykorzystywany jest do oceny różnic między dwiema niezależnymi grupami. Warto sięgnąć po ten test szczególnie kiedy brak jest równej liczby osób w grupach oraz kiedy rozkłady danych w grupach znacznie różnią się od normlanego. Test U swój wynik opiera na uporządkowanych (inaczej rangowych) wynikach.

Interpretując wynik testu trzeba zauważyć, że poziom istotności, jak zawsze informuje nas o odrzuceniu lub przyjęciu hipotezy. W przykładowym raporcie zapisać możemy: „Analiza testem U Manna-Whitney’a pokazała, że grupa kobiet (Mrank = 79,5; Me = 12) w porównaniu do grupy mężczyzn (Mrank = 62,25; Me = 9) osiąga zdecydowanie wyższe wyniki ugodowości, U = 1450,500; p = 0,011; rg = 0,49. Siła tego efektu jest duża”. Istotny wynik testy będzie sugerował znacznie wyższy wynik w jednej z grup.

Trzeba zauważyć, że dla grupy testów nieparametrycznych bardziej adekwatne będzie podawanie wartości średnich rang i mediany niżeli średniej arytmetycznej i odchylenia standardowego. Powodem tego jest fakt, iż grupa testów nieparametrycznych swoje wzoru opierana na rangach wyników i to je ze sobą porównuje.

 

Test kolejności par Wilcoxona

Sytuacja dwóch pomiarów, danych zależnych, przy niespełnionych założeniach to szansa na wykorzystanie testu Wilcoxona. Podobnie jak pozostałe testy z tej grupy wykorzystuje w swoim wzorze rangi dodatnie i ujemne powstałe poprzez różnice miedzy rangami pomiarów. Stosunek rang dodatnich i ujemnych tworzył będzie część wartości statystyki testu.

Otrzymując wyniki może w raporcie zapisać: „W analizie testem kolejności par Wilcoxona okazało się, że badana grupa osiąga w drugim pomiarze (Mrank = 35,32; Me = 6) w porównaniu z pierwszym (Mrank = 29,98; Me = 4) znacznie wyższe wyniki zdolności poznawczych, z = 2,356; p = 0,035, rc = 0,12”. Przy formułowaniu raportu trzeba pamiętać o odpowiednim zapisie. Istotny wynik testu mówi o znacznej przewadze wartości jednego z pomiarów.

 

Test H Kruskala-Wallisa

Bardziej rozbudowane porównania, niż analizy dla dwóch grup, także mogą sprawiać kłopoty ze spełnieniem założeń. Dla porównań 3 i więcej grup alternatywą dla jednoczynnikowej analizy wariancji jest test H Kruskala-Wallisa. Nieparametryczny test, tak samo jak poprzednie wykorzystuje wartości rangowe.

W ocenie testu zapisać możemy: „Analiza testem H Kruskala-Wallisa wykazała, że istnieje istotna różnica w poziomie samooceny między grupami heteroseksualnymi, homoseksualnymi i biseksualnymi, χ2(2) = 4,985; p = 0,002, ε2 = 0,29”. Podobnie jak przy wyniku ANOVA taki wynik sugeruje jedynie istotne zróżnicowanie między grupami. Dokładnych porównań parami należy poszukiwać w analizie post hoc przy wykorzystaniu np. porównań wielokrotnych lub testu Dunna. Dopiero wynik testu z analizą post hoc jest pełną odpowiedzią.

 

Jednoczynnikowa analiza wariancji Friedmana

Sytuacja powtarzanego pomiaru, czyli wielokrotnego badania tej samej grupy osób, danych zależnych. Złamanie założeń powoduje konieczność wykorzystania analizy Friedmana. Dla 3 i więcej pomiarów.

Sam wynik jak w przypadku innych analiz skupionych na porównanie 3 i więcej grup/pomiarów mówi o różnicach między nimi. Szczegółowych informacji warto poszukiwać w analizie post hoc. W zapisie wyników możemy wykazać, że: „Jednoczynnikowa analiza wariancji Friedmana pokazała, że wyniki pomiarów przed treningiem, 5 minut po treningu i 20 minut po treningu różnią się istotnie w badanej grupie, χ2(2) = 23,771; p < 0,001, W = 0,48.” Wsparcie takiego wniosku analiz post hoc, gdzie porównaniem każdy z każdym przyjrzymy się wynikom pomiarów będzie pełnym przedstawieniem wyników.

Podsumowanie

Grupy testów nieparametrycznych dają podobne możliwości do porównań czy analiz jak testy parametryczne. Złamanie założeń nie oznacza braku możliwości przeprowadzenia wnioskowania statystycznego. Wybranie, w momencie braku spełnienia pewnych wymagań, jednego z testów opisanych wyżej, może okazać się lepsze dla wyników. Będzie dodatkowo trafniejsze dla wniosków. Decyzja związana z wyborem drogi wnioskowania statystycznego jest elementem pracy i świadectwem dojrzałości metodologicznej badacza. Nie można więcej tego lekceważyć. Jaki test wybrać możesz sprawdzić tutaj.

Korelacje – współczynnik R Pearsona

Wiele modeli badawczych i stawianych w nich pytaniach badawczych zawiera słowa związek. Współzmienność, związek czy korelacja zmiennych to sytuacja kiedy zmianie wartości jednej zmiennej towarzyszy zmiana wartości drugiej zmiennej.

Współczynnik korelacji R Pearsona

Do oceny związku zmiennych najczęściej wykorzystywanym jest współczynnik korelacji R Pearsona.

Założenia

Jak większość parametrycznych metod analizy danych współczynnik R obarczony jest koniecznością spełnienia pewnych założeń

Współczynnik

Założenie

Sposób testowania założenia

R Pearsona

1. Pomiar ilościowy zmiennych

2. Normalność rozkładu zmiennych

Test Shapiro-Wilk lub Kołmogorow-Smirnow

3. Związek liniowy zmiennych

Wykres rozrzutu

Zmienne współwystępujące (bo tak określa się je w modelu korelacyjnym) mierzone muszą być na skali ilościowej (najlepiej stosunkowej). Oraz charakteryzować się rozkładem normalnym ocenianym testem Shapiro-Wilk lub Kołmogorow-Smirnow. Ostania, ale równie ważna kwestia liniowości związku. Współczynnik R dać może źle oszacowany wynik kiedy ocenić będziemy chcieli związek nieliniowy. Analizie trzeba poddać wykres rozrzutu zmiennych by wykluczyć możliwość istnienia związków nieliniowych.

Trzeba też zaznaczyć, że w przypadku złamania założenia normalności rozkładu, który nie wykazuje skrajnie dużych wartości skośności i kurtozy możemy zastosować współczynnik R Pearsona, jeżeli mamy w badaniu więcej niż 50 osób (n > 50).

Interpretacja

Oceniając korelacje patrzymy na trzy rzeczy. Oceniamy jej istotność. Tutaj cieszy nas wynik istotny statystycznie (p < 0,05) bo to oznacza, że istnieje związek między zmiennymi. Później sprawdzamy statystykę r. Statystyka r może przyjmować wartości od -1 do 1. Ujemny wynik r mówi, że związek jest ujemny, czyli kiedy jedna zmienna rośnie, druga maleje. Inaczej wzrost jednej wartości wiąże się, że spadkiem drugiej. Przykładem związku ujemnego może być korelacja liczby wizyt i dentysty oraz bólu zęba. Kiedy rośnie liczba wizyt poziom bólu będzie malał. Kiedy r jest dodatnie korelacja jest dodatnia. Jak jedna zmienna rośnie, druga także wzrasta. Kiedy rośnie liczba godzin nauki poświęcona na statystykę rośnie ocena z przedmiotu. Ostatnią rzeczą jest ocena siły korelacji.

0,0 – 0,30

Brak, bardzo słaba korelacja

0,31 – 0,50

Umiarkowana korelacja

0,51 – 0,70

Silna korelacja

0,71 – 1,00

Bardzo silna korelacja

Niezależnie od kierunku związku możemy zinterpretować jego siłę zgodnie z powyższym podziałem i zapisać przykładowy raport wyników: „Do odpowiedzi na pytanie badawcze wykorzystano współczynnik korelacji R Pearsona. Analiza pokazała, że związek między intymnością a komunikacją jest istotny statystycznie (r = 0,76; p < 0,001). Związek jest bardzo silny i dodatni, co oznacza, że kiedy rośnie wynik intymności w badanej grupie, wzrastał będzie także wynik komunikacji.” Warto upewnić się, że zapis wyników spełnia wymagania standardów.

Złamane założenia

Często możemy spotkać się z sytuacją kiedy złamano założenia normalności rozkładu, a liczba badanych nie pozwala na wykorzystanie współczynnika R. Podobnie ważne kwestie w naukach społecznych dotyczą związków zmiennych innych niż ilościowe. Co jeśli chcemy wykazać korelacje między zmiennymi jakościowymi?

Musimy w takich sytuacjach sięgnąć po nieparametryczne współczynniki korelacji takie jak Rho Speramana czy V Cramera, o których więcej przeczytać można tutaj. Jeżeli nie jesteś pewny jaki współczynnik wybrać sprawdź podpowiedzi na ścieżce wyboru współczynnika korelacji.

Jednoczynnikowa analiza wariancji

Pojęcie ogólne i kryjące pod sobą cały zestaw analiz, procedur i zróżnicowanych modeli badawczych. Analiza wariancji jest jednak często wykorzystywaną metodą porównania trzech i więcej grup/pomiarów. Dlaczego lepsza jest niż seria testów T Studenta? Porównanie trzech grup można przecież wykonać porównując każdą z każdą w parach? Można, ale co w sytuacji kiedy grup będzie więcej? Dla 4 grup to już konieczność wykonania 6 porównań, a dla 7 grup analiz potrzebujemy aż 21. Każdy pomiar to wzrost przedziału prawdopodobieństwa odrzucania hipotezy zerowej, co w efekcie zwiększa znacząco błąd I rodzaju.

Dlatego już na początku XX wieku sir Ronald Fischer opracował metodę analizy wariancji, która eliminuje powyższe problemy. Analiza wariancji w znaczącym uproszeniu to stosunek zróżnicowania międzygrupowego i wewnątrzgrupowego. Opisanie modeli wieloczynnikowej czy nawet dwuczynnikowej analizy wariancji przekracza objętość tego opracowania.

W tym miejscu przyjrzymy się dokładniej jednoczynnikowym analizom wariancji w schematach międzygrupowym i wewnątrzgrupowym

Schemat międzygrupowy

Zmienna niezależna jakościowa posiadające 3 lub więcej wartości

Jednoczynnikowa analiza wariancji w schemacie międzygrupowym

Schemat wewnątrzgrupowy

Zmienną niezależna są tutaj warunki kolejnych 3 lub więcej pomiarów

Jednoczynnikowa analiza wariancji z powtarzanym pomiarem

 

Jednoczynnikowa analiza wariancji w schemacie międzygrupowym

Najprostszym przykładem tego rodzaju analizy jest ocena 3 grup w poziomie zmiennej zależnej.

Założenia

Jak każde narzędzie parametryczne posiada określone założenia, jakie trzeba spełnić by w pełni zaufać wynikom analizy i unikać błędów w interpretacji.

Test

Założenie

Sposób testowania założenia

Jednoczynnikowa analiza wariancji w schemacie międzygrupowym

1. Pomiar ilościowy zmiennej zależnej

2. Zmienna niezależna minimum 2 wartości (2 grupy niezależne)

3. Normalność rozkładu w grupach

Test Shapiro-Wilk lub Kołmogorow-Smirnow

4. Jednorodność wariancji

Test Levene’a

5. Równoliczność osób w grupach

Test niezależności chi-kwadrat

Spełnienie wymagań analizy wariancji pozwala na jej wykonanie. Dokładnie wskazane testowania założeń może czytelnik znaleźć tutaj.

Co jeśli nie uda się spełnić założeń analizy wariancji. W takiej sytuacji sięgnąć warto po nieparemetryczny odpowiednik analizy wariancji czyli test H Kruskala-Wallisa. Jeżeli złamane zostało założenie jednorodności wariancji możemy wynik ANOVY odczytać dla testu Welch lub Brown-Forsythe. Wyniki te opatrzone są korektą dla takich danych.

Interpretacja

Analiza wariancji jest kilku etapowa by w pełni odpowiedzieć na pytania badawcze. Pierwszy z nich to testowanie założeń opisany wyżej. Kolejnym krokiem jest ocena wyniku testu analizy wariancji. W przykładowym raporcie zapiszemy, że: „Analiza z wykorzystaniem jednoczynnikowej analizy wariancji w schemacie międzygrupowym wykazała, że istnieją różnice w poziomie samooceny między nauczycielami kontraktowymi, mianowanymi i dyplomowanymi, F(2, 148) = 14,567; p < 0,05, η2 = 0,14”.

Z wyniku analizy wariancji wiemy tylko, że między 3 grupami są różnice. To ważna wiadomość, ale bez dalszych porównać, to wiadomość niepełna. W trzecim etapie musimy wykonać analizę post hoc lub zdefiniować kontrasty (omówione niżej).

 

Analiza post hoc

Kontrasty

Wynik testu F

Wynik ANOVY musi być istotny.

Wynik ANOVY nie musi być istotny

Stosowanie

Dla hipotez niekierunkowych. Są różnice ale nie wiemy, która grupa ma wyższy wynik.

Dla hipotez kierunkowych. Potrafimy wskazać, która grupa w porównaniu z którą osiągnie wyższy wynik.

Ograniczenia

Wiele testów do wyboru drogi wnioskowania.

Możemy wykonać k-1 analiz kontrastu, gdzie k = liczba grup.

Decyzja o wyborze dalszej drogi wiąże się z pewnymi ograniczeniami dla wyników. Liczba kontrastów jest ograniczona, ale można ją stosować przy nieistotnym wyniku F. Analiza post hoc jest bardziej kompleksowa, ale mnogość testów jakie można wybrać czasami generuje błędy. By tego uniknąć poniżej zaprezentowano najpopularniejsze testy post hoc. Test bardziej liberalny może uznać małe różnice za ważne – generując w tym miejscu szansę na błąd I rodzaju. Testy konserwatywne będą potrzebowały znacznej różnicy w pomiarze by uznać dane wyniki za istotne – jest to problem związany z błędem II rodzaju. Dlatego by mieć pewność, warto sięgać po więcej niż jeden test. Wykorzystać liberalny i konserwatywny. Jeżeli ich wyniki będą podobne możemy mieć pewność co do różnic, oraz braku popełnionego błędu.

Test

Podejście

Informacja

Najmniejszej Istotnej Różnicy (NIR)

Liberalny

Najbardziej liberalny test. Bez poprawki na liczbę porównań. Lepiej stosować kiedy małą liczbę grup. Podobny jest do przeprowadzenia kilku testów t.

S-N-K

Liberalny

Zawiera poprawkę na porównania wielokrotne.

Bonferroni

Liberalny

Bardziej konserwatywny niże powyższe. Zawiera poprawkę na liczbę porównań. Najlepszy do małej liczby porównań. Najczęściej wykorzystywany.

Tukey

Konserwatywny

Stosowany przy dużej liczby porównań. Jego odmiana stosowana jest także przy nierównolicznych grupach.

Scheffe

Konserwatywny

Bardzo konserwatywny test. Generuje ryzyko błędu II rodzaju.

Gabriel

Konserwatywny

Pomocny kiedy rozkład zmiennych jest zaburzony oraz kiedy mamy nierównoliczne grupy

Games-Harell

Konserwatywny

Stosowany w przypadku nie spełnienia założenia jednorodności wariancji. Dla małych i  nierównolicznych grup.

T2 Tamhane’a

Konserwatywny

Stosowany w przypadku nie spełnienia założenia jednorodności wariancji. Bardzo konserwatywny.

Najczęściej wybieranym jest test Bonferroniego. Zaleca się jednak dla uzyskania maksymalnej pewności zestawić wyniki testu liberalnego i konserwatywnego. Dobrym wyjściem jest pokazanie wyników testu Bonferroniego i Scheffe’a.

 

Jednoczynnikowa analiza wariancji z powtarzanym pomiarem

Podobieństwo do testu T Studenta dla danych zależnych jest tutaj oczywiście. Ale tak samo jak dla modeli międzygrupowych nie można w takie prosty sposób wykonać kilka testów T.

W sytuacji, kiedy mamy 3 lub więcej pomiarów wykorzystać warto analizę wariancji z powtarzanym pomiarem.

Założenia

Przed interpretacją wyniku samej analizy trzeba zastanowić się czy dane spełniają wymagane założenia.

Test

Założenie

Sposób testowania założenia

Jednoczynnikowa analiza wariancji w schemacie wewnątrzgrupowym

1. Pomiar ilościowy zmiennej zależnej

2. Sferyczność danych

Test W Mauchly’ego

3. Taka sama skala pomiaru dla obu zmiennych

Ważniejsze niż rozkład zmiennych, niż rozkład każdego pomiaru, jest tutaj sferyczność danych. Sferyczność oznacza, że zróżnicowanie różnic między pomiarami jest podobne. By ocenić sferyczność danych wykonuje się test W Mauchly’ego

W Mauchly’ego

Wniosek

Interpretacja

p < 0,05

Wynik istotny

Istotne zróżnicowanie różnic między pomiarami. Założenie złamane. Brak sferyczności.

p > 0,05

Wynik nieistotny

Różnica zróżnicowania między pomiarami nie jest istotna. Założenie spełnione. Dane są sferyczne.

            Spełnienie założeń pozwala na zaufanie do wyniku ANOVY. Co jeśli nie możemy wykorzystać modelu analizy wariancji. Dla wyników jakie mają trudności uzyskaniu sferyczności, a dla konserwatywnego podejścia także dla normalności rozkładów, warto wykorzystać nieparametryczny odpowiednik – jednoczynnikową analizę wariacji Friedmana. Jeżeli złamane zostało założenie sferyczności danych jednoczynnikowa analiza wariancji z powtarzanym pomiarem pozwala na wykorzystanie pewnych poprawek. Poprawka ta nazywa się epsilonem i ingeruje w wynik stopni swobody. Mamy do wyboru 3 możliwe poprawki:

Konserwatywny

——————————->

Dolna granica epsilon

Greenhouse’a-Geissera

Huynha-Feldta

    

Najmniej polecany „dolna granica epsilon” – mocno konserwatywny test, nakłada dużą poprawkę. Jeżeli testy G-G oraz H-F są istotne warto zaraportować wynik testu G-G (jest bardziej konserwatywny). Jednak jeżeli istotny jest tylko test H-F, w wynikach opisać można tylko jego wartości. Warto także wspomnieć dla pełnego obrazu modelu, że pozostałe testy/poprawki okazały się nieistotne. Czasami jednak złamane założenia będą zmuszały do wykorzystania nieparametrycznego odpowiednika – jednoczynnikowej analizy wariancji Friedmana.

Interpretacja

Wyniki modelu z powtarzanym pomiarem trzeba oceniać etapowo: 1) założenia, 2) wynik modelu oraz 3) analiza post hoc lub kontrasty. Istotny wynik mówi jedynie o różnicach między pomiarami. Ale którymi? Do tego należy wykorzystać analizę post hoc lub kontrasty. Testy post hoc opisane wyżej także tutaj mają swoje zastosowanie (i ograniczenia) podobnie jak kontrasty.

 

Model wielozmiennowy

Co jeśli mamy powtarzane pomiary ale w różnych grupach? Jak połączyć model zewnątrzgrupowym z modelem wewnątrzgrupowym? Czy warto liczyć je osobo? MANOVA jest odpowiedzią na te pytania. Wieloczynnikowa analiza wariacji w schemacie mieszanym jest bardzo dobrym narzędziem w ocenie wyników, której podstawowy opis można znaleźć tutaj. Przy wyborze odpowiedniego testu pomocna może być ścieżka wyboru testu.