Nieparametryczne współczynniki korelacji
Brak spełnienia założeń normalności rozkładu czy jakościowy charakter zmiennych zmusza czasami badacza do wykorzystania innych korelacji niż R Pearsona. Niżej opisano wybrane przykłady współczynników korelacji.
Korelacja rangowa Rho Spearmana
Brak rozkładu normalnego dla danych zmusza do zastąpienia korelacji r Pearsona korelacjami rho Speramana. Czasami nazywany współczynnikiem korelacji rang, współczynnik rho poprzez działania na porządkowanych wynikach (rangowanych) niweluje wpływ braku rozkładu normlanego oraz przypadków odstających na wynik. Dodatkowo stosowany być może dla zmiennych interwałowych i przedziałowych jak podaję niektórzy autorzy.
Kiedy nie może zastosować współczynnika R Pearsona ze względu na rozkład zmiennych lub skale pomiaru przedziałową sięgamy po korelacje rangową Rho Spearmana. Jest ona nieparametrycznym odpowiednikiem współczynnika R. W swoim wzorze wykorzystuje rangi wyników a nie wartości surowe, co redukuje problemy z rozkładem oraz wynikami skrajnymi/odstającymi.
W interpretacji jest on taki sam współczynnik R. Przyjmuje wartości od -1 do 1 a jego siłę ocenia się zgodnie z poniższą tabelą.
0,0 – 0,30 | Brak, bardzo słaba korelacja |
0,31 – 0,50 | Umiarkowana korelacja |
0,51 – 0,70 | Silna korelacja |
0,71 – 1,00 | Bardzo silna korelacja |
Podobnie jak współczynnik R oceniamy siłę i kierunek korelacji rangowej Rho. W przykładowym raporcie zapiszemy: „W odpowiedzi na pytanie badawcze wykorzystano współczynnik korelacji rangowej rho Spearmana. Wyniki pokazały, że w badanej grupie istnieje związek lęku i pewności siebie (rho = -0,59; p = 0,008). Związek ten jest ujemny i silny. Oznacza, to wraz ze wzrostem lęku poziom pewności siebie maleje.” Jak zawsze ważna jest dbałość o standardy zapisu danych.
Kiedy jednak mamy małą liczbę obserwacji n < 10 oraz kiedy jest duża liczba rang wiązanych warto współczynnik rho zastąpić analizą tau-b.
Korelacja tau-b Kendalla
Znacznie rzadziej wykorzystywany a nadal pomocny współczynnik Kendalla, tak jak Rho Spearmana bazuje na rangach wyników, jednak jest bardziej odporny na rangi wiązane. Rangi wiązane to takie same wartości rangowe. Współczynnik tau-b wykorzystamy kiedy w bazie danych znajdziemy dużo przypadków rang wiązanych (inaczej kiedy uporządkowanie jest słabe) lub liczba obserwacji jest bardzo mała n < 10. Warto sięgnąć po niego także kiedy liczba kategorii zmiennych porządkowych mieście się w przedziale 5-10 kategorii. Jego interpretacja jest taka sama jak współczynnika R czy Rho.
Korelacja tau-c Kendalla
Podobnie jak tau-b, ten współczynnik służy do oceny związków dla zmiennych porządkowych. Warto po niego sięgnąć kiedy liczba kategorii zmiennych jest inna np. dla jednej zmiennej mamy skalę 10-cio stopniową, a dla drugiej jedynie 3 stopniową.
Współczynnik Gamma
Dość rzadko stosowany i niepolecany ponieważ ignorować może on rangi wiązane (co dla małej liczby kategorii może być ważne). Stosuje się go kiedy liczba kategorii zmiennych jest mniejsza niż 5. Inaczej skala pomiaru to mniej niż 5 stopni zmiennej przedziałowej (np. wykształcenie: 1) podstawowe; 2) średnie; 3) wyższe).
Współczynnik eta
Wykorzystywany kiedy jedna zmienna jest ilościowa a druga nominalna o dowolnej liczbie kategorii. Jego wyniki określa rozmiar zmienności (wariancji) wyjaśnianej poprzez przynależność, dopasowanie do kategorii. Normalność rozkładu zmiennej ilościowej nie jest wymagana.
Korelacja dwuseryjna
Sprowadzenie zmiennej ilościowej do postaci nominalnej, dychotomicznej, czyli przyjmującej dwie wartości. W tym przypadku ważne są dwie kwestie:
1) zmienna dychotomiczna musi być sztucznie zdychotomizowana to znaczy nie występuję w takiej formie „normalnie”. Wyniki IQ zamienić można na te powyżej i poniżej średniej. W taki sposób zmienną ilościową dychotomizujemy;
2) druga zmienna ilościowa – musi mieć rozkład normalny.
Korelacja punktowo-dwuseryjna
Podobna sytuacja jak opisana wyżej jednak zmienne nominalna jest z natury dychotomincza. To znaczy u podstaw jej tworzenia nie ma pewnego kontinuum. Taką zmienną będzie płeć, która naturalnie przyjmuje dwie wartości. Innym przykładem jest wynik testu/pytania ankiety: Tak vs Nie.
Phi Yule’a, C kontyngencji i V Cramera
Zdarzać będą się sytuacje kiedy analizie związku chcemy poddać zmienne jakościowe. Wykorzystamy do tego korelacje wskazane korelacje. Phi wykorzystamy kiedy zmienne mają jedynie 2 wartości (np. płeć), dla tabel 2×2. Współczynnik C kontyngencji będzie wykorzystywany tak jak phi z tą różnicą, że zmienne mogę mieć więcej kategorii, lecz nadal musi być to równa liczba kategorii. V Cramera posłuży do oceny związków o planach niesymetrycznych, kiedy zmienne jakościowe mogą przyjmować więcej różną liczbę kategorii. Przykłady planów badawczych:
Współczynnik | Plan | Przykładowy schemat planu | |||||||||||||||||||||
Phi Yule’a | 2×2 |
| |||||||||||||||||||||
C kontyngencji | 3×3 |
| |||||||||||||||||||||
V Cramera | 2×4 |
|
Ograniczeniem w stosowaniu tych dwóch metod analiz jest stawianie wniosków i interpretacja. Warto pamiętać, że analizy te w dalszym ciągu są jedynie analizami związku i tylko w takich kategoriach powinny być oceniane. Widząc związek płci z podejmowaniem decyzji nie można wnioskować o wpływie płci na kierunek decyzji, nawet jeżeli związek ten będzie bardzo silny.
Współczynnik d Sommersa
Uznawany za współczynnik niesymetryczny. Może zastąpić regresję liniową, co wymaga zdefiniowania co jest zmienną zależna i niezależną. Brak tego skutkować będzie różnymi wynikami. Działanie A na B będzie dawało inny wynik niż działania B na A. Tak jak w regresji trzeba ustalić (najlepiej za teorią), która zmienna to zmienna zależna. Współczynnik ten można obliczyć dla „słabszych skal” (innych niż ilościowe).
Podsumowanie
Istnieje wiele metod analizy związku. Jeżeli Twoje zmienne nie posiadają rozkładu normalnego, jeżeli ich pomiar nie jest ilościowy nadal możesz określić związek między nimi. Sięgnąć trzeba jednak po odpowiedni współczynnik. Jaki współczynnik wybrać może sprawdzić tutaj.
Nawet ten opis nie wyczerpuje złożonego świata analizy korelacji. Kwestie korelacji cząstkowych, korelacji wielokrotnych, semiczątkowych czy stosunków korelacyjny eta dla związków krzywoliniowych zostaną omówione tutaj.
Masz pytania? Zadzwoń lub napisz!
Może zainteresuje Cię także:
Arkadiusz Prajzner
Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.
METODOLOGIA
STATYSTYKA
SŁOWNIK
DODATKOWE