Skip to content

Metody oceny trafności

            Jednym z najważniejszych kryteriów testu jest jego trafność. Powinna zostać ona oceniona by mieć pewność, że narzędzie jakim się posługujemy (w badaniu, diagnozie, pomiarze) mierzy rzeczywiście te cechy jakie powinno mierzyć. Ocena trafności będzie szeregiem metod analizy danych pozwalających ustalić czy narzędzie mierzy to, do czego zostało stworzone.

            Wyróżnia się wiele metod oceny trafności w zależności od aspektu trafności jaki chcemy ocenić oraz rodzaju danych (ilościowe – jakościowe) jakie zbieramy w pomiarze nim. Niżej zostaną wskazane wybrane elementy analizy trafności.

 

Trafność treściowa

            Więcej o jej definicji można zobaczyć tutaj. By ocenić jak pozycje, itemy naszego narzędzia pasuje do kryterium, definicji. By ocenić jak bardzo są reprezentatywne dla danego uniwersum wykorzystuje się najczęściej Sędziów Kompetentnych. Sędziowie (każdy osobno) oceniają każdy z pytań/itemów narzędzia wskazując czy jest użyteczna, czy odnosi się do kryterium i jak bardzo jest reprezentatywna. Współczynnik trafności treściowej CVR może być do oceny tego aspektu dobrym rozwiązaniem. Wyrażony jest on wzorem:

gdzie: ne – liczba sędziów uznająca pozycję, item testu na zasadniczy i ważny dla testu, N – ogólna liczba sędziów. Skala pomiaru oraz liczba sędziów może spowodować pewne ograniczenia w wyborze metody oceny. Możemy w takich przypadkach wykorzystać pokazane niżej współczynniki

            Współczynniki pi (π) Scotta oraz kappa (κ) Fleissa ocenia się jak odsetek zgodnych kategoryzacji. Wykorzystuje się je kiedy skala pomiaru jest nominalna (dwie wartości i więcej). Współczynniki osiągają wartości od -1,00 (całkowita niezgodność) do +1,00 (całkowita zgodność). Zero będzie tu oznaczać zgodność na poziomie przypadku. Wadą współczynnika Scotta jest jego duża konserwatywność.

            Dwóch sędziów i skala nominalna (o dwóch wartościach) to możliwość wykorzystania współczynnika kappa (κ) Cohena. Podobnie jak wyżej zakres współczynnika to od -1,00 do +1,00 a jego interpretacja jest taka sama.

            Współczynnik alfa (α) Krippendorfa może być uznany za najbardziej uniwersalny współczynnik zgodności. Nie ma ograniczeń dla skali pomiaru ani liczby sędziów. Podobnie przyjmuje wartości od -1,00 do +1,00 z taką samą interpretacją.

            Kiedy praca sędziów polega na porządkowaniu obiektów dla jakiejś hierarchii lub skala pomiaru jest porządkowa wykorzystać można współczynnik W Kendalla. By to zrobić należy wykorzystać więcej niż trzech sędziów kompetentnych a pomiar musi być na skali porządkowej. Wyniki wahają się w przedziale od 0,00 (zupełny brak zgodności) do 1,00 (całkowita zgodność). Wyniki mniejsze niż 0,40 uznać warto za niewystarczające. Przedział 0,40-0,59 to wyniki zadowalające, 0,60-0,80 ocenić można jako dobre a wyniki powyżej 0,80 jako bardzo dobre.

 

Trafność kryterialna

            Jego definicja szerzej opisana jest tutaj. Oceniając w jakim stopniu wynik testu odnosi się do przyjętego kryterium możemy wykorzystać najprostszą analizę korelacji, poddając analizie związku wyniki naszego testu z kryterium zewnętrznym. Kryterium to jakieś zachowanie lub właściwość. Przykładem może być ocena nasilenia depresyjnego (w naszym narzędziu) z obecnością diagnozy psychiatrycznej. Oczekujemy, że posiadanie diagnozy depresji będzie się wiązało z uzyskaniem wyższych wyników w naszym teście. Nasze kryterium zewnętrzne musi być także dobrze dobrane, rzetelne (co oczywiście jest pracochłonne).

 

Trafność teoretyczna

            Ponownie więcej o jej definicji można przeczytać tutaj. Ten aspekt trafności powinien nam pokazać pozycję osoby badanej na kontinuum konstruktu jakiego dotyczy test. Mamy tutaj wiele możliwości:

  1. Analiza różnic międzygrupowych. Sprawdzamy w jaki sposób różnią się grupy o różnej płci, wieku, zawodu, wykształcenia lub innych ważnych zmiennych np. rodzaju zaburzenia czy historii choroby. W analizie wykorzystać możemy analizę wariancji, testy t Studenta czy ich nieparametryczne odpowiedniki.
  2. Analiza macierzy korelacji – Macierz wielu cech – wielu metod. Pomiar korelacji wyników naszego narzędzia z innymi znanymi już pomiarami. Oczekiwać będziemy, że odnotujemy wysoką korelację z testami i pomiarami, które mierzą podobne aspekty. Będzie to potwierdzenie, że oba narzędzia mierzą podobny aspekt. Słaba korelacje lub jej brak pokażą, że cecha jaką powinien mierzyć nasz test nie jest do końca zgodna z tym co zakładaliśmy (jest nietrafny). Dodatkowo będziemy oczekiwać bardzo słabej (lub nawet ujemnej) korelacji z testami mierzącymi zupełnie inne obszary. Jeżeli tworzymy narzędzie do oceny lęku możemy oczekiwać dodatnich korelacji z wybranymi obszarami neurotyczności ale już braku korelacji np. z narzędziem oceny inteligencji. W zależności od skali pomiaru mogą być tutaj wykorzystane współczynniki korelacji Pearsona, Spearmana, Cramera czy chi-kwadrat (najczęściej jest to r Pearsona).
  3. Analiza czynnikowa. W ocenie struktury narzędzie wybierzemy eksploracyjną analizę czynnikową oraz konfirmacyjną analizę czynnikową. Służą one do wskazania lub ustalenia struktury czynnikowej. Jej wyniki pokażą czy nasze narzędzie składa się z tylu skali, czynników jak zakładaliśmy. Model E wykorzystamy kiedy nie zakładamy, nie przewidujemy konkretnej liczby czynników. Eksplorujemy wyniki jak mówi nazwa by zobaczyć czy narzędzie jest jedno-czynnikowe czy może wielo-czynnikowe. Model K służył nam będzie kiedy chcemy potwierdzić konkretną liczbę czynników. Przykładem może być test osobowości. Tworzymy narzędzie, ankietę, test, który ma mierzyć trzy cechy osobowości: ekstrawersję, neurotyzm i psychotyzm. Wiemy, które pytania naszego testu odpowiadają ekstrawersji a które psychotyzmowi i neurotyzmowi. W analizie szukamy potwierdzenia, że trój-czynnikowa struktura testu jest poprawna. Analizy czynnikowe są najczęściej wykorzystywanymi metodami dlatego szczegółowo zostały opisana tutaj.
  4. Analiza zmian nieprzypadkowych. Jest to ocena dwóch pomiarów tym samym narzędziem tej samej grupy osób. Między tymi pomiarami wprowadzamy jednak jakąś manipulację eksperymentalną. Oczekujemy, że to manipulacja (o ile jest dobrze zaplanowana) wykaże zmiany między pomiarami, a trafne narzędzie będzie w stanie to różnice odnotować w swoim wyniku.
  5. Analiza procesu. Ocenie podlega tutaj proces rozwiązywania testu. Ma to szczególne znaczenie dla metod oceny wiedzy, umiejętności czy aspektów poznawczych. Obserwujemy, oceniamy kolejność pozycji i ich znaczenie dla wyniku. Jeżeli dziecko otrzyma na samym początku testu inteligencji bardzo trudne zadania, których nie wykona, jego zainteresowanie dalszym badaniem obniży się (nie wspominając o jego pewności siebie i samoocenie). Trudność zadań, ich kolejność, powinny być przemyślane i nieprzypadkowe. W tym miejscu mamy do czynienia także z pewną oceną subiektywnej oceny badanych. Możemy odnotować, które pytania są niejasne, nieprecyzyjne.

 

Wyniki i wątpliwości

            Co jeśli po zrobieniu badania okażę się, że nasza ankieta nie jest trafna? Nie ma takich skali jak oczekiwaliśmy, nie mierzy do końca depresji (słaba korelacja np. ze Skalą Depresji Becka) lub sędziowie nie są zgodni co do reprezentatywności jej itemów. Budowa narzędzia to proces. Bardzo często jest to proces wieloetapowy, długi. Rzadko kiedy pierwsza wersja jest od razu najlepsza. Warto usuwać pytania, itemy; Dodawać nowe; Testować je.

            No ale co jeśli tworzymy narzędzie do pracy magisterskiej i nie mamy 2 lat by zbudować narzędzia? Rozwiązania mamy dwa:

  1. Badania pilotażowe, które potraktować możemy jako próbę (próbę dla narzędzia) i po tym badaniu modyfikować narzędzie przed pomiarem głównym.
  2. Dokładamy wszelkich starań, rozważamy każdy przecinek i każde słowo, każdy pytanie i każdą odpowiedź, konsultujemy ankietę, zastanawiamy się jakie ma dawać wyniki, co ma mierzyć i podejmujemy pewne ryzyko. Jeżeli narzędzie nie powstanie na kolanie dzień przed badaniem i dołożymy starań w jego opracowaniu ryzyko to będzie małe.

Gorbaniuk. O., (2016). Wykorzystywanie procedury sędziów kompetentnych w naukach społecznych i możliwości jej oceny psychometrycznej za pomocą narzędzie dostępnych w Statistica. StatSoft Polska.

Tranowski, A., Fronczyk, K., (2009). Trafność pomiaru testem. (W:) K. Fronczyk. (red.) Psychometria. Podstawowe zagadnienia (s. 111-159). Warszawa: Wyższa szkoła finansów i zarządzania w Warszawie.

Masz pytania? Zadzwoń lub napisz!

Może zainteresuje Cię także:

Arkadiusz Prajzner

Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.