Kryteria dobroci testu
Czy efektywne jest mierzyć linijką drogę na księżyc lub odległości między atomami? W obu przypadkach pomiar będzie błędny. W pierwszym policzymy do milimetra trasę na księżyc, jednak koszt takiego pomiaru i związane z nim problemy sprawią, że będzie on mało pomocny. W drugim narzędzie okaże się zbyt mało dokładne i czułe by wychwycić tak delikatne przerwy. Wybór narzędzia w każdym badaniu jest więc bardzo ważną sprawą. Powinien być przemyślany tak by za jego pomocą udało się spełnić cel badania. Wybrane narzędzie powinno być także jak najlepsze. Ale co to oznacza? Kiedy kwestionariusz czy ankieta jest w psychologii lepszy od innego? Jakie ma cechy i jakie spełnia kryteria?
Te wskazane kryteria nazywają się kryteriami dobroci testu. Spełnienie ich sprawia, że narzędzie, test może być uznany za pomoc naukową. Dobry test jest zatem:
Zaadaptowany
Proces adaptacji nie jest łatwy. Wieloetapowy i uwzględniający wiele aspektów. Najczęściej kojarzony (i słusznie) z adaptacją językową. Przełożenie narzędzia anglojęzycznego wymaga od badacza zamiany języka w taki sposób by nowe, polskie treści jak najlepiej odpowiadały tym oryginalnym. Ale czy zawsze jest to najlepszy zabieg? Ważna będzie także adaptacja kulturowa. Możemy próbować mierzyć funkcjonowanie społeczne liczbą godzin spędzonych na Instagramie czy Facebooku, ale nawet bardzo dobrze przetłumaczone zdanie na język wykorzystywany przez Sentinelczyków nie będzie stanowić dobrej adaptacji.
W procesie adaptacji należy pamiętać o kryteriach równoważności zaproponowanych przez Drwala1:
a) równoważności fasadowej – narzędzie w swojej budowie wizualnej powinno być podobne do oryginału. Podobna (taka sama) liczba pytań, skala odpowiedzi, instrukcja i przykłady, te same kolory i układ arkusza;
b) równoważność funkcjonalna – narzędzie mierzy podobne aspekty, wykorzystywane jest do tych samych celów;
c) wierność tłumaczenia – podobna trudność słów i zdań oraz ich struktura. Podobna treść pytań;
d) równoważność psychometryczna – podobne wyniki rzetelności i trafności, podobne wyniki korelacji i interkorelacji, podobne wariancje i moc dyskryminacyjna pytań;
e) wierność rekonstrukcji – podobna procedura badania, rodzaj norm, etapy konstrukcji testu, sposoby testowania psychometrii i podobieństwo grup normalizacyjnych.
Adaptacja kulturowa nie dotyczy tylko przenoszenia językowego, ale także poprawy narzędzi na znanym już gruncie. Małe dziecko może nie wiedzieć co to jest dyskietka oraz do czego służy kabel w dawnych telefonach stacjonarnych, a mimo to jego poziom wiedzy i umiejętności związanych z technologią może być duży. Oznacza to, że narzędzie do pomiaru takiego obszaru należy zaadaptować do nowych czasów.
Adaptacja językowa to nie tylko tłumaczenie, ale także dostosowanie słownictwa do poziomu odbiorcy, jego trudności np. kiedy badamy dzieci.
Możliwe problemy: Co jeżeli wybierzemy test, który zawiera źle przetłumaczone i zbyt trudne językowo zadania?
Standaryzowany
Wyróżniona przez Brzezińskiego2 jako pierwsza właściwość dobrego testu. Standaryzacja to ujednolicony proces wykorzystania testu. Oznacza ten sam schemat pracy z testem. Czas wykonania, w zadaniach ograniczonych limitem, musi być taki sam dla każdego. Sposób wykonania (papier-ołówek vs. internet) musi być zgodny dla badanych. Instrukcja przygotowana dla ankiety, testu musi być dla wszystkich taka sama, a więc musi być jasno określona dla autora, który przed przeprowadzeniem badania musi się z nią dobrze zapoznać. Instrukcje dla pomiarów samoopisowych zazwyczaj informują jedynie o sposobie udzielania odpowiedzi, ale każdy student psychologii spotkał się z bardziej rozbudowanymi sposobami przeprowadzania badania (WISC-R czy WAIS czy inne skale inteligencji oparte o zadania do wykonania), gdzie prawidłowe przeprowadzenie pomiaru wymaga wiedzy i niekiedy praktyki. Standaryzacja to także jednolity sposób obliczania wyników prezentowany w kluczu. Musi on zawierać informacje o sposobie punktowania wypowiedzi, zadań, czy sposobione dodawania zakreślonych znaków X w kratkach. Wystandaryzowany test zapewnia więc tę samą procedurę badania poprzez instrukcje oraz ten sam system punktowania opisany w kluczu, co pozwala na porównywanie wyników.
Możliwe problemy: Co jeżeli wybierzemy test, który nie ma jednolitego sposóbu obliczania wyników? Jak porównać wyniki? Jak ocenić uzyskany wynik?
Obiektywny
Najczęstsze i najprostsze wyjaśnienie: dwóch badaczy dokonuje pomiaru tym samym narzędziem na tej samej osobie; Jeżeli po opracowaniu wyników dojdą do tej samej konkluzji test będzie obiektywny. Co oznacza, że procedura badania powinna być nie tylko jasno przedstawiona ale i nie powinna być niepotrzebnie skomplikowana.
Trafny
Mierzący to do czego został stworzony. Trafny test jest w stanie osiągnąć stawiane mu cele. Trafność pokazuje relację między koncepcją psychologiczną a wykorzystanymi wskaźnikami. Pokazuje jak dobra była operacjonalizacja pojęć. Zobacz tutaj jakie są metody oceny trafności narzędzia oraz czym jest analiza czynnikowa. Wyróżnić możemy kilka rodzajów trafności:
a) Treściowa – inaczej wewnętrzna, logiczna. To zakres w jakim dane pozycje testowe reprezentują uniwersum pozycji, w jaki sposób treść testu stanowi próbę dziedziny, czy zachowania z zadania są reprezentatywne dla zachowań w badanej sferze. Najczęściej oceniany za pomocą sędziów kompetentnych, którzy wnioskują o tym czy wszystkie pozycje testowe należą do zdefiniowanego uniwersum oraz czy test proporcjonalnie reprezentuje zdefiniowane uniwersum. W etapach pracy nad narzędziem należy usunąć te pytania, itemy, zadania, które w analizę trafności treściowej wypadały najgorzej. Trafność fasadowa – inne niż treściowa – to ocena tego co wydaje się badanym, że test który wykują mierzy. Trafność fasadowa może mieć związek na przykład z motywacją do udziału badaniu.
b) Kryterialna – ocena skuteczności testu w diagnozowaniu i prognozowaniu działania jednostki. Trafność kryterialna to próba wnioskowania o przypuszczalnej pozycji badanego względem innych (populacji). Ocena w jakim stopniu wyniki badanego są powiązane z inną zmienną, zewnętrzną w stosunku do tego testu (kryterium). Najczęściej jest to współczynnik korelacji między wynikami nowego narzędzia a innym testem lub testami stanowiącymi kryterium.
c) Teoretyczna – ocena w jakim stopniu narzędzie odzwierciedla daną cechę, konstrukt. Ocena związku między teorią z narzędziem. Najczęściej w ocenie wykorzystuje się analizy czynnikowe (konfirmacyjny lub eksploracyjne), analizy macierzy korelacji (aspekt zbieżności oraz różnicowy) i/lub różnic międzygrupowych (np. w poszukiwaniu różnic w zachowaniu kobiet i mężczyzn).
Możliwe problemy: Co jeżeli wybierzemy test, który mierzy aspekt emocjonalny postawy a w pracy wnioskujemy o aspekcie behawioralnym?
Rzetelny
Inaczej dokładność, powtarzalność pomiarów. Oznacza także zgodność wyników i niezawodność narzędzia. Wyróżnimy kilka rodzajów rzetelności:
a) Wiarygodność – pewność, niezawodność. W ocenie metodą test-retest wyniki będą podobne (najlepiej takie same). Badanie następuje bez odstępu czasowego (AA).
b) Konsystencja – jednorodność, spójność, zwartość. Ocena czy narzędzie jest jednorodne i spójne. Metody badania: zastosowanie dwóch równoległych wersji bez przerwy czasowej (AB), badanie dwiema połówkami tego samego testu (1/2A1/2A), analiza związku każdego pytania z wynikiem ogólnym (aA), analiza zgodności wewnętrznej. Ten ostatni jest najczęściej wykorzystywany dzięki łatwości oceny poprzez współczynnik Alfa Cronbacha.
c) Stabilność – niezmienność, stałość wyników w czasie. Stabilność bezwzględna w ocenie dwukrotnym badaniem tym samym testem z odstępem czasowym (A_A). Stabilność względna w ocenie badania dwoma wersjami narzędzia w odstępem czasowym (A_B).
d) Koncesyjność – ocena zgodności sędziów. Mówi o obiektywności ocen. Najczęściej analiza korelacji ocen sędziów. Mają zastosowanie głównie w testach z pytaniami otwartymi, testami projekcyjnymi gdzie sposób obliczania wyników nie jest jednoznaczny.
Możliwe problemy: Co jeżeli wybierzemy test, który jest mało dokładny i w każdym pomiarze daje inne wyniki? Czy nasze wnioski w pracy będą wartościowe?
Znormalizowany
Posiadający normy, możliwość odniesienia wyniku badanego do populacji do jakiej należy. Co oznacza wynik surowy 30 punktów? To wysoki wynik czy niski? Nie wiemy tego dopóki nie przekształcimy tego wyniku na skale standaryzowane: steny, centyle, tetrony, staniny, skalę IQ… Dopiero po tym wniosek o wysokości uzyskanego wyniku będzie prawidłowy. Wartości wyników znormalizowanych tworzy się w procesie walidacji narzędzia, gdzie dla danej populacji (układu odniesienia) badacze określają jakie wyniki są typowe (inaczej: powszechne, masowe, zgodne z oczekiwaniami i zasadami, często występujące). Nie mówimy tu o wynikach dobrych i złych a jedynie o typowych dla danej populacji. Norma stanowi ilościowy standard wyznaczony przez wybraną statystykę tendencji centralnej, które odpowiada typowemu zachowaniu.
Możliwe problemy: Co jeżeli wybierzemy test, który ma normy z poprzedniego wieku lub został znormalizowany dla grupy dorosłych a my badamy nastolatków?
Podsumowanie
Poruszone tutaj zagadnienia są opisane ogólnie. Pamiętać trzeba jednak, że każde dobre narzędzie w psychologii powinno spełniać wskazane wyżej punkty. Metody obliczania wskazanych aspektów psychometrii można znaleźć tutaj.
PS. Ankieta własna to także narzędzie pomiaru. Powinno zatem spełniać przynajmniej kilka z wymienionych wyżej aspektów.
1 Drwal. R. Ł., (1995). Adaptacja kwestionariuszy osobowości. Warszawa: Wydawnictwo naukowe PWN. s. 20.
2 Brzeziński. J., (2004). Metodologia badań psychologiczny. Warszawa: Wydawnictwo Naukowe PWN. s. 527.
Masz pytania? Zadzwoń lub napisz!
Może zainteresuje Cię także:
Arkadiusz Prajzner
Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.
METODOLOGIA
STATYSTYKA
SŁOWNIK
DODATKOWE