Metody oceny trafności

            Jednym z najważniejszych kryteriów testu jest jego trafność. Powinna zostać ona oceniona by mieć pewność, że narzędzie jakim się posługujemy (w badaniu, diagnozie, pomiarze) mierzy rzeczywiście te cechy jakie powinno mierzyć. Ocena trafności będzie szeregiem metod analizy danych pozwalających ustalić czy narzędzie mierzy to, do czego zostało stworzone.

            Wyróżnia się wiele metod oceny trafności w zależności od aspektu trafności jaki chcemy ocenić oraz rodzaju danych (ilościowe – jakościowe) jakie zbieramy w pomiarze nim. Niżej zostaną wskazane wybrane elementy analizy trafności.

 

Trafność treściowa

            Więcej o jej definicji można zobaczyć tutaj. By ocenić jak pozycje, itemy naszego narzędzia pasuje do kryterium, definicji. By ocenić jak bardzo są reprezentatywne dla danego uniwersum wykorzystuje się najczęściej Sędziów Kompetentnych. Sędziowie (każdy osobno) oceniają każdy z pytań/itemów narzędzia wskazując czy jest użyteczna, czy odnosi się do kryterium i jak bardzo jest reprezentatywna. Współczynnik trafności treściowej CVR może być do oceny tego aspektu dobrym rozwiązaniem. Wyrażony jest on wzorem:

gdzie: ne – liczba sędziów uznająca pozycję, item testu na zasadniczy i ważny dla testu, N – ogólna liczba sędziów. Skala pomiaru oraz liczba sędziów może spowodować pewne ograniczenia w wyborze metody oceny. Możemy w takich przypadkach wykorzystać pokazane niżej współczynniki

            Współczynniki pi (π) Scotta oraz kappa (κ) Fleissa ocenia się jak odsetek zgodnych kategoryzacji. Wykorzystuje się je kiedy skala pomiaru jest nominalna (dwie wartości i więcej). Współczynniki osiągają wartości od -1,00 (całkowita niezgodność) do +1,00 (całkowita zgodność). Zero będzie tu oznaczać zgodność na poziomie przypadku. Wadą współczynnika Scotta jest jego duża konserwatywność.

            Dwóch sędziów i skala nominalna (o dwóch wartościach) to możliwość wykorzystania współczynnika kappa (κ) Cohena. Podobnie jak wyżej zakres współczynnika to od -1,00 do +1,00 a jego interpretacja jest taka sama.

            Współczynnik alfa (α) Krippendorfa może być uznany za najbardziej uniwersalny współczynnik zgodności. Nie ma ograniczeń dla skali pomiaru ani liczby sędziów. Podobnie przyjmuje wartości od -1,00 do +1,00 z taką samą interpretacją.

            Kiedy praca sędziów polega na porządkowaniu obiektów dla jakiejś hierarchii lub skala pomiaru jest porządkowa wykorzystać można współczynnik W Kendalla. By to zrobić należy wykorzystać więcej niż trzech sędziów kompetentnych a pomiar musi być na skali porządkowej. Wyniki wahają się w przedziale od 0,00 (zupełny brak zgodności) do 1,00 (całkowita zgodność). Wyniki mniejsze niż 0,40 uznać warto za niewystarczające. Przedział 0,40-0,59 to wyniki zadowalające, 0,60-0,80 ocenić można jako dobre a wyniki powyżej 0,80 jako bardzo dobre.

 

Trafność kryterialna

            Jego definicja szerzej opisana jest tutaj. Oceniając w jakim stopniu wynik testu odnosi się do przyjętego kryterium możemy wykorzystać najprostszą analizę korelacji, poddając analizie związku wyniki naszego testu z kryterium zewnętrznym. Kryterium to jakieś zachowanie lub właściwość. Przykładem może być ocena nasilenia depresyjnego (w naszym narzędziu) z obecnością diagnozy psychiatrycznej. Oczekujemy, że posiadanie diagnozy depresji będzie się wiązało z uzyskaniem wyższych wyników w naszym teście. Nasze kryterium zewnętrzne musi być także dobrze dobrane, rzetelne (co oczywiście jest pracochłonne).

 

Trafność teoretyczna

            Ponownie więcej o jej definicji można przeczytać tutaj. Ten aspekt trafności powinien nam pokazać pozycję osoby badanej na kontinuum konstruktu jakiego dotyczy test. Mamy tutaj wiele możliwości:

  1. Analiza różnic międzygrupowych. Sprawdzamy w jaki sposób różnią się grupy o różnej płci, wieku, zawodu, wykształcenia lub innych ważnych zmiennych np. rodzaju zaburzenia czy historii choroby. W analizie wykorzystać możemy analizę wariancji, testy t Studenta czy ich nieparametryczne odpowiedniki.
  2. Analiza macierzy korelacji – Macierz wielu cech – wielu metod. Pomiar korelacji wyników naszego narzędzia z innymi znanymi już pomiarami. Oczekiwać będziemy, że odnotujemy wysoką korelację z testami i pomiarami, które mierzą podobne aspekty. Będzie to potwierdzenie, że oba narzędzia mierzą podobny aspekt. Słaba korelacje lub jej brak pokażą, że cecha jaką powinien mierzyć nasz test nie jest do końca zgodna z tym co zakładaliśmy (jest nietrafny). Dodatkowo będziemy oczekiwać bardzo słabej (lub nawet ujemnej) korelacji z testami mierzącymi zupełnie inne obszary. Jeżeli tworzymy narzędzie do oceny lęku możemy oczekiwać dodatnich korelacji z wybranymi obszarami neurotyczności ale już braku korelacji np. z narzędziem oceny inteligencji. W zależności od skali pomiaru mogą być tutaj wykorzystane współczynniki korelacji Pearsona, Spearmana, Cramera czy chi-kwadrat (najczęściej jest to r Pearsona).
  3. Analiza czynnikowa. W ocenie struktury narzędzie wybierzemy eksploracyjną analizę czynnikową oraz konfirmacyjną analizę czynnikową. Służą one do wskazania lub ustalenia struktury czynnikowej. Jej wyniki pokażą czy nasze narzędzie składa się z tylu skali, czynników jak zakładaliśmy. Model E wykorzystamy kiedy nie zakładamy, nie przewidujemy konkretnej liczby czynników. Eksplorujemy wyniki jak mówi nazwa by zobaczyć czy narzędzie jest jedno-czynnikowe czy może wielo-czynnikowe. Model K służył nam będzie kiedy chcemy potwierdzić konkretną liczbę czynników. Przykładem może być test osobowości. Tworzymy narzędzie, ankietę, test, który ma mierzyć trzy cechy osobowości: ekstrawersję, neurotyzm i psychotyzm. Wiemy, które pytania naszego testu odpowiadają ekstrawersji a które psychotyzmowi i neurotyzmowi. W analizie szukamy potwierdzenia, że trój-czynnikowa struktura testu jest poprawna. Analizy czynnikowe są najczęściej wykorzystywanymi metodami dlatego szczegółowo zostały opisana tutaj.
  4. Analiza zmian nieprzypadkowych. Jest to ocena dwóch pomiarów tym samym narzędziem tej samej grupy osób. Między tymi pomiarami wprowadzamy jednak jakąś manipulację eksperymentalną. Oczekujemy, że to manipulacja (o ile jest dobrze zaplanowana) wykaże zmiany między pomiarami, a trafne narzędzie będzie w stanie to różnice odnotować w swoim wyniku.
  5. Analiza procesu. Ocenie podlega tutaj proces rozwiązywania testu. Ma to szczególne znaczenie dla metod oceny wiedzy, umiejętności czy aspektów poznawczych. Obserwujemy, oceniamy kolejność pozycji i ich znaczenie dla wyniku. Jeżeli dziecko otrzyma na samym początku testu inteligencji bardzo trudne zadania, których nie wykona, jego zainteresowanie dalszym badaniem obniży się (nie wspominając o jego pewności siebie i samoocenie). Trudność zadań, ich kolejność, powinny być przemyślane i nieprzypadkowe. W tym miejscu mamy do czynienia także z pewną oceną subiektywnej oceny badanych. Możemy odnotować, które pytania są niejasne, nieprecyzyjne.

 

Wyniki i wątpliwości

            Co jeśli po zrobieniu badania okażę się, że nasza ankieta nie jest trafna? Nie ma takich skali jak oczekiwaliśmy, nie mierzy do końca depresji (słaba korelacja np. ze Skalą Depresji Becka) lub sędziowie nie są zgodni co do reprezentatywności jej itemów. Budowa narzędzia to proces. Bardzo często jest to proces wieloetapowy, długi. Rzadko kiedy pierwsza wersja jest od razu najlepsza. Warto usuwać pytania, itemy; Dodawać nowe; Testować je.

            No ale co jeśli tworzymy narzędzie do pracy magisterskiej i nie mamy 2 lat by zbudować narzędzia? Rozwiązania mamy dwa:

  1. Badania pilotażowe, które potraktować możemy jako próbę (próbę dla narzędzia) i po tym badaniu modyfikować narzędzie przed pomiarem głównym.
  2. Dokładamy wszelkich starań, rozważamy każdy przecinek i każde słowo, każdy pytanie i każdą odpowiedź, konsultujemy ankietę, zastanawiamy się jakie ma dawać wyniki, co ma mierzyć i podejmujemy pewne ryzyko. Jeżeli narzędzie nie powstanie na kolanie dzień przed badaniem i dołożymy starań w jego opracowaniu ryzyko to będzie małe.

Gorbaniuk. O., (2016). Wykorzystywanie procedury sędziów kompetentnych w naukach społecznych i możliwości jej oceny psychometrycznej za pomocą narzędzie dostępnych w Statistica. StatSoft Polska.

Tranowski, A., Fronczyk, K., (2009). Trafność pomiaru testem. (W:) K. Fronczyk. (red.) Psychometria. Podstawowe zagadnienia (s. 111-159). Warszawa: Wyższa szkoła finansów i zarządzania w Warszawie.

Kryteria dobroci testu

Czy efektywne jest mierzyć linijką drogę na księżyc lub odległości między atomami? W obu przypadkach pomiar będzie błędny. W pierwszym policzymy do milimetra trasę na księżyc, jednak koszt takiego pomiaru i związane z nim problemy sprawią, że będzie on mało pomocny. W drugim narzędzie okaże się zbyt mało dokładne i czułe by wychwycić tak delikatne przerwy. Wybór narzędzia w każdym badaniu jest więc bardzo ważną sprawą. Powinien być przemyślany tak by za jego pomocą udało się spełnić cel badania. Wybrane narzędzie powinno być także jak najlepsze. Ale co to oznacza? Kiedy kwestionariusz czy ankieta jest w psychologii lepszy od innego? Jakie ma cechy i jakie spełnia kryteria?

Te wskazane kryteria nazywają się kryteriami dobroci testu. Spełnienie ich sprawia, że narzędzie, test może być uznany za pomoc naukową. Dobry test jest zatem:

Zaadaptowany

Proces adaptacji nie jest łatwy. Wieloetapowy i uwzględniający wiele aspektów. Najczęściej kojarzony (i słusznie) z adaptacją językową. Przełożenie narzędzia anglojęzycznego wymaga od badacza zamiany języka w taki sposób by nowe, polskie treści jak najlepiej odpowiadały tym oryginalnym. Ale czy zawsze jest to najlepszy zabieg? Ważna będzie także adaptacja kulturowa. Możemy próbować mierzyć funkcjonowanie społeczne liczbą godzin spędzonych na Instagramie czy Facebooku, ale nawet bardzo dobrze przetłumaczone zdanie na język wykorzystywany przez Sentinelczyków nie będzie stanowić dobrej adaptacji.

W procesie adaptacji należy pamiętać o kryteriach równoważności zaproponowanych przez Drwala1:

a) równoważności fasadowej – narzędzie w swojej budowie wizualnej powinno być podobne do oryginału. Podobna (taka sama) liczba pytań, skala odpowiedzi, instrukcja i przykłady, te same kolory i układ arkusza;

b) równoważność funkcjonalna – narzędzie mierzy podobne aspekty, wykorzystywane jest do tych samych celów;

c) wierność tłumaczenia – podobna trudność słów i zdań oraz ich struktura. Podobna treść pytań;

d) równoważność psychometryczna – podobne wyniki  rzetelności i trafności, podobne wyniki korelacji i interkorelacji, podobne wariancje i moc dyskryminacyjna pytań;

e) wierność rekonstrukcji – podobna procedura badania, rodzaj norm, etapy konstrukcji testu, sposoby testowania psychometrii i podobieństwo grup normalizacyjnych.

Adaptacja kulturowa nie dotyczy tylko przenoszenia językowego, ale także poprawy narzędzi na znanym już gruncie. Małe dziecko może nie wiedzieć co to jest dyskietka oraz do czego służy kabel w dawnych telefonach stacjonarnych, a mimo to jego poziom wiedzy i umiejętności związanych z technologią może być duży. Oznacza to, że narzędzie do pomiaru takiego obszaru należy zaadaptować do nowych czasów.

Adaptacja językowa to nie tylko tłumaczenie, ale także dostosowanie słownictwa do poziomu odbiorcy, jego trudności np. kiedy badamy dzieci.

Możliwe problemy: Co jeżeli wybierzemy test, który zawiera źle przetłumaczone i zbyt trudne językowo zadania?

Standaryzowany

Wyróżniona przez Brzezińskiego2 jako pierwsza właściwość dobrego testu. Standaryzacja to ujednolicony proces wykorzystania testu. Oznacza ten sam schemat pracy z testem. Czas wykonania, w zadaniach ograniczonych limitem, musi być taki sam dla każdego. Sposób wykonania (papier-ołówek vs. internet) musi być zgodny dla badanych. Instrukcja przygotowana dla ankiety, testu musi być dla wszystkich taka sama, a więc musi być jasno określona dla autora, który przed przeprowadzeniem badania musi się z nią dobrze zapoznać. Instrukcje dla pomiarów samoopisowych zazwyczaj informują jedynie o sposobie udzielania odpowiedzi, ale każdy student psychologii spotkał się z bardziej rozbudowanymi sposobami przeprowadzania badania (WISC-R czy WAIS czy inne skale inteligencji oparte o zadania do wykonania), gdzie prawidłowe przeprowadzenie pomiaru wymaga wiedzy i niekiedy praktyki. Standaryzacja to także jednolity sposób obliczania wyników prezentowany w kluczu. Musi on zawierać informacje o sposobie punktowania wypowiedzi, zadań, czy sposobione dodawania zakreślonych znaków X w kratkach. Wystandaryzowany test zapewnia więc tę samą procedurę badania poprzez instrukcje oraz ten sam system punktowania opisany w kluczu, co pozwala na porównywanie wyników.

Możliwe problemy: Co jeżeli wybierzemy test, który nie ma jednolitego sposóbu obliczania wyników? Jak porównać wyniki? Jak ocenić uzyskany wynik?

Obiektywny

Najczęstsze i najprostsze wyjaśnienie: dwóch badaczy dokonuje pomiaru tym samym narzędziem na tej samej osobie; Jeżeli po opracowaniu wyników dojdą do tej samej konkluzji test będzie obiektywny. Co oznacza, że procedura badania powinna być nie tylko jasno przedstawiona ale i nie powinna być niepotrzebnie skomplikowana.

Trafny

Mierzący to do czego został stworzony. Trafny test jest w stanie osiągnąć stawiane mu cele. Trafność pokazuje relację między koncepcją psychologiczną a wykorzystanymi wskaźnikami. Pokazuje jak dobra była operacjonalizacja pojęć. Zobacz tutaj jakie są metody oceny trafności narzędzia oraz czym jest analiza czynnikowa. Wyróżnić możemy kilka rodzajów trafności:

a) Treściowa – inaczej wewnętrzna, logiczna. To zakres w jakim dane pozycje testowe reprezentują uniwersum pozycji, w jaki sposób treść testu stanowi próbę dziedziny, czy zachowania z zadania są reprezentatywne dla zachowań w badanej sferze. Najczęściej oceniany za pomocą sędziów kompetentnych, którzy wnioskują o tym czy wszystkie pozycje testowe należą do zdefiniowanego uniwersum oraz czy test proporcjonalnie reprezentuje zdefiniowane uniwersum. W etapach pracy nad narzędziem należy usunąć te pytania, itemy, zadania, które w analizę trafności treściowej wypadały najgorzej. Trafność fasadowa – inne niż treściowa – to ocena tego co wydaje się badanym, że test który wykują mierzy. Trafność fasadowa może mieć związek na przykład z motywacją do udziału badaniu.

b) Kryterialna – ocena skuteczności testu w diagnozowaniu i prognozowaniu działania jednostki. Trafność kryterialna to próba wnioskowania o przypuszczalnej pozycji badanego względem innych (populacji). Ocena w jakim stopniu wyniki badanego są powiązane z inną zmienną, zewnętrzną w stosunku do tego testu (kryterium). Najczęściej jest to współczynnik korelacji między wynikami nowego narzędzia a innym testem lub testami stanowiącymi kryterium.

c) Teoretyczna – ocena w jakim stopniu narzędzie odzwierciedla daną cechę, konstrukt. Ocena związku między teorią z narzędziem. Najczęściej w ocenie wykorzystuje się analizy czynnikowe (konfirmacyjny lub eksploracyjne), analizy macierzy korelacji (aspekt zbieżności oraz różnicowy) i/lub różnic międzygrupowych (np. w poszukiwaniu różnic w zachowaniu kobiet i mężczyzn).

Możliwe problemy: Co jeżeli wybierzemy test, który mierzy aspekt emocjonalny postawy a w pracy wnioskujemy o aspekcie behawioralnym?

Rzetelny

Inaczej dokładność, powtarzalność pomiarów. Oznacza także zgodność wyników i niezawodność narzędzia. Wyróżnimy kilka rodzajów rzetelności:

a) Wiarygodność – pewność, niezawodność. W ocenie metodą test-retest wyniki będą podobne (najlepiej takie same). Badanie następuje bez odstępu czasowego (AA).

b) Konsystencja – jednorodność, spójność, zwartość. Ocena czy narzędzie jest jednorodne i spójne. Metody badania: zastosowanie dwóch równoległych wersji bez przerwy czasowej (AB), badanie dwiema połówkami tego samego testu (1/2A1/2A), analiza związku każdego pytania z wynikiem ogólnym (aA), analiza zgodności wewnętrznej. Ten ostatni jest najczęściej wykorzystywany dzięki łatwości oceny poprzez współczynnik Alfa Cronbacha.

c) Stabilność – niezmienność, stałość wyników w czasie. Stabilność bezwzględna w ocenie dwukrotnym badaniem tym samym  testem z odstępem czasowym (A_A). Stabilność względna w ocenie badania dwoma wersjami narzędzia w odstępem czasowym (A_B).

d) Koncesyjność – ocena zgodności sędziów. Mówi o obiektywności ocen. Najczęściej analiza korelacji ocen sędziów. Mają zastosowanie głównie w testach z pytaniami otwartymi, testami projekcyjnymi gdzie sposób obliczania wyników nie jest jednoznaczny.

Możliwe problemy: Co jeżeli wybierzemy test, który jest mało dokładny i w każdym pomiarze daje inne wyniki? Czy nasze wnioski w pracy będą wartościowe?

Znormalizowany

Posiadający normy, możliwość odniesienia wyniku badanego do populacji do jakiej należy. Co oznacza wynik surowy 30 punktów? To wysoki wynik czy niski? Nie wiemy tego dopóki nie przekształcimy tego wyniku na skale standaryzowane: steny, centyle, tetrony, staniny, skalę IQ… Dopiero po tym wniosek o wysokości uzyskanego wyniku będzie prawidłowy. Wartości wyników znormalizowanych tworzy się w procesie walidacji narzędzia, gdzie dla danej populacji (układu odniesienia) badacze określają jakie wyniki są typowe (inaczej: powszechne, masowe, zgodne z oczekiwaniami i zasadami, często występujące). Nie mówimy tu o wynikach dobrych i złych a jedynie o typowych dla danej populacji. Norma stanowi ilościowy standard wyznaczony przez wybraną statystykę tendencji centralnej, które odpowiada typowemu zachowaniu.

Możliwe problemy: Co jeżeli wybierzemy test, który ma normy z poprzedniego wieku lub został znormalizowany dla grupy dorosłych a my badamy nastolatków?

Podsumowanie

Poruszone tutaj zagadnienia są opisane ogólnie. Pamiętać trzeba jednak, że każde dobre narzędzie w psychologii powinno spełniać wskazane wyżej punkty. Metody obliczania wskazanych aspektów psychometrii można znaleźć tutaj.

PS. Ankieta własna to także narzędzie pomiaru. Powinno zatem spełniać przynajmniej kilka z wymienionych wyżej aspektów.

 

1 Drwal. R. Ł., (1995). Adaptacja kwestionariuszy osobowości. Warszawa: Wydawnictwo naukowe PWN.  s. 20.

2 Brzeziński. J., (2004). Metodologia badań psychologiczny.  Warszawa: Wydawnictwo Naukowe PWN. s. 527.  

Jak zadać pytanie by postawić hipotezę

Nawet dobrze przeprowadzone badanie, w którego zbieranie danych włożono maksymalnie dużo wysiłku może być przekreślone przez źle sformułowane pytania badawcze i hipotezy. Pytanie, które winno wynikać z celu i przedmiotu badania oraz hipoteza jaka powinna powstać na bazie prezentowanych teorii muszę być sformułowane przez dokonaniem analiz oraz (o czym często się zapomina) przez przeprowadzeniem badania.

Wiele opracowań i podziałów zarówno samych pytań jak i hipotez można spotkać w literaturze. W tym opracowaniu skupimy się jednak na aspektach związanych z pytaniami badawczymi oraz hipotezami w generowaniu analiz statystycznych do pracy. Zanim przejedziemy do tego jak powinno być sformułowane pytanie badawcze zastanówmy się czym ona jest.

 

Pytania badawcze

Pamiętać trzeba, że problem badawczy to pewne pytanie lub grupa pytań, na które odpowiedzi ma dostarczyć badanie. Problem badawczy może generować wiele pytań badawczych, a samo badanie może poszukiwać na nie wszystkie odpowiedzi. Pseudoproblem badawczy, to taki problem, którego nie da się rozstrzygnąć.

Bardzo ważne jest mieć na uwadze, że analiza jest odpowiedzią na pytanie badawcze i ma pomóc w ocenie czy hipotezę można uznać za prawdziwą. Dlatego trzeba już w momencie budowania pytania myśleć o tym, jakich analiz będzie ono wymagało. I tak myśląc o analizach może wyróżnić pytania badawcze:

· O związek – dotyczą one zależności, współliniowości między zmiennymi. Najczęściej zaczynają się od sformułowania „czy” i pytają o korelację, związek między zmiennymi. Czy istnieje związek liczby zjedzonych kawałków czekolady a poziomem endorfin? Czy istnieje korelacja między paleniem papierosów a poziomem wydolności płuc? Czy istnieje związek między poziomem ekstrawersji a fobią społeczną? Ta grupa pytań docelowo będzie skupiała się na analizie korelacji. Kwestia wybranego współczynnika zależy tutaj już od skal pomiaru, modelu badania i spełnionych założeń. Poszerzeniem tej grupy pytań mogą być pytania o model regresji, czyli niejako poszerzenie związku o możliwość przewidywania. W jakim stopniu liczba wypalonych w ciągu dnia papierosów może wyjaśniać poziom pojemności płuc? Tutaj jednak trzeba pamiętać o zależności między zmiennymi. W pytaniach o przewidywanie badacz zakłada co było pierwsze jajko czy kura, w tym przypadku palenie papierosów czy pojemność płuc. Jak złe byłoby pytanie: W jakim stopniu poziom pojemności płuc wyjaśnia ilości wypalonych w ciągu dnia papierosów? Zakładalibyśmy, że to od tego, jakie ktoś ma płuca zależy liczba wypalonych papierów. A chyba jest odwrotnie. Więcej o regresji można przeczytać tutaj.

· O różnice – często ta grupa pytań także zaczyna się sformułowania „czy” jednak dalej dotyczy różnic między grupami, pomiarami. Nie interesuje nas współwystępowanie, ale poziom różnic między wartościami. Czy kobiety i mężczyźni różnią się poziomem sumienności i otwartości? Czy poziom koncentracji jest wyższy u badanych po wypiciu kawy niż przed? Czy osoby o podstawowym, średnim i wyższym poziomie wykształcenia osiągają różne wyniki zakresu pamięci roboczej? Pytania te prowadzą do testów różnic, testów T, ANOVY czy ich nieparametrycznych odpowiedników.

· Eksploracyjne – pytania te dotyczą rozkładu wyników, wartości w grupie. Często stanowią jedynie dopełnienie bardziej rozległego problemu badawczego, lecz nadal mogą być ważne. Przykładem takich pytań może być: Jak wygląda poziom neurotyczności w badanej grupie osób uzależnionych od opioidów? Jak wygląda poziom zainteresowania kursami językowymi w grupie wiekowej 7-11 lat? Pytania te skupiają się na ocenie rozkładu. Czy przeważają wyniki wysoki czy niskie, czy jest duże czy małe zróżnicowanie wyników w grupie? Jaka jest jej miara tendencji centralnej? Do odpowiedzi wykorzystamy głównie opis statystyczny, ale także test chi-kwadrat może być pomocny. Pytania eksploracyjne ze względu na swój charakter mogą pozostawać bez odpowiedzi czyli bez hipotezy w pracy.

Poszukując wskazówek dotyczących pytań badawczych możemy zauważyć, że dobrze postawione pytanie badawcze jest:

· Jasne – jest zrozumiałe, nieskomplikowane bardziej niż wymaga to model badania i język. Zawiera sformułowania, do których obszar nauki nie ma zastrzeżeń. Warto posługiwać się jedynie pojęciami uznanymi już przez naukę. Dlatego zapytamy o pamięć roboczą a nie o to ile mieści się w głowie, dlatego, że jest to pojęcie znane nauce, w grupie specjalistów jest jasne, można je zmierzyć i nie jest zbyt ogólne (tak jak określenie: mieści się w głowie).

· Rozstrzygalne – za pomocą dostępnych metod pomiaru i dostępnej wiedzy i możliwości możemy znaleźć rozwiązanie. Można postawić w odpowiedzi na nie pewną hipotezę i przedstawić do tego konkretne wskaźniki. To jakie wskaźniki (ile i jak dobrych) zawiera w sobie pytanie badawcze jest kryterium jego dojrzałości.

 

Hipotezy

Oprócz pytań eksploracyjnych, pytania badawcze w pracy powinny mieć swoje hipotezy. Najważniejsze to, by pamiętać, że hipoteza jest odpowiedzią na pytanie. Nie można zapytać o związek między zmiennymi a postawić hipotezy o istnieniu różnic. Nie można w pracy zapytać o wpływ zmiennych a postawić hipotezy o związku (a w analizach przeprowadzić analizie różnic). Pytanie badawcze, hipoteza i analizy pozostają w nierozerwalnym związku.

Myśląc dalej o analizach postawić można hipotezy:

· Kierunkowe – przewidujemy w nich kierunek różnic czy zależności. Zakładamy, że to jedna grupa będzie miała wyższe wyniki lub, że związek będzie dodatni. Przykłady: Mężczyźni osiągają wyższe wyniki sumienności niż kobiety. Istnieje dodatni związek między liczbą zjedzonych kostek czekolady a poziomem endorfin. Warto pamiętać, że stawiając hipotezy kierunkowe w pracy podać trzeba przesłanki, czyli inne badania lub teorie pokazujące, że wybrany przez nas kierunek różnic czy zależności jest poprawny naukowo a nie jest jedynie wróżeniem z fusów. Przy hipotezach kierunkowych interesuje nas tylko ten konkretny kierunek. Jeżeli postawimy hipotezę, że grupa A ma wyższe wyniki niż grupa B, to wynik B>A nawet bardzo znaczny będzie podstawą by nie przyjąć hipotezy. Przy kierunkowych hipotezach możemy także ograniczyć obszar testowania hipotez do jednej strony rozkładu.

· Niekierunkowe – twierdzą o istnieniu pewnych zależności czy różnic, lecz nie podają jego kierunku. Kobiety i mężczyźni będą osiągali różne wyniki ekstrawersji (ale nie wiemy kto wyższe). Istnieje związek między sumiennością a ugodowością badanych chorych na stwardnienie rozsiane (ale nie wiem czy dodatni czy ujemny). Wskazania w nawiasach oczywiście nie stanowią części hipotezy. Dobrze tutaj także podpierać się przesłankami z literatury, badań czy teorii.

Dobra hipoteza zatem:

· Jest adekwatna do pytania – jest dokładną odpowiedzią na pytanie;

· Jest najprostszą odpowiedzią – im prościej sformułowana tym łatwiej ją sprawdzić;

· Jest rozstrzygalna – musi być sformułowana by można było ją przyjąć lub odrzucić;

· Powinna dawać możliwość szerszej generalizacji wniosków;

· Nie jest ani zbyto ogólna, ani zbyt szczegółowa;

· Jest empirycznie sprawdzalna – ogólniejsze hipotezy trudniej sprawdzić;

· Ma wysoką moc predyktywną – oznacza to, że oprócz opisu wyników potrafi przewidywać przyszłe wydarzenia.

Bez dbałości o powyższe, uda się postawić jedynie hipotezę nienaukową czyli taką, która znajduje swoje potwierdzenie jedynie w fakcie, do wyjaśniania którego została stworzona. Nie jest zdolna do przewidywania nowych faktów. Hipoteza powinna wynikać z problemu badawczego i być budowana na podstawie wiedzy i teorii prezentowanej w części teoretycznej opracowania.

 

Podsumowanie

Będąc świadomym istnienia wielu podziałów pytań badawczych na pytania rozstrzygnięcia o skończonej lub nieskończonej liczbie alternatyw, na pytania typu „czy” i „który”, w tym opracowaniu skupiono się jedynie na praktycznych wskazówkach dotyczących budowania w pracy pytań i hipotez. Garść porad dotyczących budowania tej części pracy:

1) Zadbaj by pytanie było dokładną odpowiedzią na pytanie.

2) Zastanów się czy masz możliwość zdania niektórych pytań, tak jak pytania o „wpływ” zmiennych <tutaj więcej informacji>.

3) Zastanów się jak mierzone są zmienne. W przypadku płci lepiej zapytać o różnice między nimi i wykorzystać prosty test T Studenta niże zapytać o związek i interpretować trudniejszy współczynnik korelacji punktowo-dwuseryjnej. Im prościej tym lepiej!

4) Ogranicz liczę pytań do głównych i kilku szczegółowych. Jeżeli Twoja praca to nie jest rozprawą doktorską i nie ma w niej 150 stron teorii więcej niż 6-8 pytań to za dużo. Prostota pytania to jego siła. Liczba konkretnych pytań to siła badania.

5) Metodologia badania powstaje PRZED wykonaniem badania i przed analizami, które są odpowiedzią na pytania badawcze.

Badanie to nie tylko eksperyment

W idealnym świecie badaczy istnieje możliwość przeprowadzenia eksperymentów związanych z każdym elementem życia psychicznego czy społecznego. Nie jest to jednak zawsze możliwe. Napotkamy na swojej drodze do modelu eksperymentalnego takie trudności jak: brak możliwości manipulacji zmienną niezależną, brak możliwości randomizacji czy powtórzonego pomiaru. Ze względów etycznych nie można badać funkcjonowania obszarów mózgu, następnie w grupie eksperymentalnej uszkodzić te obszary dokonując np. hemisferoktomii i ocenić w drugim pomiarze funkcjonowanie tych obszarów. Nie możemy wywołać traumy by ocenić jej wpływ na zasoby pamięci długotrwałej. Nadal jednak możemy badać te aspekty życia wykorzystując inne modele badań.

Każdy model ma swoje wady i zalety, każdy pozwala na inny stopień generalizacji i rodzaju wniosków. I mimo, że eksperyment w nauce jest tym do czego powinno się dążyć, to nigdy nie będzie on najczęściej wybieranym modelem badania, a o powodach tego szerzej można zobaczyć tutaj, gdzie przedstawiono model eksperymentalny E. Niżej opisano modele badań wykorzystywanych w naukach społecznych. Czym różni się quasi-eksperyment od model eksperymentalnego? Dlaczego model korelacyjny kryje w sobie więcej niż tylko analizę związku? Czym są modele ex post facto i co to jest model in situ.

Model quasi-eksperymentalny qE

Bardzo bliski (co sugerują nazwa) do modelu eksperymentalnego. Wymaga także kontroli i manipulacji zmiennymi. Różni się jednak brakiem randomizacji. W modelu tym badacz nie potrafi zupełnie losowo pogrupować badanych do grupy kontrolnych i eksperymentalnych. Będzie to pseudorandomizacja. Przykładem takiej sytuacji jest np. płeć badanych. Kiedy stanowi ona warunki badania nie mamy możliwości podzielić badanych w sposób losowy na kobiety i mężczyzn. Pozostałe elementy modelu E mają swoje zastosowanie. Dalej badacz kontroluje i manipuluje zmiennymi. Dokonuje ich pomiarów, lecz skazany jest na pseudrandomizacje.

Model quasi-eksperymentalny qE jak inne pozostałe jest wartościowym źródłem wniosków przy znajomości jego możliwości generalizacji. Jest znacznie częściej wykorzystywany niż model E. Ograniczona przed brak randomizacji trafność wewnętrzna oraz częściowe kłopoty z kontrolą nie dają szansy na ujęcie „czystego” wpływu czy ujęcia zmiennych w rozumowaniu przyczynowo skutkowym. Mniejsza trafność wewnętrzna, większa podatność na czynniki zakłócające to główne tego powodu oraz największe z wad tego modelu. Jako zalety wskazać trzeba znacznie łatwiejszy w planowaniu przebieg badania niż eksperyment. Wyniki takich badań nadal można generalizować znacznie szerzej niż opisany niżej model epf.

 

Model korelacyjny

Nie zawsze w pacy interesuje nas wpływ i związek przyczynowo skutkowy. Nie zawsze na gruncie teorii da się nawet wyróżnić co jest „jajkiem” a co „kurą”, czyli co jest pierwsze podczas oddziaływania. Czy to, że ktoś dużo czyta sprawia, że jest inteligentny czy to, że jest inteligentny sprawia, że często sięga po książki? Dla takich dylematów, które dla psychologii społecznej nie są nowością istnieje model korelacyjny.

Model ten pozwala na ukazanie związków i relacji między zmiennymi w badaniu. Oceniamy współzmienność zmiennych, najczęściej za pomocą współczynników korelacji. Podejście korelacyjne to cenne źródło informacji. Pamiętać trzeba o jego ograniczeniach i możliwościach. Model ten pozwala na ukazanie związku, jego siły czy kierunku. Pozwala także na predykcje i wyjaśnianie (chociaż tutaj niezbędna dla pełnego zrozumienia może okazać się regresja). Jednak nawet przekształcenie współczynnika korelacji na współczynnik determinacji pozwala na określenie na ile jedna zmienna wyjaśnia zróżnicowanie drugiej. W modelu możemy wnioskować, przewidywać na podstawie wartości jednej zmiennej o możliwych wynikach drugiej, ani możemy mówić nic o przyczynie. Słowo WPŁYW NIE MOŻE opisywać wyników tego modelu. Korelacja to zdecydowanie za mało by mówić o wpływie. Rozumowanie w kategoriach przyczyny i skutku także nie może mieć tutaj miejsca. Korelacja dotyczy tylko teraźniejszości. Pozwala pomóc  zrozumieniu zagadnienia ale nie daje dużych szans na przypuszczenia zmian wyników w przyszłości. Brak manipulacji, randomizacji i słaba kontrola przy jednoczesnym tendencyjnym wyborze badanych może znacznie ograniczać generalizację wniosków. Czy wynik, że w grupie 50 lekarzy wybranych celowo do badania widać związek, może być przesłanką by mówić o całej populacji lekarzy w kraju? W tym miejscu przy próbie generalizacji należy być bardzo ostrożnym.

Nie oznacza to jednak, że model ten jest bez wartości naukowej. Czasami to jedyny możliwy do wykorzystania model, lecz najważniejsze jest to by znać jego ograniczenia.

Blisko tych modeli korelacyjnych pojawiają się pytania o moderacje i mediacje zmiennych. Mediacja, czyli pośredniczenie w związku między zmiennymi oraz moderacja, czyli generowanie różnic w takim związku zmiennych zostały opisane szerzej tutaj.

 

Model ex post facto EPF

Najczęściej wykorzystywany model, choć nie zawsze świadomie. Kiedy nie możemy dokonać randomizacji badanych do grup, a nadal chcemy te grupy porównać to właśnie ten model będzie najbardziej odpowiedni. Badacz nie może na zasadach randomizacji podzielić badanych na grupy kobiet i mężczyzn. Chcąc je porównać wykorzysta podział badanych najprawdopodobniej zaproponowany przez biologię. W modelu tym nie dokonujemy manipulacji a kontrola jest praktycznie ograniczona do minimum.

Nadal jednak musimy pamiętać o pomiarze zmiennej zależnej, jak i pozostałych zmiennych ważnych dla badania. W modelu tym badacz stara się wskazać jakie zmienne niezależne generują zmienność dla wybranych zmiennych zależnych. Ma do dyspozycji dwie odmiany modelu eksploracyjną i konfirmacyjną. Obie jednak dotyczą przeszłości i są próbą odkrycia/potwierdzenia, że konkretne warunki czy zmienne działające wcześniej wygenerować mogły zmienność zmiennej zależnej jaką widzimy dzisiaj w pomiarze.

Eksploracyjny

Badacz ocenia, że zmienna zależna wykazuje pewne zróżnicowanie. Stara się ustalić jakie zmienne zadziałały w przeszłości, by teraz różnicować poziom zmiennej zależnej. W odmianie eksploracyjnej nie trzeba stawiać hipotez. Stawiając pytania: jakie zmienne różnicują poziom zmiennej zależnej, czasami bez przeprowadzenia analiz nie możemy tego ocenić. Pozostawiamy więc pytanie bez odpowiedzi (hipotezy). Przewagę stanowią pytania badawcze typu „Jak”, „Które”.

Konfirmacyjny

Bardzo podobna odmiana do eksploracyjnej, jednak budowana na podstawie wiedzy (teorii, poprzednich badań czy innych ważnych przesłanek). Badacz zakłada, że w grupie mężczyzn wynik będzie wyższy niż w grupie kobiet dla zmiennej zależnej. Zidentyfikował już zmienną i teraz jedynie chce potwierdzić, że to właśnie płeć w określony sposób różnicuje wartości zmiennej zależnej. Na postawione pytania trzeba zbudować hipotezy i wskazać jakiego rodzaju zależność chcemy potwierdzić. Przewagę stanowią pytania badawcze typu „Czy”

W modelach tych nie można manipulować zmiennymi (wiele z nich zadziałało już w przeszłości). Dokonujemy jedynie pomiaru. Model ten jest także ograniczony poprzez celowy dobór osób do grup. Nie mając możliwości randomizacji ani manipulacji, pozostaje nam pomiar i kontrola, która także powinna być na jak najwyższym poziomie. Dla tego typu modelu nie mamy problemów natury etycznej. Poszukując grup klinicznych związanych np. z depresją badanie możemy przeprowadzić w klinikach zamiast starać się poprzez manipulacje warunkami wywołać u nich ten stan. Chcąc ocenić zdolności pacjentów po przebytej śpiączce możemy poszukać takich badanych w szpitalu zamiast wywoływać u nich śpiączkę farmakologicznie. Wskazać także trzeba, że modele EPF pokazać mogą pewne różnicę i ocenę ich ważności, jednak pamiętać trzeba o małej kontroli.

Model in situ inaczej model w naturalnym położeniu jest niejako tym samym co modele EPF. Wielu badaczy zauważa słusznie, że modele badań takich jak EPF czy in sito nie mają swojej jednej uniwersalnej nazwy. In situ to sytuacja badania, gdzie nie mamy możliwości manipulowania zmiennej z powodów etycznych, czasowych, finansowych i innych. Nie mamy możliwości manipulować wykształceniem. Nie możemy grupie dzieci nakazać, by 30% z nich zdobyło wykształcenie podstawowe 30% średnie a 30% wyższe. Model in sito tak jak model EPF starają się ocenić zróżnicowanie zmiennej zależnej na podstawie wartości zmiennej niezależnej, na której poziom nie mają żadnego wpływu.

Modele te nie mogą prowadzić do wniosków przyczyno skutkowych. Nie można zapisać, że wykształcenie wpływa na poziom inteligencji jeżeli jedyne co zrobiliśmy w badaniu, to sprawdziliśmy różnice w poziomie inteligencji między badanymi o różnym poziomie wykształcenia. Możemy mówić o różnicach, ich kształcie i wielkości. O sile efektu oddziaływania zmiennych, ale NIE O WPŁYWIE. Na to pozwala jedynie eksperyment. Badania typu EPF to także konieczność celowego doboru grup do porównania.

 

Podsumowanie

Nie ma wśród nich lepszego i gorszego modelu badań. Każdy dostosowany do celu i przedmiotu badania sprawi, że badanie będzie równie wartościowe. Jednak każdy z nich generuje ograniczenie wniosków o czym warto wiedzieć by uniknąć błędnych stwierdzeń, że ilość przeczytanych książek wpływa na poziom inteligencji.

TOP-MODEL badań – eksperyment

Dla młodych badaczy nadal często nie do końca zrozumiałym jest dlaczego ich badanie nie może nazywać się w eksperymentem. Pełni entuzjazmu prowadzą badanie nad ciekawymi aspektami w psychologii kiedy nagle okazuje się, że wyciągnięte wnioski i przeprowadzone analizy nie są odpowiednie dla ich modelu badawczego. Interpretacja wyników i wnioski są błędne, a przecież z takim wysiłkiem opracowali dane i testy statystyczne.

Model badania trzeba opracować przez rozpoczęciem zbierania danych. Przed wyborem narzędzi pomiarowych, a czasami nawet przed postawieniem pytań badawczych.

Chyba najtrudniejszym z modeli, ale tylko dlatego, że wymaga przygotowania jest model eksperymentalny. Wymaga planowania i oznaczenia zmiennych na długo przed badaniem i analizą. Chcąc zbudować eksperyment nie można określić co jest zamienną zależną dopiero przy uruchomieniu excela z gotową bazą danych (co się jednak nadal zdarza). Badanie w naukach społecznych zakłada 4 elementy jakie muszą być spełnione by można było określić je jako eksperyment:

1. Randomizacja – całkowicie losowy przydział badanych do grup kontrolnych i eksperymentalnych. Badacz nie może ingerować w to jak przydzielane są osoby by uniknąć zakrzywienia wyników. Podczas przydzielania samodzielnie może nieświadomie kierować jeden typ badanych do jednej grupy kierując się np. kolorem ich ubrania. Może też, co gorsze robić to celowo próbując już na tym etapie „potwierdzać” zakładane w pracy hipotezy. Dobrym wyjściem jest by przeprowadzeniem badania obarczyć osoby, które nie znają pytań i założeń pracy by unikać wpływu eksperymentatora. Jeżeli w Twoim badaniu każdy nowy uczestnik ma taką samą szansę na pojawienie się w każdej grupie badanej możesz mówić o randomizacji. Jeżeli nie to prawdopodobnie modelem badania będzie quasi-eksperyment.

2. Kontrola – najlepsze eksperymenty posiadają wysoki poziom kontroli zmiennych zakłócających oraz niezależnych ubocznych. Dlatego badanie musi być zaplanowane. Nie można sprawności poznawczych dzieci badać w jednej grupie o 10 rano, a w drugiej 16 po południu zaraz po zakończonych zajęciach dodatkowych z matematyki. Różnice między grupami mogłyby być generowane np. zmęczeniem a nie warunkami badania. Takich przykładów jest bardzo dużo. Kontrolować warto wiele, ale nie wszystko się da. Jest grupa zmiennych, na które nie mamy żadnego wpływu, ale trzeba to zaznaczyć w opisie badania. Przestało być praktyką umieszczać w opisie zmiennych w badaniu nic poza zmiennymi niezależnymi/zależnymi, a co ze zmiennymi ubocznymi, zakłócającymi, kontrolowanymi? Nie było ich czy badacz nie miał pojęcia, że takie zmienne istnieją i mogą mieć realne przełożenie na wyniki.

3. Manipulacja – kwintesencja eksperymentu. Ten model badania zakłada przemyślaną manipulacje warunkami, wartościami zmiennej niezależnej. Grupy kontrolne i eksperymentalne powinny różnić się warunkami badania dla których mierzony jest wynik zmiennej zależnej. Chcąc sprawdzić działania nowego leku tworzymy grupę kontrolną (gdzie będzie podawany lek placebo) oraz grupę eksperymentalną (gdzie podajemy najnowszy środek na porost włosów). Właśnie to rodzaj podawanego środka jest w tym, znacznie uproszczonym przykładzie, elementem manipulacji. Manipulować można trudnością zadania, warunkami podczas pomiaru czy liczbą kostek czekolady jaką otrzymali badani po każdym prawidłowo wykonanym zadaniu.

4. Pomiar – zmienna zależna musi być poddana pomiarowi dla warunków jakie generuje zmienność wartości zmiennej niezależnej. Prościej – zmienną zależną należy mierzyć. Najlepiej standaryzowanym i uznanym narzędziem, ale każdy przemyślany pomiar może być dobry. Dokonanie odpowiedniej operacjonalizacji jest z tym elementem nierozerwalnie związane. Inteligencje możemy mierzyć znanym nam testem Wechslera lub przy pomocy ankiety w Bravo czy testu on-line. Kwestia wyboru wskaźników do badania i ich operacjonalizacja to ważne elementy badania. Oceniając efekty preparatu na porost włosów nie możemy „na oko” ocenić czy ktoś ma gęstsze włosy. W tym aspekcie warto sięgnąć po bardziej wyrafinowany sposób pomiaru.

Jeżeli losowo przydzieliłeś badanych do grup (UWAGA: dobór badanych to nie to samo co randomizacja), kontrolujesz warunki badania i możliwy wpływ zmiennych ubocznych, manipulujesz zmienną niezależną i dokonujesz pomiaru zmiennej zależnej Twoje badanie może być określone jako eksperyment. Niżej zaprezentowano najprostszy model badania eksperymentalnego.

Idealnymi wynikami będą takie, kiedy grupy przed wprowadzeniem oddziaływania zmienną niezależną nie wykazują różnic w poziomie zmiennej zależnej. Czyli pomiar w pre-teście w grupie kontrolnej i eksperymentalnej jest na podobnym poziomie. Jeżeli są tutaj różnie, być może randomizacja nie była tak idealna jak zakładaliśmy, lub jest inna zmienna, która generuje różnice (kłopot z kontrolą). Oczekiwać będziemy, że grupa kontrolna nie różni się w pre-teście i post-teście. Różnice widać jedynie dla post-testu grupy eksperymentalnej w porównaniu do 1) post-testu grupy kontrolnej oraz 2) pre-testu  grupy eksperymentalnej. Zakładając, że kontrolowaliśmy pozostałe zmienne i zachowano zasady randomizacji możemy mówić, że manipulacja wartościami zmiennej niezależnej wpływa na wyniki zmiennej zależnej. TAKIE I TYLKO TAKIE WARUNKI POZWALAJĄ NA ZASADNE UŻYCIE SŁOWA WPŁYWU W BADANIACH Z DZIEDZINY NAUK SPOŁECZNYCH. To przykład idealny i dość prosty. W rzeczywistości oddziaływania zmiennych mogą być znacznie bardziej skomplikowane.

Eksperyment nie jest jednak idealny. Dążąc do pełnej kontroli pozostałych zmiennych idziemy w kierunku eksperymentu laboratoryjnego, który będzie bardzo trafny wewnętrznie ale zewnętrznie już nie. W warunkach pełnej izolacji od wszystkiego nie ukazuje działania człowieka w środowisku, w którym jesteśmy nieustannie bombardowani różnymi bodźcami. Maksymalna kontrola i sztuczne warunki ograniczać będą realizm życiowy i psychologiczny badania. Większa trafność zewnętrzna osłabiać może kontrolę i wpływ manipulacji. Dbając by eksperyment przypominał w dużym stopniu codzienne życie nie możemy liczyć na przyzwoity poziom kontroli. Co zatem zrobić. Trzeba to zrównoważyć i dopasować do celu badania. Testowanie nowego leku odbywać może się w etapach i każdy z nich będzie innym badaniem z innym nastawieniem do trafności:

·  Etap 1 w laboratorium (maksymalna trafność wewnętrzna, minimalna zewnętrzna);

·  Etap 2  w klinikach (wysoka wewnętrzna, przeciętna zewnętrzna);

·  Etap 3 na oddziałach środowiskowych/otwartych (przeciętna wewnętrzna, wysoka zewnętrzna);

·  Etap 4 w profilaktyce na receptę w domu (słaba wewnętrzna, maksymalna zewnętrzna).

Te cztery etapy badania mogą mieć te same zmienne i częściowo warunki, jednak dbałość o kontrolę i randomizację sprawi, że cel badania przesunie ocenę trafności w eksperymencie. Co to jest trafność i co ją zakłóca w eksperymencie opisuje tabela niżej.

 

Trafność wewnętrzna

Trafność zewnętrzna

Co to jest?

Ocena tego zmienna niezależne zadziała na zależną w badaniu. Plan wewnętrznie trafny pozwala na wyeliminować alternatywne wyjaśnienie zmienności zmiennej zależnej niż to ujęte w hipotezie.

Ocena zakresu wniosków jakie można postawić, kwestia generalizacji. Ocena reprezentatywności próby i warunków badania.

Czynniki zakłócające

– okres czasu od pre do post-testu;

– stronniczy dobór badanych;

– uczenie się badanych;

– regresja statyczna – tendencja do uśredniania się wyników skrajnych;

– utrata badanych osób;

– dojrzewanie badanych – zmiany psychiczne, fizjologiczne;

– testowanie – badani mogę uwrażliwić się w post testach na warunki czy pytania z jakimi mieli do czynienie w pre-teście.

– warunki badania – zbyt ”cieplarnianie” warunki badania, czyli zbyt duża dbałość o eliminacje jakichkolwiek czynników zakłócających;

– historia – badanie prowadzone w pewnym specyficznym okresie (wojny, traumy, pandemii) może być obarczone zakłóceniem wyniku;

– uwrażliwienie badanych na postępowanie eksperymentalne;

– selekcja – czyli problem z randomizacją.

Budowanie modelu eksperymentalnego nie ogranicza się oczywiście do dwóch grup czy dwóch pomiarów. Środek pobudzający w naturalny sposób do wzrostu mięśni możemy przygotować w kilku wariantach i mierzyć jego skuteczność przed zażywaniem, miesiąc po, szczęść miesięcy i rok po zażywaniu. Stworzyć grupy: kontrolną bez środka, grupę placebo z środkiem ale bez oczekiwanych efektów, środek medyczny nr 1 i środek medyczny nr 2. Model 4 grup i 4 pomiarów przy pamiętaniu o randomizacji o kontroli będzie tak samo eksperymentem.

Warto zaznaczyć, że model ten obarczony może być także wadami. Niżej zaprezentowano podsumowanie wad i zalet modelu eksperymentalnego.

Eksperymentalny model badań

Zalety

Wady

1. Możliwość wnioskowania przyczynowo skutkowego i określenia wpływu zmiennych.

1. Konieczność zachowania zasad randomizacji, kontroli i manipulacji.

2. Możliwość manipulowania zmiennymi. Możemy nadać jej oczekiwane wartości/warunki.

2. W długich badania longitudinalnych możemy tracić badanych. Rezygnują z badania, zmieniają miejsca zamieszkania czy adres mailowy i nie możemy po roku do nich dotrzeć.

3. Przy zachowaniu wszystkich procedur model ten może przynieść najbardziej wartościowe wnioski dotyczące zmiennych.

3. Efekt uczenia się. Podając ten same test w pre-teście i w kolejnych post-testach badany może uczyć się je wykonywać. Co raz lepsze wyniki nie będą efektem manipulacji a co raz lepszą znajomością testu.

4. Możliwość wykorzystania doboru losowego.

 

4. Trudności natury etycznej. Nie możemy sprawdzić wszystkich warunków czy wywołać określonych stanów.

Nieczęsto zdarza się jednak, że możemy swoje badanie określić mianem eksperymentu. Inne modele badań mogą być wartościowe w podobnym stopniu. Jeżeli nie możemy manipulować zmienną, dokonać randomizacji czy z teorii wskazać zależności przyczynowo skutkowej sięgniemy po inne modele badań opisane tutaj. I nie będzie to ujmą dla badania, ale musi być dla badacza niezmiernie ważne w kontekście stawianych pytań i hipotez oraz wniosków jakie wyciągnie z analizy oraz generalizacji jakiej podejmie się na podstawie wyników próby. Zbyt często zdarza się czytać o badaniach w modelu ex post facto gdzie pyta się o korelację płci z cechami osobowości i stawia wniosek o wpływie płci na poziom ekstrawersji…

Kwestionariusze – (Nie)Idealne narzędzia

Ciekawe czy można jeszcze znaleźć w bibliotekach starsze wydania, pewnie zapomnianych już tytułów gazet Bravo. W swoich sekcjach gazetki te proponowały zazwyczaj młodym czytelnikom serię psychotestów: Jakim zwierzęciem jesteś? Czy jesteś lękliwy? Czy masz fobie? Czy jesteś gotowy na pierwszy stosunek seksualny? Jak można się domyślać, testy te oprócz swojej zwodniczej nazwy niewiele miały wspólnego z testem psychologicznym. Jako forma rozrywki i zabawy spełniały swoją rolę, lecz jako narzędzie pomiaru – już nie. Nie były jednak szkodliwe, nie wymuszały opłat czy podania karty kredytowej, jak niektóre JEDYNE SŁUSZNE, POTWIERDZONE PRZEZ PSYCHOLOGÓW TESTY IQ jakie rozwiązać może w internecie. Tym także często daleko do testów psychologicznych.

Narzędzie w opracowaniu musi przejść bardzo długą drogę by pojawić się w ofercie Polskiej Pracowni Testów Psychologicznych. Wiele badań, obliczeń, adaptacji językowych, kulturowych. Etapy normalizacji wyników, potwierdzania właściwości narzędzia w diagnozie różnicowej. Lata rozwoju narzędzia, jego kolejnych edycji i wersji lepiej dopasowanych do poszczególnych warunków badania/celu badania. Tysiące przebadanych osób i liczony w miesiącach czas pracy na wynikami. To wszystko po to, by każdy mógł zbadać np. style radzenia sobie ze stresem. Cała ta procedura, aspekty etyki zawodowej a nawet prawo generuje pewne ograniczenia w stosowaniu i wykorzystywaniu takich testów.

Prawa autorskie

Możliwość zakupu testu przez Pracownie testów to oczywiście legalna, zgodna z prawem możliwość zdobycia narzędzia. Często należy jednak wykazać dokument potwierdzający wykształcenie, gdyż testy podzielone są na grupy przeznaczone tylko dla psychologów oraz takie, z których mogą korzystać pedagodzy czy działy HR.

Częstą praktyką jest umieszczanie w aneksie pracy naukowej jako załącznik całego kwestionariusza, testu jaki został wykorzystany.  Generuje to kilka problemów:

1) publikujemy narzędzie, które normalnie jest płatne. Możemy nie mieć do tego prawa. Autor sprzedał nam kopie do badania a my udostępniliśmy jego pracę za darmo. To jak kupienie płyty muzycznej w sklepie i opublikowanie jej utworów w internecie.

2) palimy narzędzie. Zdarzyć się może, że test jaki wykorzystaliśmy w badaniu jest używany np. podczas badania do służb mundurowych. Testy osobowości czy inteligencji są tam wykorzystywane. Jeżeli udostępnimy cały arkusz testowy w załączniku pracy, która trafia do systemów i każdy może do jej treści dotrzeć, staje się on ogólnodostępny. Każdy może nauczyć się jego pytań, przeanalizować odpowiedzi. Test stać się może nieużyteczny w różnicowaniu, kiedy wszyscy nagle zaczną osiągać najwyższe wyniki (np. dla testu inteligencji). Ogólny dostęp do narzędzia sprawia, że traci ono swoje wartości (przez które właśnie jest tak cenione).

Narzędzia darmowe

Często znaleźć można w internecie, w artykułach naukowych, w doktoratach narzędzie, które służyły jedynie do jednorazowej oceny, są w fazie opracowania lub autor postanowił, że będzie ono dostępne. Czy można z nich korzystać? Tak, ale często zgoda autora jest wymagana. Szczególnie jeżeli zmieniamy warunki badania.

W instrukcji narzędzia pisze, że zostało stworzone do badania metodą papier-ołówek, a w badaniu chcemy wykorzystać je w postaci testu on-line. Powinniśmy zapytać autora o taką możliwość. Lub przynamniej wiedzieć, że zmiana warunków badania, jasno opisanych w instrukcji może prowadzić do błędnych wyników/wniosków. Często narzędzia takie nie mają doprecyzowanych wartości psychometrycznych. Mogą być więc słabsze i mniej dokładne. Wybrane narzędzie powinno nie tylko „pasować” do tego co chcemy zbadać, ale także być w tym pomiarze dobre.

Narzędzie w badaniu internetowym

Wykorzystywanie w badaniu internetowym narzędzi psychologicznych to plaga. Każdy test przepisujemy do ankiet internetowych z instrukcją, skalą odpowiedzi i pytaniami.  O czym zapominamy?

1) Zgoda autora – nie każdy test może się do tego nadawać, więc autor może tego zabronić;

2) Prawa autorskie – to jeszcze większy kłopot niż cały arkusz w załączniku pracy. Tutaj podajemy „na tacy” narzędzie do pomiaru psychologicznego osobom, które nawet nie znamy. Znaleźliśmy forum na Facebooku i tam wstawiamy link do ankiety z narzędziem często płatnym i standaryzowanym. Może być to niezgodne z prawem i znów może narzędzie „spalić”;

3) Kontrola w badaniu – taki sposób wykorzystania narzędzia praktycznie do minimum organiczna kontrolę zmiennych ubocznych. Nie mamy żadnej pewności, że test wypełni osoba, jakiej szukamy. Takie badanie nie pozwala na przyzwoity poziom kontroli. Zwiększa co prawda poziom anonimowości, co może skłaniać do udzielania prawdziwych odpowiedzi, jednak wciąż nie mamy pewności, kto udziela nam odpowiedzi.

Nie potępia się takiego rodzaju badań, jednak prawdziwym problemem jest to, że nie każdy jest świadomy nawet, jakie problemy generuje wykorzystanie narzędzia w taki sposób. Nie zawsze da się dotrzeć do badanych. No tak, chorych na raka piersi można szukać na forach Amazonek ale można też szukać ich w szpitalach onkologicznych i zbadać takie osoby na oddziale.

Nie zawsze jest czas na takie długie badanie. No tak, badanie internetowe to kilka dni zbierania danych, ale można zaplanować badanie i rozpocząć zbieranie danych szybciej niż miesiąc przed obroną.

Nie zawsze można znaleźć tak dużą grupę. No tak, w internecie w trzy dni można zebrać nawet 200 obserwacji, ale grupa badana to też 10 osób. Dobre zaplanowanie badania i wysiłek włożony zbieranie danych może przynieść lepsze rezultaty niż zbadanie uczestników jednego forum internetowego tylko by szybko zdobyć wymaganą przez promotora liczbę obserwacji. Jakość > ilość.

Podsumowanie

Narzędzie psychologiczne to nie psychotest w Bravo girl. Użytkownik powinien obchodzić się z nim w sposób szczególny. Szanować autorów i ich prace. Szanować swoją pracę, by wyniki jej badań nie zostały przekreślone prze słabe i źle wykorzystane narzędzie. Kierować się etyką pracy. Wykorzystać narzędzie w taki sposób do jakiego zostało stworzone. A jeżeli już się nie da – to przynajmniej być świadomym jakie ograniczenia nakłada na badanie i wnioski (oraz jakie łamie prawa).

Pomijam tutaj całkowicie badania, gdzie je przedmiotem jest „internet”. Wyjątkiem mogą być także badania w czasie trwającej pandemii, gdzie kontakt np. z osobami na oddziałach jest ograniczony do minimum.

Skala pomiaru a ograniczenie wniosków

Niestety w badaniach na gruncie psychologii nadal powstają mniej lub bardziej błędne wnioski, interpretacje czy nawet wskazania praktyczne wyprowadzone w oparciu o błędnie ocenione wyniki. Skala pomiaru zjawiska, wartości, cechy czy innego przedmiotu badania jest podstawowym zabiegiem przy prowadzeniu badania. Jednak ten podstawowy zabieg ma ogromne znaczenie dla stawianych wniosków w badaniu. Zanim przejdziemy do powodów przyjrzyjmy się skalom pomiarowym.

Wyróżnić można podział skali na jakościowe i ilościowe. Do pierwszych skali zaliczymy: skalę nominalną oraz porządkową. Skale ilościowe to skala interwałowa oraz stosunkowa (zwana czasami ilorazową ze względu ma swoje właściwości).

Skala nominalna

Skala grupująca, dzieląca. Najlepszym jej przykładem jest płeć biologiczna. Przyjmuje określoną liczbę kategorii. Wszystkie obserwacje muszą trafić do jakiejś kategorii. Skala ta musi być zatem wyczerpująca. Należy stworzyć w niej tyle kategorii by opisać wszystkie obserwacje. Dla płci biologicznej da się stworzyć kategorie by zaliczyć do niej wszystkie obserwacje (kobieta vs. mężczyzna). Kategorie te muszą być rozłączne, co oznacza, że dana obserwacja może trafić do jednej i tylko jednej kategorii. Muszą one być różne. Oprócz określenia częstości, na tej skali pomiaru nie można wykonywać żadnych innych analiz. Nie możemy powiedzieć, że dana kategoria jest wyższa, lepsza niż inna. Każdy zawodnik na meczu ma swój numer. Numeracja na koszulkach będzie zatem skalą nominalną (każdy ma swój numer – wyczerpująca, i nie ma dwóch takich samych numerów w drużynie – rozłączna). Numery na koszulkach nie oznaczają, że zawodnik z numerem 10 jest lepszy od zawodnika z numerem 5 (tym bardziej nie powiemy, że jest dwa razy lepszy).

Skala porządkowa

Zawiera wszystkie właściwości skali nominalnej, lecz dodatkowo potrafi uporządkować obserwacje. Częstym błędem jest nazywanie wykształcenia skalą nominalną. Wykształcenie i jego wartości (podstawowe, zawodowe, średnie, wyższe itp.) można uszeregować tak, by ich kolejne rangi (wartości) były wyższe. Generał ma wyższa rangę niż kapral, a ten ma wyższą od szeregowego. Tak, stopnie wojskowe będą skalą porządkową. Oprócz zatem uszeregowania, pogrupowania obserwacji (co potrafi także skala nominalna) skala porządkowa pozwala ustawić je w szeregu. Potrafi ocenić, która wartość będzie wyższa. Nie możemy jednak na tej skali wykazać, że „odległość” między wykształceniem wyższym a średnim jest taka sama jak między podstawowym a zawodowym. Nie da się ocenić na tej skali o ile generał jest wyższym stopniem od kaprala. Skala ta pokazuje różnice ale nie potrafi ich ocenić.

Skala interwałowa

Jak poprzednio, skala ta posiada właściwości porządkowej. Potrafi w sposób rozłączny uszeregować (jak skala nominalna), potrafi rangować wyniki zgodnie z jej wielkością (tak jak skala porzadkowa). Ale dodatkowo, skala interwałowa, potrafi wskazać różnice między obserwacjami w taki sposób, że różnica między jej sąsiadującymi wartościami jest zawsze taka sama. Najlepszym przykładem tej skali jest skala Celsjusza. Różnica między 21 i 11 stopniem wynosi tyle samo jak między 45 i 35 stopniami. Uszeregowanie, rangowane wartości dodatkowo są ułożone tak by odległości między sąsiadami były takie same. Jedynym kłopotem tej skali to brak możliwości orzekania o stosunkach między pomiarami. Częste pytanie czy, przy 30 stopniach Celsjusza możemy powiedzieć, że jest dwa razy cieplej niż przy 15 stopniach? Odpowiedź brzmi nie, nie możemy. Powodem jest wartość zero. Na tej skali jest to jakiś punkt arbitralny, nie oznacza on braku wartości (0 stopni Celsjusza to temperatura zamarzania wody i nie oznacza braku ciepła).

Teraz powinno się pojawić najważniejsze pytanie: czy wartość „zero” w teście pamięci oznacza, brak pamięci? Czy wartość „zero” w skali ilorazu inteligencji oznacza brak inteligencji? Czy wartość „zero” dla skali otwartości na doświadczenie z modelu Wielkiej Piątki oznacza całkowity brak nowych doświadczeń? Czy osoba osiągająca w post teście 50 punktów skali motoryki małej, właśnie zdobyła dwa razy więcej niż w pre teście, gdzie miała punktów 25?

Skala stosunkowa (ilorazowa)

Skala ta posiada wszystkie aspekty skali interwałowej, lecz dodatkowo posiada zero absolutne. Przykładem niech będzie skala oceny temperatury Kelvina. W tej skali zero to zero absolutne. Jeżeli w pomiarach osiągnie się poziom zera oznacza na brak ciepła (ruch w materii zamiera). W tej skali można powiedzieć, że wartość 100 Kelvinów jest 2 razy większa niż 50 Kelvinów, bo oznacza 2 razy więcej ciepła. Na tej skali (ilorazowej) można wnioskować o stosunkach między pomiarami. Ile narzędzi pomiaru w psychologii pozwala na takie wnioski? Ile narzędzi posiada zero absolutne, gdzie zero oznacza całkowity brak danej cechy.

Skala

Właściwości

Przykłady

Nominalna

Różniące się jakościowo grupy. Kategorie wyczerpujące i rozłączne.

– płeć,

– kolor oczu,

– grupa etniczna

Porządkowa

Nominalna + Wartości są porangowane wraz z porządkiem wielkości

– wykształcenie,

– stopnie w wojsku,

– etapy rozwoju zawodowego nauczycieli,

Interwałowa

Porządkowa + odległości między wartościami są równe, interwały są równe dla całej skali.

– temperatura w stopniach Celsjusza

długości i szerokości geograficznej w stopniach

Stosunkowa

Interwałowa + zero absolutne i możliwość oceny stosunku między wartościami.

– temperatura w stopniach Kelvina,

– upływający czas;

– ciężar

Ograniczenia

Jak można wywnioskować, mało narzędzi pomiarowych (i konstruktów teoretycznych tych pojęć) zakłada możliwość występowania zera absolutnego. Nie można przypuszczać, że osiągnięcie zero punktów dla skali ekstrawersji będzie oznaczało całkowitą izolację, brak kontaktu z ludźmi i maksymalną niechęć do podejmowania kontaktów społecznych. Nie może to jednak być wnioskiem o braku przydatności takich narzędzi. Większość standaryzowanych narzędzi jest bardzo dobra w obrębie swojego przedmiotu i celu badania. Jednak to od badacza zależy jakie postawi wnioski.

Mężczyźni są dwa razy bardziej ugodowi niż kobiety będzie – mając na uwadze skale pomiaru – tragicznie błędnym wnioskiem, nawet jeżeli przeciętnie mężczyźni osiągnęli wynik 20 a kobiety 10. Klasa 2B (mają średnio 4 z testu) nie jest  dwa razy lepsza niż 2A (średni wynik = 2). Oczywiście wskazanie, gdzie wynik jest wyższy i o ile (jeżeli interwały są równe, czyli skala jest przynajmniej interwałowa) jest uzasadnione.

Stawiane w pracy wnioski muszę być uzasadnione nie tylko wynikiem zawiłej i rozbudowanej analizy statystycznej, ale także (a może przede wszystkim) logicznym myśleniem, które dla wielu badaczy wydaje się być mniej ważne, niż tak poszukiwany wynik p < 0,05.

Ankieta własna w pracy naukowej

Nie ma obowiązku w pracach naukowych wykorzystywać tylko dobrze znane i standaryzowane narzędzia pomiaru. Równie dobrze, wykorzystać możemy także ankietę własnej budowy do pomiaru wartości zmiennych jakie nas interesują. Dlaczego nie warto za wszelką cenę budować jedynie swoich ankiet i jakich błędów unikać kiedy trzeba w badaniach sięgnąć po narzędzie własnego autorstwa.

Przewaga znanych już narzędzie pomiaru tkwi w ich standaryzacji. Narzędzia takie przeszły bardzo długą drogę by wyglądać tak jak wyglądają teraz. Po pierwsze zanurzone są w teorii, która jest dobrze opisana i wyjaśniona. Konstrukty, wskaźniki w narzędziu są odzwierciedleniem kształtu teorii. Wskaźniki te przechodziły drogę eliminacji językowej, odrzucenia pytań o małej mocy, odrzucenia pytań nietrafnych i nierzetelnych. Czasami z puli 100 pytań do finalnej wersji trafiało jedynie 20, tak by powstałe narzędzie było jak najsilniejsze pod względem psychometrii. W procesie normalizacji badanych było setki a czasami tysiące osób, by nadać narzędziu odpowiedni kształt, stylistykę czy formę odpowiedzi. Analizie poddawana była czytelność instrukcji czy wszystkich pytań/itemów. Dobrze przygotowane narzędzia pochłaniają miesiące i lata adaptacji językowych, kulturowych, analiz psychometrycznych, ustalania warunków badania i interpretacji wyników. Dlatego jest to wartość z jakiej należy korzystać i wybierać w badaniu nie tyle narzędzia standaryzowane, ale najlepsze z nich właśnie. Tysiące roboczogodzin pracy jakie poświęcili autorzy testu/kwestionariusza/skali będą owocować dokładnością pomiaru i jakością wniosków jakie można na podstawie wyników wyciągnąć.

Są dwa przypadki kiedy nie mamy możliwości by zmierzyć wszystkiego testami standaryzowanymi. Pierwszy z nich to pomiar zmiennych socjodemograficnzych lub innych ważnych zmiennych opisu grupy.  Mimo, że chcemy opisać cechy osobowości, test ten, nie zawiera pytania o długość czasu walki z nowotworem. Nie wszystkie testy mają pytania o płeć czy wykształcenie i miejsce zamieszkania. Szczególnie ważne mogą być tutaj wspomniane wartości zmiennych związanych z chorobami czy innymi aspektami życia prywatnego. Testy psychologiczne nie mają pytania o wielkość zarobków rodziców czy liczbę rodzeństwa. W takich sytuacjach trzeba jako uzupełnienie badania zbudować ankietę własną, by uzyskać jak najdokładniejszy (pod względem przedmiotu badania) opis grupy. Druga sytuacja, to brak narzędzi pomiarowych dla danego zjawiska. Wiele testów mierzy postawy, cechy czy relacje. Ale w badaniu własnym chcemy zmierzyć jakiś tylko wycinek danej struktury lub zupełnie inny jej aspekt. Z takimi sytuacjami mają do czynienia nauczyciele praktycznie cały czas, tworząc testy (ankiety) dające wynik ilościowy mówiący o poziomie wiedzy. Na co trzeba zwrócić uwagę tworząc ankietę własną?

7 Kroków do zbudowania ankiety własnej

Krok 1 – Ocenić trzeba co ma zmierzyć ankieta. Jakie dawać informacje ważne dla badania. Należy ocenić czy oprócz danych z metryczki czy opisu grupy ma ona mierzyć coś jeszcze? Do czego jest potrzebna i jakie ma dawać informacje o badanym.

Krok 2 – Tworzenie wskaźników. Wiedząc co ma mierzyć ankieta musimy nazwać konkretne wskaźniki np. poziom relacji z kotem, poziom dbałości o własne zdrowie. Jaki rodzaj wyniku ma nam pokazać ankieta. Czy ma być to zmienna ilościowa czy zadowoli nas jakościowa? Podpowiedzią może być fakt, iż zmienną ilościową możemy zamienić na jakościową. Ale jakościowej nie zamienimy na ilościową. Przykład: o wiek warto pytać na skali ilościowej, a dopiero później dwoma kliknięciami zamienić w bazie danych te wyniki np. na grupę młodszych i starszych.

Krok 3 – Każdy wskaźnik musi zostać tworzony przez jedno lub więcej pytań/itemów. Pytania te muszą odzwierciedlać teoretyczne spektrum danego wskaźnika. Tworząc pytania do skali depresji Backa autor studiując całe życie przebieg depresji, lecząc ją i czerpiąc ze swojej praktyki klinicznej a także z całej dostępnej wiedzy uznał, że pytanie jakie zawarł w skali oddają najlepiej nasilenie objawów. Tworząc ankietę własną tak musisz przemyśleć treść każdego pytania. Warto sięgać tutaj porady sędziów kompetentnych, którzy swoją wiedzą obiektywnie mogę podpowiedzieć, które pytania/itemy lepiej wpasowują się treścią w spektrum wskaźnika. Mając już pomysł można zaplanować badania pilotażowe i na ich podstawie zdecydować jakie pytania/itemy są najlepsze. Może się okazać, że dla autora pytanie było trafne, ale w ocenie badanych było zbyt trudne lub niezrozumiałe. Jedna ankieta może badać, mierzyć wiele aspektów. NEO-PI-R potrafi jednym badaniem zmierzyć 5 cech osobowości.

Krok 4 – pytania otwarte i zamknięte oraz skala odpowiedzi. Już na tym etapie trzeba zastanowić się jakie budować odpowiedzi. Pytania otwarte oczywiście dają możliwość swobodnej odpowiedzi, ale utrudniają interpretacje ilościową dla grupy. Pytania zamknięte dają wynik, ale często skalę szarości zamykają w wartościach biały-czarny. Trzeba znaleźć tutaj równowagę. Forma odpowiedzi będzie tak samo ważna. Skale odpowiedzi mają swoje zalety i wady. Odpowiedzi TAK-NIE – upraszczają przecież bardzo skomplikowany czasami świat społeczny, ale ograniczają możliwości ucieczki od odpowiedzi. Skala TAK-NIE WIEM-NIE, pozwala na elementy zawahania, ale zostawia miejsce na brak zdecydowanej odpowiedzi. Dlatego częściej wykorzystywane są skale cztero- i pięciostopniowe od ZDECYDOWANIE SIĘ NIE ZGADZAM do  ZDECYDOWANIE SIĘ ZGADZAM budowane na bazie skali Likerta. Nie są one tak czarno-białe i pozwalają na pewne stopniowanie. Dalej musimy pamiętać, że przecież pytania tworzą wskaźniki. Dobrze, jeżeli będą na takiej samej skali i odpowiedzi będą tak samo punktowane.

Krok 5 – Redukcja. Z ankiety trzeba usunąć pytania, które nic nie wnoszą do badania. Pytanie o liczbę dzieci może być ważne z punktu widzenia badania. Możliwe, że nawet dokładny wiek dzieci może być cenną zmienną dla badacza ale czy ich imiona wniosą coś do pracy? Często ankiety własne mają za dużo pytań, które nie wniosą żadnych informacji do odpowiedzi na pytania badawcze, nie rozwinął w żaden sposób problematyki badawczej. Czasami nawet  nie zostaną w pracy opisane. Po co więc je zadawać? Przedstawiając badanemu kolejne testy, kolejne pytania, zwyczajnie go męczymy. Jeżeli badanie trwa 10-15 min może tego nie odczuć, ale dłuższe badania i zadawanie dziwnych, niepotrzebnych pytań może generować błąd pomiaru związany ze zniechęceniem badanego i zmęczeniem (co jest bardzo ważne w badaniu małych dzieci, starszych czy chorych, nie wspominając osób na oddziałach szpitalnych). W ankiecie muszą pozostać pytania ważne i diagnostyczne – czyli wnoszące informacje o nasileniu badanego zjawiska czy cechy. Może zdarzyć się, że będzie konieczność zadania pytań niediagnostycznych by ukryć prawdziwy przedmiot pomiaru, ale pytania takie mają swój cel więc są ważne.

Krok 6 – stylistyka i prezentacja. Warto zadbać by ankieta była estetyczna, jej budowa przemyślana i niechaotyczna. By nie zawierała błędów, literówek czy błędów ortograficznych. Każda gafa czy niejasność w badaniach anonimowych będzie od razu wykorzystana szczególnie w badaniu dzieci, które nie omieszkają wypomnieć nam błędu. Pytanie nie powinno być na innej stronie niż odpowiedź na nie. Trzeba przesunąć, lub zmniejszyć treść tak, by uniknąć takiego rozmieszczenia.

Krok 7 – instrukcja. Nawet najprostsza ankieta musi mieć swój tytuł i instrukcję wypełniania. Musi zawierać informacje o przedmiocie badania (chyba, że powinien być ukryty jako celowy zabieg). Warto zaznaczyć w niej zapewnienie o anonimowości i możliwości przerwania badania w każdym momencie oraz braku złych odpowiedzi by zmniejszyć stres. Dobrze wygląda także jasna informacja do czego zbierane są badania. Tutaj nie należy jednak przesadzać – zbyt wiele informacji o celu i przedmiocie może wywołać u badanych chęć przedstawienia się w lepszym świetle czyli lekkiego mijania się z prawdą w odpowiedziach.

Tworzenie ankiety własnej to prosta sprawa, ale tworzenie dobrej ankiety własnej bywa czasochłonne i musi być przemyślane od pierwszej litery do samych podziękowań za udział w badaniu.

Narzędzia badawcze w pracy

Psychologia, dzięki pracy Wilhelma Wundt’a, stała się nauką empiryczną. Filozoficzne pytania o źródło i naturę duszy czy psychiki zostało zamienione na wnioskowanie o nich na podstawie pomiarów. Praca z dziedziny psychologii jest pracą empiryczną, więc musi charakteryzować się istnieniem badania (wyjątkiem mogą być tutaj recenzje czy prace z historii psychologii). Znaczna większość prac jednak charakteryzuje się badaniem, do którego należy wykorzystać jakieś narzędzie pomiaru. Ale jakie?

W pracach dominują badania kwestionariuszowe czy ankietowe, jednak narzędziem zdobywania wiedzy o człowieku czy społeczeństwie nadal pozostaje obserwacja. Szczególnie ważna w badaniach nad dziećmi lub w sytuacjach społecznych. Obserwacja odpowiednio zaplanowana, ukierunkowana na poszukiwanie wskaźników może być cennym źródłem danych. Wywiad, mimo że częściej wykorzystywany niż obserwacja, staje się zbyt czasochłonny i zastępowany jest przez ankiety (i to jeszcze z zamkniętymi pytaniami). Odpowiednio zaplanowany wywiad jest niedoceniany. W psychologii klinicznej, wywiad stanowi jedno z podstawowych źródeł wiedzy o psychopatologiach pacjenta. Psycholodzy kliniczni czy psychoterapeuci korzystają często z wywiadów ustrukturyzowanych, stworzonych tak by obiektywnie ocenić mnogość i nasilenie pewnych objawów czy syndromów. Wskazane metody zbierania danych także można wykorzystać w pracy. Ważna jest tutaj operacjonalizacja pojęć i dobór wskaźników. Łatwiejsze w przygotowaniu i analizie mogą być wyniki ankiety własnej. Narzędzia standaryzowane, normalizowane i powszechnie używane w samoopisie zdają się przeważać w badaniach psychologicznych.

Niezależnie od wybranej metody pomiaru należy dokładnie opisać ją w pracy w rozdziale metodologii. Ponieważ najczęściej wykorzystywane są testy i kwestionariusze to na ich opisie skupimy się w dalszej części. Jakie elementy testy należy opisać? Podzieliłbym je na trzy kategorie: informacje wstępne, konstrukcja, psychometria.

Informacje wstępne o narzędziu

W tym miejscu warto podać całą nazwę narzędzia. Mimo oczywistości, studenci czasami zapominają o tym, że skrót CISS czy NEO-FFI nie dla wszystkich czytelników musi być zrozumiały. Podać należy autorów narzędzia oraz autorów polskiej adaptacji. Ważnym może być też rok powstania (do testów inteligencji Wechslera stawia się wiele zastrzeżeń odnośnie ich przestarzałych norm ale także samych zadań).  Należy tutaj wspomnieć do czego stworzony został test, co mierzy? W kilku zdaniach zaznaczyć trzeba dla jakiej grupy został stworzony, czasami bowiem testy mają swoje konkretne przeznaczenie. Test matryc kolorowych Ravena jest przeznaczony tylko dla dzieci, warto o tym wspomnieć jeżeli wykorzystujemy taki test. W kilku słowach można streścić także na podstawie jakie teorii został opracowany.

Kto stworzył? Kiedy? Autor adaptacji? Co mierzy? Dla jakiej grupy jest opracowany?

Konstrukcja narzędzia

Kolejna grupa informacji dotyczy samej budowy. Trzeba zaznaczyć z jakiej liczby pytań/zadań się składa. Czy są to pytania otwarte jak w teście zdań niedokończonych czy są to pytania zamknięte o ograniczonej liczbie odpowiedzi? Krótko trzeba też podać te kategorie odpowiedzi. Czy są to odpowiedzi tak-nie czy może skala jest bardziej rozbudowana np. 5-cio stopniowa od zdecydowanie się nie zgadzam do zdecydowanie się zgadzam, a może inna? Warto zaznaczyć z czego składa się test: czy zawiera instrukcję, metryczkę? Kilka słów na temat stosowania – ogólnie: czy jest ograniczony czasowo, czy stosowany w grupie czy indywidualnie? W całości nie ma potrzeby opisywać testu, ale chociaż wspomnieć ogólnie o jego sposobie pomiaru. Skala inteligencji w teście osobowości Cattella inaczej mierzy ten aspekt niż cały test WAIS.

Liczba itemów? Rodzaj odpowiedzi? Budowa? Procedura? Układ?

Psychometria testu

Niezbędny element opisu testu. Trzeba opisać właściwości rzetelności i trafności testu. Dla jego wyniku ogólnego i podskal, jeżeli są. W przypadku rzetelności wynik afla Cronbacha jest zazwyczaj wystarczający. Jednak warto podać jego wynik dla wszystkich skal. Jeżeli jest ich dużo sprawę może załatwić stwierdzenie: „Rzetelność podskal została oceniona jako zadowalająca. Wyniki alfa Cronbacha mieszą się w przedziale 0,68-0,85.” Kiedy mamy 2-3 skal można podać dokładną wartość dla każdej z nich, mała tabela wyczerpuje temat.

Trafność narzędzia jest często bardziej rozbudowana w opisie. Trzeba powtórzyć metody jej oceny na jakie powołują się w podręczniku/artykule jego twórcy. Często jest krótki wniosek o analizie czynnikowej. Nie należy przepisywać jednak całego podręcznika. Zbiorcza informacja, najważniejsze wnioski w zupełności wystarczą.

Czasami wartościowa może być także informacja o normalizacji, szczególnie kiedy narzędzie jest w fazie opracowania i nadal czeka na dokładne normy.

Trafność? Rzetelność? Normalizacja?

Czy to jest ważne?

W tym miejscu wiadomo, że autor badania nie może odpowiadać za brak lub słabe przygotowanie narzędzia pod względem psychometrii. Ale z pewnością odpowiada za swoje badanie, w którym słabe narzędzie mogło zostać wykorzystane. Zdarzyć się może, że badacz w pracy wykorzysta narzędzia do badania dzieci w wieku 4-10 lat. Narzędzie w swoim podręczniku pokazuje, że najsilniejsze (najdokładniejsze, najmocniejsze w różnicowaniu) jest w badaniu 9 i 10 latków, natomiast najsłabsze jest dla małych dzieci. Wyniki trafności i rzetelności pokazują, że w przypadku małych dzieci, jest ono mało dokładne. Badacz sięga po takie narzędzie (np. z braku innych możliwości) i opisuje w nim pewne zjawiska opracowane na grupie badanych dzieci w wieku 3-4 lat. Jego wnioski mogą być opatrzone sporym błędem jaki wynikał z samego pomiaru słabym narzędziem. Inżynier musi sprawdzić przed pomiarami czy jego linijka, metr czy precyzyjny pomiar laserowy jest przeznaczony do tego przy czym chce go wykorzystać. Wykorzystanie linijki, gdzie skala zazwyczaj to 1 centymetr, może być mało dokładne gdy inżynier potrzebuje wykonać pomiarów z dokładnością do dziesiątych części milimetra. Lepiej sięgnąć po pomiar laserowy. Nie oznacza to, że linijka  jest narzędziem słabym, ale to, że jest opracowana do innej grupy pomiarów – mniej dokładnych, przesiewowych, pilotażowych. Tak samo wykorzystanie słabego narzędzia psychologicznego może powodować błędnie wnioski. Narzędzie trzeba ocenić PRZED jego wykorzystaniem a nie po zrobieniu badania (jak to niestety często bywa).

Tę samą procedurę należy stosować w przypadku ankiet własnej budowy. Jakie wartości ma badanie, gdzie wskaźnikiem depresji było pytanie ankiety własnej:

1. Czy byłeś ostatnio smutny?

Tak

Nie

Dlatego budowanie ankiety własnej jest trudniejsze niż wykorzystanie narzędzia standaryzowanego o czym więcej można przeczytać tutaj. Ankieta własna jednak podlegać powinna takiemu samemu opisowi jak kwestionariusz, szczególnie jeżeli chcemy wykonać na niej podobne analizy i wyprowadzić podobne wnioski.

Dyskusja o dyskusji wyników

Element każdego artykułu czy pracy naukowej. Podsumowanie całości i integracja wiadomości. Miejsce w pracy, które jest zwieńczeniem, nie tylko tych stu stron teorii i statystyki, ale także jest świadectwem wiedzy i dojrzałości autora. Często zdarza się jednak, że zaplanowany na zakończenie rozdział dyskusji, pisany jest na kolanie, dwa dni przed terminem oddania pracy lub (co się zdarza nie tak rzadko) dwa dni przed obroną.

Uznając rozdział dyskusji wyników za prawie najważniejszy w pracy warto poświęcić mu więcej czasu. Starannie go przemyśleć i zaplanować jego elementy. Sprawić by stał się wizytówką pracy (i autora) zamiast być powtórzeniem rozdziału analizy wyników i jedynie bezrefleksyjną próbą weryfikacji hipotez. Nie mając dużego doświadczenia i czasami bez wystarczającej pomocy opiekuna pracy ciężko sfinalizować ostatnie strony pracy naukowej. Co zatem powinno się znaleźć w rozdziale dyskusji wyników? Czego unikać w tym miejscu? Na te pytania odpowiem niżej.

W rozdziale dyskusji wyników nie może zabraknąć weryfikacji hipotez. Musimy rozprawić się z nimi ostatecznie w tej części. Zapisać, które z nich się w badaniach potwierdziły, a jakie nie mogą zostać uznane za potwierdzone. Ale to nie wszystko. Każdą hipotezę warto opatrzyć interpretacją (czego nie robi się w analizie wyników), czyli zastanowić się dlaczego wyszło tak a nie inaczej. Trzeba skonfrontować hipotezy i wyniki badań z dostępną już w tej dziedzinie wiedzą. Rzadko zdarzają się badania pionierskie w jakiejś dziedzinie, więc bez trudu znajdziemy poprzednie badania, teorie czy próby opis zjawiska (w końcu o czymś pisaliśmy przez połowę pracy w części teoretycznej). Do tej całej literatury trzeba teraz odnieść swoje badania. Czy badania potwierdzają założenia teorii? Dlaczego są w sprzeczności do podobnych badań Kowalski (2010) a potwierdzają badania Nowak (2019)? Może autorskie przemyślenia, ale najlepiej poparte teoriami na temat wykazanych zależności. Wartościowa może okazać się próba interpretacji pewnych zjawisk i ich przyczyn. Zgrabne przeplatanie swoich badań i ich interpretacji z poprzednimi badaniami i teorią powinno stać się głównym wątkiem tego rozdziału. Jak mają się Twoje hipotezy do innych badań i teorii?

Ale ocena swoich badań to także ocena jego wad. Nie ma badań idealnych. Bardzo często analizując wyniki zdajemy sobie sprawę, że mogliśmy inaczej zbudować ankietę własną. Inaczej zadać pytanie, by było bardziej zrozumiałe dla badanych (chociaż by to wyeliminować, robi się badania pilotażowe, jednak nie zawsze mamy taką możliwość). Często dopiero po przeprowadzeniu badania widzimy, że procedurę pomiaru można było zaplanować inaczej. Wszystkie aspekty z jakich nie jesteśmy zadowoleni możemy opisać, by pomóc badaczom w przyszłości. Być może za kilka lat kolejni badacze będą chcieli zbadać to zjawisko i pomocne  może dla nich być przeczytanie, że warto w badaniu poprawić pewne aspekty. Przykłady: zwiększyć liczbę badanych, dołożyć starań by lepiej kontrolować zmienne uboczne lub by całkowicie wyeliminować ich wpływ jeżeli to możliwe, wybrać lepsze narzędzie. Ale także zwrócić uwagę na sam praktyczny aspekt badań. Przykłady: badania z dziećmi prowadzić o jednej porze dnia, szczególnie jeżeli badamy aspekty poznawczo-motoryczne. Badanie jednych o 9 rano a drugą grupę po 16 jak zakończyli szkółkę tańca może generować różnice w pomiarach  nie powodowanych zmienną niezależna a np. zmęczeniem czy naszą ogólną efektywnością pracy w trybie dnia. Nie bez powodu przecież przedmioty najcięższe, ścisłe w szkołach są właśnie w godzinach rannych. Szereg innych aspektów jak dobór badanych, być może zbyt tendencyjny (lub co gorsze tendencyjny, ale przeprowadzony bez świadomości ograniczeń jakie niesie to dla generalizacji wyników) można i warto skrytykować. Podsumowanie błędów jakie poczyniono w planowaniu i relacji badań własnych musi jednak pozostać utrzymane w odpowiednim stylu. Ma być to formułowanie wniosków na przyszłe badania i możliwe kierunki ich ulepszenia, a nie „strzał w kolano”. Krytyka zwiększa świadomość metodologiczną badacza i pokazuje jego pokorę, ale nie może być to całkowite przekreślenie swoich badań (bo inaczej po co je opisywać, skoro są takie złe?). W ograniczeniach swoich badań można upatrywać także powodów braku weryfikacji hipotez. Czy teraz budując tę pracę od nowa można zrobić coś inaczej? Lepiej?

Pozostając w temacie rad dla przyszłych badaczy, warto w dyskusji napisać jak rozszerzyć kolejne badania. Na co powinni zwrócić uwagę badacze tego zjawiska i co sprawdzić w następnej kolejności. Co jeszcze może okazać się ważne dla tych zmiennych, zjawisk, a nie udało się tego ująć w modelu badań?

Generalizacja wniosków, to przeniesienie wyników badań na całą populację. Trzeba zastanowić się, czy badania dają takie możliwości. Czy przebadanie 35 nauczycieli z małej szkoły pod Przemyślem daje możliwość by na tej podstawie mówić o całej grupie zawodowej, która liczy sobie w Polsce 140 tysięcy osób aktywnych zawodowo. Jak szeroko możemy generalizować? Czy wybieraliśmy w pracy losowo, czy objęliśmy wszystkie warstwy grupy społecznej? Czy w badanej próbie dobrze odtworzyliśmy populację? Odpowiedź często będzie brzmiała tutaj: nie. Lecz nie ma powodów do zmartwień. Dlatego, że po pierwsze, zdarzało się, iż przełomowe badania budowane były na studentach psychologii (czyli grupy, do której badacz miał najszybszy dostęp). Druga sprawa to aspekt finansowy czy praktyczny. Student rzadko kiedy ma możliwość dofinansowania badań własnych, a badanie nauczycieli z każdego województwa tak by obszarem badania objąć całą Polskę jest po prostu niemożliwe. Recenzenci o tym wiedzą, ale autor musi wiedzieć, że możliwość generalizacji wniosków będzie ograniczona. Czy Twoje badania mówią o całej populacji objętej przedmiotem badania?

Z tego rozdziału wynikać powinny także rady dla praktyków. Wartość tego rozdziału, jak i całej pracy wzrośnie, jeżeli na podstawie wyników powstaną praktyczne wskazówki. Często prace związane z dziećmi i nauczaniem niosą we wskazówkach pewne przykłady modeli dydaktycznych czy propozycje zmian w działaniu oświaty. Prace z zakresu psychologii klinicznej, będą miały przed sobą oczekiwania w postawieniu wniosków, który rodzaj terapii dla tej grupy pacjentów będzie lepszy. Prace z psychiatrii we wnioskach zawierać mogą na przykład wskazówki by młodym pacjentom w depresji podawać leki trójpierścieniowe, gdyż w tej grupie wykazują się wyższą skutecznością. Czy Twoja praca wniesie coś do praktyki z tego obszaru nauki?

W tej części pracy powinniśmy unikać podawania wartości liczbowych. Na to miejsce było w poprzednim rozdziale w całości poświęconemu analizom wyników. Tutaj trafia interpretacja, wnioski, przewidywania i zalecenia praktyczne. Rozdział dyskusji to język pojęć psychologicznych (czy innych związanych z tematyką pracy) a nie wartości liczbowych. Zamiast pisać o wyniku w teście NEO-PI-R piszemy o cechach osobowości. Zamiast pisać o związku wyników w teście Wechslera z wynikami w skali depresji Becka trzeba zaznaczyć, że jest zależność poziomu inteligencji skrystalizowanej z objawami depresyjnymi.

Częstym błędem jest też wplatanie do dyskusji (nagle) nowych badań czy pomysłów na interpretację pewnych zależności. Trzeba uważać, by do dyskusji nie trafiły prace, artykuły czy poglądy, które nie były omawiane wcześniej w teorii. Dyskusja ma być spójną klamrą teorii prezentowanej w pracy i wyników własnych badań. Nie można więc nagle po wynikach dodawać nowych faktów, bo skoro są tak ważne to dlaczego nie zostały wyjaśnione wcześniej? Odpowiedź jest czasami prosta: wyniki badań nie potwierdziły założeń teorii (cześć wprowadzenia teoretycznego mam już zaakceptowaną i nie będę jej zmieniać) i muszę odnieść się teraz do innych artykułów. Takie podejście może obniżyć jakość pracy.

Rozdział dyskusji wyników powinien być zwieńczeniem pracy, dlatego należy mu poświęcić odpowiednią ilość czasu i pracy, a przede wszystkim dobrze zaplanować jego strukturę. Tak by była to rzeczywiście dyskusja z dotychczasowymi osiągnięciami i dyskusja z przyszłymi badaniami w tym zakresie. By była głosem w dyskusji z dziedziną nauki jaką się zajmujemy i głosem w rozmowie z jej przedstawicielami. Musi prezentować argumenty i kontrargumenty. Jak wypowiedź na forum czy wykład, rozdział ten musi być poprawny językowo i stylistycznie, by audytorium chciało nas wysłuchać. Jak każdy dialog, rozdział ten musi być czytelny, spójny, ciekawy, przemyślany i niechaotyczny, by audytorium chciało z nami później dyskutować.