PSPP w analizie danych

            Dominacja oprogramowań takich jak SPSS czy Statistica w dziedzinie statystyki ogólnie, a szczególnie w naukach społecznych, jest niepodważalna. Rzadkością jest wykorzystanie programu R czy Python. Jest to oczywiście spowodowane bardziej dostępnym interfejsem niż oprogramowanie „bardziej informatyczne” takie jak wspomniane właśnie R lub Python, gdzie zamiast przyjaznego menu mamy jedynie pole do wpisywania kodów poleceń.

            Przyznać trzeba, że implementacja rozwiązać statystycznych do programów komputerowych to ogromne ułatwienie. Nawet excel może nam podać wynik regresji, testu T czy korelacji R. Nie trzeba martwić się złożonością wzoru dla analizy wariancji czy ręcznie za pomocą kalkulatora obliczać błędy oszacowania w regresji. Jeżeli jednak nie jesteś studentem lub pracownikiem uczelni wskazane programy mogą mieć pewne ograniczenia w korzystaniu z nich – płatną licencję.

            To miejsce postanowili zapełnić twórcy GNU Operatic System tworząc program PSPP. Jego nazwa i interfejs do złudzenia przypominają jeden z konkurencyjnych oprogramowań, czego autorzy nie kryją na swojej stronie. Ale do sedna, dlaczego warto zapoznać się z tym programem?

Informacje ogólne

            Program umożliwia automatyczne rekodowanie zmiennych, ragnowanie, agregowanie i tworzenie podzbiorów na podobnej zasadzie jak widać to w SPSS. Z łatwością odnajdziemy także możliwości sortowania zmiennych i tworzenia nowych zmiennych/wskaźników metodą „oblicz”. Znajdziemy także możliwości budowania histogramów i wykresów rozrzutu czy zwykłych wykresów kolumnowych. Wiele elementów jednak działania na danych zostało ograniczone. Nie znajdziemy tutaj np. możliwości automatycznej zastępowania braków danych.

            Program wyróżnia okno bazy i raportu (ale także okno programowania). Sekcja „zmienne” to także łatwe nadawanie wartości, opisów i skali pomiaru dla wykorzystanych w bazie zmiennych. Poruszanie się po bazie danych jest praktycznie w całości przeniesione i tak samo intuicyjne, a więc dla każdego użytkownika SPSS – będzie znane. Wyniki jakie otrzymamy tak samo pojawiają się w osobnym oknie raportu.

            Program jest kompatybilny z plikami danych SPSS w rozszerzeniu spv czy sav jednak danych z excela tak łatwo nie przenosi. Często trzeba kopiować je „ręcznie”.

            Działanie i poruszanie się po programie jest więc takie samo jak w SPSS, ale gdzie znajdziemy różnice?

Możliwości analityczne

            Oczywiście tutaj. PSPP umożliwia nam całkiem sporo podstawowych możliwości analiz. Testy Studenta oraz ANOVA, korelacje R Pearsona (oraz wiele miar korelacji nieparametrycznych!), analiza czynnikowa z możliwościami rotacji obiektów i wyborem metody, ocena rzetelności, regresja liniowa oraz LOGISTYCZNA!, krzywa ROC oraz podstawowe analizy nieparametryczne: U Manna-Whitney’a, test Wilcoxona, H Kruskala-Wallia czy jednoczynnikową analiza wariancji Friedmana to całkiem sporo jak na darmowy program. Dodatkowo ocenić możemy rozkład testem Kołmogorowa-Smirnowa i liczebność próby testem chi-kwadrat. Dla jednoczynnikowej analizy wariancji można nawet założyć kontrasty i przeprowadzić analizę homogeniczności i analizę post hoc. W analize regresji automatycznie podane zostają wartości interkorleacji takie jak tolerancja czy vif.

            Warto zapisać jednak, że w analizach tych dostrzec można pewne ograniczenia. Regresja nie pozwala na wybór metody wprowadzania danych. W tej kwestii mamy tylko dwie możliwości: metoda wszystkich zmiennych lub hierarchiczna tworzona przez nas samych poprzez zmiany predyktorów w kolejnych analizach. Testy nieparametryczne nie pozwalają na analizę post hoc. Nie znajdziemy w możliwościach innych metod analizy wieloczynnikowych, uogólnionych modeli liniowych czy innych metod komputerowego uczenia się maszyn, a regresja logistyczna nie podaje jednej z najważniejszych statystyk (testu H-L dla dopasowania modelu do danych). Pamiętać trzeba, że oprogramowanie jest cały czas rozwijane i w przyszłości z pewnością będzie wzbogacone o dodatkowe możliwości.

Raportowanie wyników

            Wydruk raportu ograniczony jest do określonej liczby cyfr po przecinku. Czy to jest problem? Zapis w pracy powinien być jednolity. Nie możemy wartości średniej podawać do 2 miejsc po przecinku, a wartości procentowych jedynie do 1. Nie mamy możliwości ingerowania w te wyniki raportu jak np. Statistice. Raport wyników nie może być przeniesiony w postaci pojedynczej tabeli czy wykresu. Nie można go zaznaczyć ani skopiować w postaci tabeli. To chyba znaczne utrudnienie. Przenoszenie wyników w sposób nieautomatyczny może narazić nas na błędy, co w przypadku wielu przeprowadzonych analiz jest możliwe.

Podsumowanie

            PSPP to świetne narzędzie do analizy danych. Posiada wiele podstawowych możliwości analitycznych. Jest proste w obsłudze i dość szybkie w działaniu. Proces bootowania się programu jest czasami znacznie szybszy niż porównywany SPSS, lecz przenoszenie danych trwać może dłużej. Polecam zapoznać się z możliwościami programu i wesprzeć twórców.

            Program PSPP i licencja są zupełnie darmowe. Możemy być bardzo zaskoczeni działaniem i możliwościami analitycznymi. A jeszcze bardziej zaskoczeni tym, że w kwocie 0zł otrzymujemy dobre narzędzie do wykonania podstawowych analiz.

Przykładowe raporty z badań

Przykładowy raport badawczy - spis treści części empirycznej pracy naukowej

Nigdy nie można uznać go za jedyny słuszny spis treści. Zawiera jednak najważniejsze elementy jakie wskazać i opisać należy w pracy. W artykułach często podrozdziały metodologii (metody) złączone są by zaoszczędzić miejsce. W tym przykładowym raporcie wskazane jest po kolei jakie elementy pracy należy umieścić po sobie. Gotowe do pobrania i dowolnej edycji struktury w celu dopasowania do własnych potrzeb.

przykładowy Raport badawczy

ROZDZIAŁ II METODOLOGIA BADAŃ

2.1 Cel i przedmiot badań

Komentarz do rozdziału: cel i przedmiot to ”przejście” i połączenie teorii z prezentacją badań własnych. To informacja o tym dlaczego badania własne są ważne i czego dotyczą. Nie powinna być krótsza niż połowa strony (najlepiej około 1 strony). Musi być rozbudowana, bo to na jej podstawie powstaną pytania badawcze. Dokładnie należy wskazać co i dlaczego badamy. Dlaczego jest to ważne. Cel teoretyczny to zwiększenie wiedzy, ale może praca ma cel praktyczny (np. na jej podstawie powstanie schemat oddziaływania terapeutycznego). Przedmiot badania to „obiekt” jaki badamy i mierzymy, inaczej co badamy.

2.2 Pytania badawcze i hipotezy

Komentarz do rozdziału: Pytania badawcze wynikają z przedmiotu i celu badania. Hipotezy powinny (chyba, że badanie ma charakter eksploracyjny) wyłaniać się z prezentowanej teorii. Pytanie badawcze musi być jasne, precyzyjne i mało skomplikowane. Hipoteza musi być odpowiedzią na dane pytanie. Każde pytanie (chyba, że jest eksploracyjne) powinno mieć odpowiedź w postaci hipotezy. Hipoteza powinna być rozstrzygająca i konkretna, a w sytuacji kierunkowej poparta badaniami lub teorią. Więcej o pytaniach i hipotezach można przeczytać tutaj.

2.3 Zmienne i ich operacjonalizacja

Komentarz do rozdziału: Przedstawienie zmiennych i ich opis. Operacjonalizacja czyli zamiana pojęć teoretycznych na wskaźniki empiryczne. Przykładem w badaniu, gdzie zmienną jest inteligencja jej wskaźnikiem będzie wynik testu WAIS. Wybór odpowiedniego wskaźnika jest bardzo ważny i tutaj należy dokładnie go opisać. Jaki jest poziom jego pomiaru? Czy będzie to wynik ilościowych czy przekształcony na skalę jakościową (wynik niski vs. wynik wysoki). Jaka jest możliwa rozpiętość wyników dla danej skali i narzędzia. I wreszcie jakie narzędzie zostało wybrane do opisania konkretnego pojęcia teoretycznego. Opisać trzeba, które zmienne w badaniu mają charakter niezależnych a jakie zależnych. Czy będą to raczej zmienne współwystępujące lub opiszemy je mianem predyktorów (to już zależy od modelu badania). Najlepiej w postaci tabeli przedstawić zmienne i ich wskaźniki ze wskazaniem skali pomiaru i narzędzia. Warto także dodać krótki opis przed lub pod tabelą zmiennych oraz ich oczekiwanych zależności. Zmienne w badaniu to także szereg innych, niż te główne, zmiennych. Warto zastanowić się nad istnieniem zmiennych ubocznych i zakłócających a także wskazać te, które udało się kontrolować. Im większa świadomość metodologiczna badacza tym dokładniejsza analiza zmiennych ubocznych (bo zawsze są, a nie zawsze badacz o tym wie).

2.4 Charakterystyka badanych osób

Komentarz do rozdziału: Należy w tym miejscu napisać kogo badaliśmy. Ile osób w jakim wieku (przedziale wiekowym). W tym miejscu warto pokazać całą socjodemografię naszej próby. Miejsce zamieszkania, płeć, wykształcenie, wiek. Lub inne jeżeli są ważne dla badania: dochody, liczba potomstwa, sytuacja finansowa. Czasami warto postarać się o krzyżową analizę czyli wiek w podziale na płeć czy płeć w podziale na miejsce zamieszkania. Może być to szczególnie ważne w badaniu, gdzie płeć będzie stanowić ważna zmienną. Grupa musi być opisana w najlepiej szczegółowy sposób, tak by za kilka lat, ktoś mógł zbadać taką samą próbę. A by to zrobić musi znać wartości socjodemografi by najlepiej ją odtworzyć. Punkt ten może także opisywać kryteria włączenie i wyłączenia badanych do/z próby.

2.5 Wykorzystane narzędzia

Komentarz do rozdziału: przedstawione jedynie w części zmiennych narzędzia, tutaj muszę być dokładnie opisane. Odchodzi się od podawania szczegółów dla narzędzi dobrze znanych i wykorzystywanych jak CISS czy NEO-FFI, jednak polecam zawsze robić to dokładnie. Opisanie narzędzia to wskazanie jego autorów (i autorów adaptacji), krótki opis co mierzą i w jakiej utrzymane są teorii. Jakie mają skale pomiaru oraz skale odpowiedzi. Ile mają pytań i z jakich elementów się składają. Opisać trzeba też właściwości psychometryczne narzędzia, o czym więcej przeczytać można tutaj. Wykorzystanie w badaniu ankiety własnej nie zwalnia autora z podawania tych samych informacji.

2.6 Przebieg badań

Komentarz do rozdziału: Jak i w jakich warunkach prowadzono pomiar? Opis tym miejscu to wskazanie jak wybrano badanych? Losowy czy tendencyjny i celowy dobór? Jak przebiegał mechanizm losowości? Jeżeli celowy to jak wyglądała celowość doboru osób do badania. W jakich dniach prowadzono badanie w jakim okresie. Opisać trzeba jakie narzędzia i w jakiej kolejności były stosowane (czy starano się neutralizować efekt kolejności narzędzi w badaniu poprzez np. losową ich kolejność?). Przebieg badania to także miejsce na bardzo dokładne informacje, głównie po to by badanie można było replikować. Za kilka lat badacz sięgając po ten opis musi być w stanie przeprowadzić badanie w taki sam sposób by potwierdzić/obalić wyniki. Przebieg badania to jest też opis miejsca badania. Jeżeli prowadzimy je w szkole lub szpitalu to w jakim? Te informację są ważne i trzeba je podawać. chyba, że mogłyby narazić uczestników badania na ujawnienie. W tych wypadkach by zapewnić całkowitą anonimowość można tylko w przybliżeniu podać, że były to np. wybrane szkoły techniczne z województwa małopolskiego.

ROZDZIAŁ III WYNIKI

3.1 Metody analizy danych i opis statystyczny

Komentarz do rozdziału: Opis wyników zaczynamy od wskazania programu w jakim prowadzono obliczenia. Może być to nawet pakiet Excel (jednak dla zaawansowanej statystyki może być to kłopotliwe). Wskazać trzeba przyjęty poziom Alfa, czyli kryterium odrzucenia/przyjęcie hipotezy (najczęściej jest to poziom Alfa = 0,05). Powinno się podawać także poziom mocy testu jaki będzie graniczny do odrzucenia hipotezy (co jednak bardzo często jest pomijane). W tym miejscu podać trzeba także jakie analizy przeprowadzono niżej w celu weryfikacji hipotez i poszukiwania odpowiedzi na pytania badawcze. Wskazać je z nazwy i powodu zastosowania. Na końcu rozdziału warto przedstawić podstawowe wartości opisu statystycznego badanych zmiennych dla całej grupy oraz w podziale na podgrupy jeżeli takie są. Ocenić można także rozkład tych zmiennych już w tym miejscu, jest to przecież ocena rozkładu czy element opisu statystycznego.

3.2 Weryfikacja hipotez

Komentarz do rozdziału: Najważniejszy element  pracy empirycznej (jednak bez dobrze opisanych pozostałych – bezwartościowy). Przez pokazaniem wyników zapisać trzeba, czego dotyczy analiza, jakiego pytania czy hipotezy. W jaki sposób została testowana, czyli opisać jakie analizy z nazwy (i czasami powodu, szczególnie kiedy wykorzystać trzeba analizy nieparametryczne lub rzadko wykorzystywane np. regresję logistyczną). Wiele analiz wymaga odpowiedniego wprowadzenia. Regresja logistyczna wymaga wskazania kodowania zmiennej zależnej, tak by czytelnik wiedział, która kategoria posiada wynik kodowania „1”. Dopiero po tym prezentować można wyniki w postaci tekstu, tabeli czy wykresu. Zapis statystyk jest bardzo dokładnie określony przez standardy i czym trzeba pamiętać, tak samo zapis tabel, do których podpowiedzi można zobaczyć tutaj. Pokazanie wyników zawsze musi być wiązane z ich interpretacją i czasami z decyzją o przyjęciu/odrzuceniu hipotezy.

3.3 Analizy dodatkowe

Komentarz do rozdziału: Kiedy w pracy mamy dużo pomiarów, a pytania badawcze dotyczyły jedynie części zależności i zmiennych, ciekawe wyniki można pokazać tutaj. Nie jest to obowiązkowy punkt pracy. Mnogość danych czasami jednak zachęca do wskazania kilku dodatkowych wyników, szczególnie jeżeli są ciekawe i zaskakujące, a nie zostały objęte pytaniami badawczymi.

ROZDZIAŁ IV DYSKUSJA WYNIKÓW

Komentarz do rozdziału: Kwintesencja i pewnego rodzaju manifestacja wiedzy badacza i jego zdolności. Temu rozdziałowi poświęcony został cały artykuł, który można znaleźć tutaj.

PODSUMOWANIE

Komentarz do rozdziału: Zebranie najważniejszych informacji, powtórzenie zwięzłe wniosków płynących z pracy i pomysłów na dalsze badania. Bardziej poetyckie niżeli naukowe zakończenie pracy, czasami nawet nazywane „zakończenie”.

Przykładowy raport badawczy - spis treści części empirycznej pracy naukowej z omówieniem

Każdy podrozdział tej części pracy poświęcony jest nieco innej tematyce. O ile pytania badawcze i hipotezy to dość jasna część pracy tak cel i przedmiot oraz wykorzystane narzędzia czy przebieg badania może stwarzać kłopoty przy próbie ich stworzenia. W pliku opisane zostały elementy każdego śródrozdziału jaki powinien się tutaj znaleźć. Plik gotowy do pobrania i rozbudowania w celu ulepszenia jakości metodologii swojej pracy.