Skip to content

PSPP w analizie danych

            Dominacja oprogramowań takich jak SPSS czy Statistica w dziedzinie statystyki ogólnie, a szczególnie w naukach społecznych, jest niepodważalna. Rzadkością jest wykorzystanie programu R czy Python. Jest to oczywiście spowodowane bardziej dostępnym interfejsem niż oprogramowanie „bardziej informatyczne” takie jak wspomniane właśnie R lub Python, gdzie zamiast przyjaznego menu mamy jedynie pole do wpisywania kodów poleceń.

            Przyznać trzeba, że implementacja rozwiązać statystycznych do programów komputerowych to ogromne ułatwienie. Nawet excel może nam podać wynik regresji, testu T czy korelacji R. Nie trzeba martwić się złożonością wzoru dla analizy wariancji czy ręcznie za pomocą kalkulatora obliczać błędy oszacowania w regresji. Jeżeli jednak nie jesteś studentem lub pracownikiem uczelni wskazane programy mogą mieć pewne ograniczenia w korzystaniu z nich – płatną licencję.

            To miejsce postanowili zapełnić twórcy GNU Operatic System tworząc program PSPP. Jego nazwa i interfejs do złudzenia przypominają jeden z konkurencyjnych oprogramowań, czego autorzy nie kryją na swojej stronie. Ale do sedna, dlaczego warto zapoznać się z tym programem?

Informacje ogólne

            Program umożliwia automatyczne rekodowanie zmiennych, ragnowanie, agregowanie i tworzenie podzbiorów na podobnej zasadzie jak widać to w SPSS. Z łatwością odnajdziemy także możliwości sortowania zmiennych i tworzenia nowych zmiennych/wskaźników metodą „oblicz”. Znajdziemy także możliwości budowania histogramów i wykresów rozrzutu czy zwykłych wykresów kolumnowych. Wiele elementów jednak działania na danych zostało ograniczone. Nie znajdziemy tutaj np. możliwości automatycznej zastępowania braków danych.

            Program wyróżnia okno bazy i raportu (ale także okno programowania). Sekcja „zmienne” to także łatwe nadawanie wartości, opisów i skali pomiaru dla wykorzystanych w bazie zmiennych. Poruszanie się po bazie danych jest praktycznie w całości przeniesione i tak samo intuicyjne, a więc dla każdego użytkownika SPSS – będzie znane. Wyniki jakie otrzymamy tak samo pojawiają się w osobnym oknie raportu.

            Program jest kompatybilny z plikami danych SPSS w rozszerzeniu spv czy sav jednak danych z excela tak łatwo nie przenosi. Często trzeba kopiować je „ręcznie”.

            Działanie i poruszanie się po programie jest więc takie samo jak w SPSS, ale gdzie znajdziemy różnice?

Możliwości analityczne

            Oczywiście tutaj. PSPP umożliwia nam całkiem sporo podstawowych możliwości analiz. Testy Studenta oraz ANOVA, korelacje R Pearsona (oraz wiele miar korelacji nieparametrycznych!), analiza czynnikowa z możliwościami rotacji obiektów i wyborem metody, ocena rzetelności, regresja liniowa oraz LOGISTYCZNA!, krzywa ROC oraz podstawowe analizy nieparametryczne: U Manna-Whitney’a, test Wilcoxona, H Kruskala-Wallia czy jednoczynnikową analiza wariancji Friedmana to całkiem sporo jak na darmowy program. Dodatkowo ocenić możemy rozkład testem Kołmogorowa-Smirnowa i liczebność próby testem chi-kwadrat. Dla jednoczynnikowej analizy wariancji można nawet założyć kontrasty i przeprowadzić analizę homogeniczności i analizę post hoc. W analize regresji automatycznie podane zostają wartości interkorleacji takie jak tolerancja czy vif.

            Warto zapisać jednak, że w analizach tych dostrzec można pewne ograniczenia. Regresja nie pozwala na wybór metody wprowadzania danych. W tej kwestii mamy tylko dwie możliwości: metoda wszystkich zmiennych lub hierarchiczna tworzona przez nas samych poprzez zmiany predyktorów w kolejnych analizach. Testy nieparametryczne nie pozwalają na analizę post hoc. Nie znajdziemy w możliwościach innych metod analizy wieloczynnikowych, uogólnionych modeli liniowych czy innych metod komputerowego uczenia się maszyn, a regresja logistyczna nie podaje jednej z najważniejszych statystyk (testu H-L dla dopasowania modelu do danych). Pamiętać trzeba, że oprogramowanie jest cały czas rozwijane i w przyszłości z pewnością będzie wzbogacone o dodatkowe możliwości.

Raportowanie wyników

            Wydruk raportu ograniczony jest do określonej liczby cyfr po przecinku. Czy to jest problem? Zapis w pracy powinien być jednolity. Nie możemy wartości średniej podawać do 2 miejsc po przecinku, a wartości procentowych jedynie do 1. Nie mamy możliwości ingerowania w te wyniki raportu jak np. Statistice. Raport wyników nie może być przeniesiony w postaci pojedynczej tabeli czy wykresu. Nie można go zaznaczyć ani skopiować w postaci tabeli. To chyba znaczne utrudnienie. Przenoszenie wyników w sposób nieautomatyczny może narazić nas na błędy, co w przypadku wielu przeprowadzonych analiz jest możliwe.

Podsumowanie

            PSPP to świetne narzędzie do analizy danych. Posiada wiele podstawowych możliwości analitycznych. Jest proste w obsłudze i dość szybkie w działaniu. Proces bootowania się programu jest czasami znacznie szybszy niż porównywany SPSS, lecz przenoszenie danych trwać może dłużej. Polecam zapoznać się z możliwościami programu i wesprzeć twórców.

            Program PSPP i licencja są zupełnie darmowe. Możemy być bardzo zaskoczeni działaniem i możliwościami analitycznymi. A jeszcze bardziej zaskoczeni tym, że w kwocie 0zł otrzymujemy dobre narzędzie do wykonania podstawowych analiz.

Masz pytania? Zadzwoń lub napisz!

Może zainteresuje Cię także:

Arkadiusz Prajzner

Zajmuję się opracowaniem statystycznym danych w naukach społecznych oraz poradnictwem związanym z podstawami metodologicznymi badań. Chętnie odpowiem na Twoje pytania.