![]() |
|
|
Pakiet
podstawowy - moduły
Ogólne
cechy systemu
|
![]() ![]()
Opis własności STATISTICA Pakiet podstawowy STATISTICA Pakiet podstawowy (produkt samodzielny) - oferuje obszerny zestaw podstawowych metod statystycznych, w przyjaznym dla użytkownika pakiecie oraz pełną wydajność, moc i łatwość obsługi, którą charakteryzują się produkty z rodziny STATISTICA. Środowisko programu dostępne jest w polskiej wersji językowej. Zawiera on następujące moduły:
STATYSTYKI OPISOWE,
ANALIZA PRZEKROJOWA ORAZ EKSPLORACYJNA ANALIZA DANYCH. STATISTICA Base
oferuje szeroki zakres metod do analiz eksploracyjnych:
Statystyki opisowe i wykresy. Program pozwala obliczać praktycznie wszystkie, powszechnie używane, statystyki opisowe, w tym mediany, wartości modalne, kwartyle, określone przez użytkownika percentyle, średnie i odchylenia standardowe, rozstępy kwartylowe, przedziały ufności dla średniej, współczynniki asymetrii i kurtozy (wraz z odpowiednimi błędami standardowymi), średnie harmoniczne, geometryczne oraz wiele innych specjalistycznych statystyk opisowych i diagnostycznych, zarówno dla wszystkich przypadków jak i dla grup wyznaczonych przez jedną lub większą liczbę zmiennych grupujących. Podobnie jak we wszystkich modułach programu STATISTICA analizę można wspomagać licznymi typami wykresów, na przykład różnymi rodzajami wykresów typu ramka-wąsy, histogramami, histogramami rozkładów dwuwymiarowych (histogramy 3W lub skategoryzowane), dwu i trójwymiarowymi wykresami rozrzutu z zaznaczonymi podzbiorami oraz wykresami prawdopodobieństwa (normalności, normalności połówkowej, odchyleń od normalności), wykresy Q-Q i wykresy P-P, itp. Dostępne są różne testy normalności wraz z procedurami dopasowania rozkładu normalnego do danych (testy Kołmogorowa-Smirnowa, Lillieforsa, Shapiro-Wilka). Można też dopasowywać szeroką gamę innych rozkładów prawdopodobieństwa. Patrz także STATISTICA Analiza procesu oraz opis poświęcony dopasowywaniu funkcji w części Grafika ).
![]()
KORELACJE. Obszerny zestaw opcji pozwala na badanie korelacji i
korelacji cząstkowych pomiędzy zmiennymi. Można obliczać praktycznie wszystkie
powszechnie znane miary powiązania między zmiennymi, a w szczególności r
Pearsona, R uporządkowanych rang Spearmana, tau Kendala (b,c), Gamma,
r tetrachoryczne, Fi, V Cramera, współczynnik kontyngencji C,
D Sommera, współczynniki niepewności, korelacje cząstkowe,
autokorelacje, różne miary odległości, itp. (regresja nieliniowa, regresja dla
danych uciętych i inne specjalistyczne miary korelacji dostępne są w modułach
Estymacja nieliniowa, Analiza
przeżycia i innych modułach oferowanych w pakiecie
STATISTICA Modele zaawansowane). Przy obliczaniu macierzy
korelacji można stosować usuwanie braków danych przypadkami lub parami, albo
też zastępowanie braków danych wartościami średnimi. Podobnie jak w innych
modułach programu STATISTICA można wykonywać obliczenia o zwiększonej
precyzji (faktycznie jest to precyzja "poczwórna") dające wyjątkową dokładność
(zob. tekst tematu Dokładność).
Podobnie jak inne wyniki w STATISTICA
macierze korelacji mogą być wyświetlane w arkuszach przy użyciu licznych opcji
formatujących (zob. niżej) i licznych narzędzi do wizualizacji wyników
numerycznych. Użytkownik może np. wskazać określony współczynnik korelacji w
arkuszu i wybrać którąś z licznych możliwości "graficznego podsumowania" tego
współczynnika (np. wykresy rozrzutu z przedziałami ufności, różne histogramy 3W
dla rozkładów dwuwymiarowych, wykresy prawdopodobieństwa, itp.).
Wyróżnianie i wykrywanie odstających danych. Rozbudowane narzędzia wyróżniania dostępne na wykresach rozrzutu umożliwiają wybór lub pomijanie poszczególnych punktów wykresu i ocenę ich wpływu na linię regresji (lub inne dopasowane funkcje). Formaty wyświetlania liczb. Obsługiwanych jest wiele różnych globalnych formatów wyświetlania dla współczynników korelacji; współczynniki korelacji statystycznie istotne mogą być automatycznie podświetlane, każda komórka arkusza może zostać rozszerzona tak aby zawierała wartości n i p , można też zażądać bardziej szczegółowych wyników, uwzględniających wszystkie statystyki opisowe (średnie i odchylenia standardowe, wagi B, wyrazy wolne, itd.). Podobnie jak w przypadku innych wyników liczbowych, macierze korelacji można wyświetlać w arkuszach z zadaną dokładnością (np. od +0.4 do +0.4131089276410193), co w przypadku dużych macierzy pozwala redukować wyświetlany rozmiar i w ten sposób ułatwia poszukiwanie współczynników przekraczających zadaną wartość lub zadany poziom istotności (np. odpowiednie komórki arkusza wyników zostaną wyświetlone w kolorze czerwonym).
Statystyki bloku. Oprócz możliwości obliczania szczegółowych statytstyk opisowych dla każdego arkusza mamy także możliwość podświetlania bloków liczb w dowolnym arkuszu i tworzenia podstawowych statystyk opisowych lub wykresów tylko dla odpowiedniego podzbioru liczb. Przypuśćmy na przykład, że obliczyliśmy arkusz zawierający wyniki w postaci miar tendencji centralnej dla 2000 zmiennych (np. średnie, wartości modalne, mediany, średnie geometryczne i średnie harmoniczne). Moglibyśmy teraz podświetlić blok, obejmujący powiedzmy 200 zmiennych oraz średnie i mediany a następnie jedną operacją utworzyć wielokrotny wykres liniowy tych dwóch miar dla podzbioru, składającego się z 200 zmiennych. Analizy statystyczne w blokach mogą być przeprowadzane względem wierszy oraz względem kolumn; moglibyśmy przykładowo utworzyć również wielokrotny wykres liniowy podzbioru zmiennych dla różnych miar tendencji centralnej. Podsumowując, statystyki bloku umożliwiają przeprowadzanie analiz i tworzenie wykresów w oparciu o wartości zawarte w dowolnie wybieranych (podświetlanych) blokach wartości w bieżącym arkuszu danych lub arkuszu wyników.
INTERAKCYJNY KALKULATOR
PRAWDOPODOBIEŃSTWA.
Z wszystkich pasków narzędzi jest dostępny wygodny, interakcyjny Kalkulator
prawdopodobieństwa. Pozwala on na korzystanie z wielu rozkładów
prawdopodobieństwa (w tym beta, Cauchy'ego, chi-kwadrat, wykładniczego, wartości
ekstremalnych, F, gamma, Laplace'a, lognormalnego, logistycznego, Pareto,
Rayleigha, t Studenta, Weibulla i normalnego (z)). Umieszczony w oknie
dialogowym interaktywnie aktualizowany wykres (funkcji gęstości i dystrybuanty)
pozwala użytkownikowi oceniać wizualnie rozkład z wykorzystaniem minisuwaków
programu STATISTICA. Minisuwaki umożliwiają zmianę wartości ostatniej
cyfry znaczącej (LEWY przycisk myszy) lub przedostatniej cyfry znaczącej (PRAWY
przycisk myszy). Kalkulator zawiera też narzędzia do tworzenia złożonych
wykresów użytkownika zawierających rozkłady z zadanymi obszarami krytycznymi.
Ważną cechą opisywanego kalkulatora jest to, że pozwala on na interaktywne
badanie rozkładów (np. wartości prawdopodobieństw w zależności od wartości
parametrów kształtu).
Testy t i inne testy
różnic pomiędzy grupami.
Można przeprowadzać testy t dla prób zależnych i niezależnych, jak
również dla pojedynczych prób (porównując średnie do podanych przez użytkownika
wartości) oraz wielowymiarowy test T 2 Hotellinga (zobacz też
opis modułu ANOVA/MANOVA oraz
GLM (Ogólne modele liniowe) dostępny w pakiecie STATISTICA Modele
zaawansowane. Dostępnych jest także wiele opcji przeznaczonych do
porównań pomiędzy zmiennymi (np. traktując dane zawarte w każdej z kolumn
arkusza wejściowego jako osobną próbę) i odpowiednio zakodowanymi grupami (np.
jeśli dane zawierają skategoryzowaną zmienną grupującą, która w jednoznaczny
sposób określa przynależność grupową każdego przypadku). Tak jak w innych
procedurach tak i tu dostępne są liczne opcje diagnostyczne i graficzne. Na
przykład przy testach t dla prób niezależnych można obliczać wartości t
przy oddzielnej ocenie wariancji, obliczać testy jednorodności wariancji
Levene'a i Browna-Forsythe'a, wykreślać różne wykresy typu ramka-wąsy,
skategoryzowane histogramy i wykresy prawdopodobieństwa, skategoryzowane
wykresy rozrzutu, itp. W wielu innych modułach dostępne są też inne (bardziej
specjalistyczne) testy różnic pomiędzy grupami (np. Statystyki
nieparametryczne, Analiza przeżycia
(dostępna w pakiecie STATISTICA Modele zaawansowane),
Analiza rzetelności i pozycji (dostępna w pakiecie STATISTICA
Analizy wielowymiarowe).
![]()
TABELE LICZEBNOŚCI, TABELE
WIELODZIELCZE, TABELE ZBIORCZE, TWORZENIE I ANALIZA WIELOKROTNYCH ODPOWIEDZI. Do
dyspozycji użytkownika znajdują się liczne narzędzia służące do tabelaryzacji
zmiennych ciągłych, skategoryzowanych oraz zmiennych wielokrotnych odpowiedzi i
wielokrotnych dychotomii. Możliwe są różnorakie formaty tabeli. Na przykład dla
tabel zawierających zmienne wielokrotnych odpowiedzi lub wielokrotnych
dychotomii, liczebności i procenty brzegowe mogą być obliczane na podstawie
ogólnej liczby odpowiedzi lub liczby respondentów. Zmienne wielokrotnych
odpowiedzi mogą być przetwarzane parami z możliwością różnych sposobów
traktowania danych brakujących. Tabele liczebności można obliczać w oparciu o
zdefiniowane przez użytkownika logiczne kryteria selekcji (o dowolnej
złożoności, z odniesieniami do zależności między zmiennymi w zbiorze danych)
przypisujące przypadki do kategorii w tabeli. Wszystkie tabele można w dużym
zakresie modyfikować w celu umieszczania ich w raportach przeznaczonych do
publikacji. Dostępne są na przykład unikalne sumaryczne tabele wielodzielcze z
przekrojowym, hierarchicznym porządkowaniem czynników. Tabele wynikowe mogą
zawierać procenty w wierszach, kolumnach lub procenty ogółu. Do opisu kategorii
w tabeli można używać długich etykiet wartości a liczebności przekraczające
zdefiniowane przez użytkownika wartości mogą być podświetlane, itp. Program
pozwala wyświetlać liczebności względne i skumulowane oraz liczebności po
transformacji logit i probit, liczebności przewidywane (normalne) oraz wartości
testów Kołmogorowa-Smirnowa, Lillieforsa i Shapiro-Wilka. Dostępne testy
statystyczne przy tabelaryzacji obejmują chi-kwadrat Pearsona,
największej wiarygodności i z poprawką Yatesa, chi-kwadrat McNemary,
dokładny test Fishera (jedno i dwustronny), Fi i r tetrachoryczne
oraz dodatkowo tau Kendalla (a, b), gamma, r Spearmana, D Sommera,
współczynniki niepewności, itp.
Wykresy. Opcje graficzne pozwalają na tworzenie histogramów (zwykłych, skategoryzowanych i 3W), histogramów "przekrojowych" (dla dowolnych przekrojów tabeli jedno, dwu lub wieloczynnikowej) i wiele innych wykresów, w tym wyjątkowego "wykresu interakcji liczebności", który pozwala przedstawić sumarycznie liczebności występujące w skomplikowanej tabeli wielodzielczej (podobny do wykresu średnich w ANOVA). Użytkownik może interaktywnie przeglądać "serie" takich i nawet bardziej skomplikowanych (np. wielokrotnie skategoryzowanych) wykresów. Patrz także opis Statystyk bloku, umieszczony wyżej oraz opisy: Analizy log-liniowej (dostępnej w pakiecie STATISTICA Modele zaawansowane) oraz Analizy korespondencji (dostępnej w pakiecie STATISTICA Analizy wielowymiarowe).
![]()
METODY REGRESJI WIELORAKIEJ.
Moduł Regresja wieloraka stanowi obszerną implementację technik
regresji liniowej. Uwzględniono regresję prostą, wieloraką, krokową
(postępującą, wsteczną lub w blokach), hierarchiczną, grzbietową, z wyrazem
wolnym lub przechodzącą przez początek układu oraz modele ważonych
najmniejszych kwadratów. Dalsze, zaawansowane metody (np. regresja metodą
najlepszych podzbiorów, wielowymiarowa regresja krokowa dla wielu zmiennych
zależnych, dla modeli uwzględniających efekty czynników skategoryzowanych,
statystyczne podsumowanie dla prób walidacyjnych i prognostycznych, hipotezy
użytkownika, itp.) są dostępne w module Ogólne modele regresji (GRM). Program
pozwala obliczać dużą liczbę statystyk i rozbudowaną diagnostykę a w
szczególności kompletną tabelę wyników regresji (z błędami standardowymi dla
współczynników B, Beta i wyrazu wolnego, R-kwadrat i poprawione
R-kwadrat dla modeli z wyrazem wolnym i bez wyrazu wolnego a także tabelę ANOVA
w regresji), macierze korelacji częściowej i cząstkowej, korelacje i
kowariancje dla wag, macierz wymiany (macierz odwrotną), statystykę d Durbina-Watsona,
odległości Mahalanobisa i Cooka, usunięte reszty, przedziały ufności dla
wartości przewidywanych i wiele innych.
Wartości przewidywane i resztowe. Bardzo rozbudowana została analiza reszt i analiza odstających obserwacji gdzie zastosowano wiele różnych wykresów takich jak wykresy rozrzutu, histogramy, wykresy normalności i normalności połówkowej, wykresy odchyleń od narmalności, wykresy korelacji cząstkowej, rozliczne wykresy reszt i odstających obserwacji dla przypadków i inne wykresy. Wartości poszczególnych obserwacji można wizualizować przy pomocy wykresów obrazkowych i różnych wykresów wielowymiarowych zintegrowanych z arkuszami wyników. Wartości reszt i wartości przewidywane można łatwo dodawać do bieżącego pliku danych. Procedura prognozowania umożliwia szybkie przeprowadzanie analiz typu "Co się stanie jeśli..." oraz interaktywne obliczanie wartości przewidywanych w oparciu o zdefiniowane przez użytkownika wartości predyktorów. Analiza w grupach; procedury pokrewne. Procedury dostępne w STATISTICA umożliwiają analizę nawet skrajnie dużych układów analizy regresji. Możemy również przeprowadzać analizy regresji wielorakiej z podziałem dokonanym w oparciu o jedną lub większą liczbę zmiennych grupujących (analiza regresji wielorakiej w grupach). Program umożliwia też zastosowanie procedur dodatkowych, wśród których znaleźć można procedury pozwalające na analizę modeli uwzględniających tysiące zmiennych, regresję metodą najmniejszych kwadratów - dwustopniową, oraz transformację Boxa-Coxa i Boxa-Tidwella z odpowiednimi wykresami. W dodatkowym pakiecie STATISTICA Modele zaawansowane znajdują się też moduły ogólnej estymacji nieliniowej (Estymacja nieliniowa, Uogólnione modele liniowe i nieliniowe (GLZ), Ogólne modele addytywne (GAM), Modele cząstkowych najmniejszych kwadratów (PLS)) gdzie można obliczać dowolne modele definiowane przez użytkownika wraz z pewną liczbą modeli predefiniowanych takich jak probit, logit i inne. W pakiecie dodatkowym znajduje się też SEPATH, ogólny moduł do Modelowania równań strukturalnych i analizy ścieżek, gdzie można analizować skrajnie duże macierze korelacji, kowariancji i macierze momentów (dla modeli z wyrazami wolnymi).
![]()
STATYSTYKI NIEPARAMETRYCZNE.
Moduł Statystyki nieparametryczne zawiera obszerny wybór statystyk
opisowych i procedur wnioskowania statystycznego obejmujących wszystkie
powszechnie stosowane testy i niektóre procedury specjalistyczne. Dostępne
procedury statystyczne obejmują test serii Walda-Wolfowitza, test U Manna-Whitneya
(z dokładnymi wartościami prawdopodobieństw dla małych prób), test
Kołmogorowa-Smirnowa, test kolejności par Wilcoxona, test ANOVA rang
Kruskala-Wallisa, test mediany, test znaków, Test ANOVA rang Friedmana, Test Q
Cochrana, test McNemara, współczynnik zgodności Kendala tau (b i c),
współczynnik korelacji R rang Spearmana, dokładny test Fishera, test Chi-kwadrat,
statystkę V-kwadrat, współczynnik Fi, współczynnik Gamma,
współczynnik kontyngencji d Sommera, i inne. (Specjalistyczne testy i
statystki nieparametryczne stanowią także część wielu modułów dodatkowych, np.
Analiza przeżycia, STATISTICA Analiza procesu
i innych.) Wszystkie testy (opierające się na rangach) mogą operować na rangach
wiązanych i stosują poprawki dla małych n i rang wiązanych. Program
pozwala analizować bardzo duże układy analiz. Podobnie jak we wszystkich
pozostałych modułach programu STATISTICA, wszystkie testy są
zintegrowane z wykresami (obejmującymi różne wykresy rozrzutu, specjalne
wykresy typu ramka-wąsy, wykresy liniowe, histogramy i wiele innych wykresów
dwu- i trójwymiarowych).
ANOVA/MANOVA.
Moduł ANOVA/MANOVA jest fragmentem modułu Ogólne modele
liniowe i służy do przeprowadzania jednowymiarowej i
wielowymiarowej analizy wariancji w przypadków układów czynnikowych z
powtarzanymi pomiarami lub bez powtarzanych pomiarów. Natomiast moduł Ogólne
modele liniowe umożliwia definiowanie dowolnych modeli liniowych,
zawierających predyktory skategoryzowane lub ciągłe, efekty losowe oraz wiele
czynników powtarzanych pomiarów (metoda krokowa i metoda najlepszego podzbioru
jest dostępna w module Ogólne modele regresji).
Interfejs użytkownika. Wszystkie układy możemy definiować bezpośrednio, wykorzystując zmienne i odpowiadające im poziomy (nie musimy definiować macierzy eksperymentu, z kodowaniem zero-jedynkowym), dzięki czemu nawet mało zaawansowani użytkownicy technik ANOVA mogą w STATISTICA analizować bardzo złożone układy. Podobnie jak moduł Ogólne modele liniowe w module ANOVA/MANOVA mamy dostęp do trzech alternatywnych sposobów definiowania analizowanych układów: (1) Kreator układu, który w procesie definiowania układu prowadzi użytkownika, krok po kroku, (2) prosty interfejs, bazujący na oknach dialogowych, pozwalający na zdefiniowanej układu poprzez wybranie zmiennych, kodów, poziomów i innych opcji przy użyciu dobrze zorganizowanych okien oraz (3) Edytor składni, umożliwiający zdefiniowanie analizowanego układu za pomocą słów kluczowych i odpowiedniej składni. Metody obliczeniowe. W przypadku układów czynnikowych program domyślnie stosuje parametryzację z sigma-ograniczeniami a w przypadku układów niezrównoważonych lub niekompletnych podejście wykorzystujące hipotezy efektywne (patrz Hocking 1985). Można obliczać hipotezy typu I, II, III lub IV, a także hipotezy typu V i VI, które przeprowadzają testy zgodne z typową analizą występującą w przypadku układów czynnikowych ułamkowych (frakcyjnych) wykorzystywanych w zagadnieniach poprawy jakości (patrz także opis modułu Planowanie doświadczeń ). Statystyki wynikowe. Moduł ANOVA/MANOVA nie zawiera żadnych ograniczeń dotyczących procedur obliczeniowych, stąd też jest dostępny pełny zestaw szczegółowych narzędzi analitycznych, które zawiera moduł Ogólne modele liniowe (szczegółowe informacje na ten temat można znaleźć w opisie modułu Ogólne modele liniowe). Dostępne rezultaty analiz obejmują tabele wyników ANOVA, jednowymiarowe i wielowymiarowe testy dla czynników powtarzanych pomiarów z więcej niż dwoma poziomami, poprawki Greenhouse'a-Geissera i Huynha-Feldta, wykresy interakcji, szczegółowe statystyki opisowe, szczegółowe statystyki wartości resztowych, porównania zaplanowane i porównania post-hoc, testowanie hipotez zdefiniowanych przez użytkownika oraz definiowanie źródeł błędu, szczegółowe statystyki diagnostyczne i wykresy (np. histogram reszt w obrębie komórki, testy jednorodności wariancji, wykresy średnich i odchyleń standardowych, itd.).
![]()
DOPASOWANIE ROZKŁADÓW.
Opcje Dopasowywania rozkładu pozwalają porównywać rozkład danej zmiennej z
szerokim zakresem rozkładów teoretycznych. Możemy dopasować do naszych danych
rozkłady: normalny, prostokątny, wykładniczy, gamma,
logarytmiczno-normalny, chi-kwadrat, Weibulla, Gompertza,
dwumianowy, Poissona, geometryczny lub Bernoulliego.
Istnieje możliwość oceny dopasowania przy pomocy testu Chi-kwadrat lub testu
Kołmogorowa-Smirnowa dla jednej próby (ponadto możemy sterować parametrami
dopasowania). Możemy również przeprowadzić test Lilieforsa lub test
Shapiro-Wilka. Ponadto dopasowanie określonego, hipotetycznego rozkładu do
danych empirycznych może zostać ocenione przy użyciu odpowiednio dobranych
histogramów (opierających się na liczebnościach zwykłych lub skumulowanych) z
nałożeniem wykresów wybranych funkcji. W oparciu o arkusze wyników można
tworzyć wykresy liniowe lub słupkowe liczebności oczekiwanych i obserwowanych
oraz wykresy występujących odchyleń. Inne opcje dopasowania rozkładu są
dostępne w module STATISTICA Analiza procesu,
w którym możemy wyliczać oceny parametrów metodą największej wiarogodności dla
rozkładu beta, wykładniczego, wartości ekstremalnych (typu
I, Gumbela), gamma, logarytmiczno-normalnego, Rayleigha i Weibulla.
Oprócz tego moduł ten zawiera opcje przeznaczone do automatycznego wybierania i
dopasowywania do danych najlepszego rozkładu jak również opcje służące do
dopasowywania metodą momentów (przy zastosowaniu krzywych Johnsona i Pearsona).
Mogą być także wykreślane i nakładane na wykres, dwu i trójwymiarowe funkcje,
definiowane przez użytkownika. Funkcje te mogą odwoływać się do wszystkich
wymienionych poprzednio typów rozkładów oraz ich dystrybuant i odwrotności.
Dalsze narzędzia służące do dopasowywania funkcji definiowanych przez
użytkownika o praktycznie nieograniczonej złożoności zostały opisane we
fragmencie opisującym moduł Estymacja nieliniowa
(dostępny w pakiecie STATISTICA Modele zaawansowane). |
|