![]() |
|
|
Modele
zaawansowane - moduły
Ogólne
cechy systemu
|
![]() ![]()
Opis własności pakietu STATISTICA Modele zaawansowane
Pakiet STATISTICA Modele zaawansowane zawiera szeroki wybór najbardziej zaawansowanych, spośród dostępnych na rynku, narzędzi modelowania współzależności liniowych i nieliniowych, które umożliwiają operowanie na predyktorach ciągłych i jakościowych, uwzględnianie interakcji, tworzenie modeli hierarchicznych oraz możliwości automatycznego wyboru modeli. Wszystkie te narzędzia dostępne są w polskojęzycznym środowisku użytkownika. Ponadto pozwala obliczać komponenty wariancyjne, analizować dane o postaci szeregów czasowych oraz stosować wiele innych metod. Wszystkie analizy są wspomagane doskonałą, interakcyjną grafiką oraz mają wbudowany język Visual Basic. W skład tego pakietu wchodzą moduły: ![]()
KOMPONENTY WARIANCYJNE I MODEL MIESZANY ANOVA/ANCOVA.
Komponenty wariancyjne i model mieszany ANOVA/ANCOVA to
specjalistyczny moduł przeznaczony do analizy układów z efektami losowymi i
czynnikami działającymi na wielu poziomach. Opcje przeznaczone do operowania na
efektach losowych oraz do estymacji komponentów wariancyjnych są także dostępne
w module Ogólne modele liniowe. Efekty (czynniki) losowe często
występują w badaniach prowadzonych w przemyśle, kiedy poziomy czynnika
reprezentują wartości pochodzące ze zmiennej losowej (w przeciwieństwie do
sytuacji w której eksperymentator celowo wybiera lub ustala poziomy działania
czynnika). Moduł Komponenty wariancyjne umożliwia analizowanie układów z
dowolnymi kombinacjami efektów stałych, efektów losowych oraz zmiennych
towarzyszących. Istnieje możliwość analizy skrajnie dużych układów
ANOVA/ANCOVA: czynniki mogą działać na kilkuset poziomach. Program pozwala
przeprowadzać analizę standardowych układów czynnikowych (kompletnie
zrandomizowanych) jak również układów zagnieżdżonych hierarchicznie oraz
obliczać sumy kwadratów typu I, II i III oraz średnie kwadraty
dla efektów występujących w modelu. Ponadto możemy wyliczać elementy tabeli
oczekiwanych średnich kwadratów dla efektów występujących w układzie,
komponenty wariancyjne dla efektów losowych w modelu, współczynniki dla syntezy
mianownika i kompletną tablicę ANOVA z testami opartymi na syntetyzowanych
sumach kwadratów dla błędu oraz liczbami stopni swobody (przy użyciu metody
Satterhwaite'a). Uwzględniono także inne metody estymacji komponentów
wariancyjnych (np. metodę MIVQUE0, metodę największej wiarygodności [ML],
metodę największej wiarygodności ograniczoną [REML]). W przypadku
estymacji metodą największej wiarygodności mogą być wykorzystywane algorytmy
Newtona-Raphsona i Fishera a podczas estymacji model nie jest arbitralnie
zmieniany (redukowany) tak aby uwzględnić sytuację gdy większość komponentów
wynosi zero lub jest bliska zeru. Dostępnych jest także kilka opcji służących
do przeglądania ważonych i nieważonych średnich brzegowych oraz odpowiadających
im przedziałów ufności. Do wizualizacji rezultatów można wykorzystywać bogate
możliwości graficzne.
![]()
ANALIZA CZASU PRZEŻYCIA I AWARYJNOŚCI. Moduł ten stanowi
obszerną implementację różnych technik przeznaczonych do analizy danych
uciętych w badaniach społecznych, biologicznych i medycznych, a także procedur
stosowanych w inżynierii i marketingu (np. kontrola jakości, ocena
niezawodności). Oprócz obliczania tablic trwania życia z rozmaitymi
statystykami opisowymi i estymatorami limitu iloczynowego Kaplana-Meiera,
użytkownik może porównywać funkcje przeżycia w różnych grupach korzystając z
obszernego zestawu metod (takich jak test Gehana, test F Coxa, test
Coxa-Mantela, test log-rang czy też uogólnienie testu Wilcoxona wg Peto i
Peto). Ponadto dla grup można tworzyć wykresy Kaplana-Meiera (dane nieucięte są
na wykresach identyfikowane przy pomocy różnych znaczników punktów). Program
cechuje się także zestawem procedur dopasowania funkcji przeżycia (takich jak
funkcja wykładnicza, liniowa hazardu, Gompertza i Weibulla)
opartych na metodach nieważonych i ważonych najmniejszych kwadratów (w module
STATISTICA Analiza procesu można także wyznaczać oceny
parametrów największej wiarygodności dla różnych rozkładów, łącznie z rozkładem Weibulla).
Opisywany moduł oferuje także pełną implementację czterech ogólnych modeli
objaśniających (model proporcjonalnego hazardu Coxa, model regresji
wykładniczej, modele regresji lognormalnej i normalnej) z rozbudowanymi
diagnostykami, włączając analizę warstwową i wykresy przeżycia dla określonych
przez użytkownika wartości predyktorów. W przypadku regresji proporcjonalnego
hazardu Coxa użytkownik może wybrać warstwowanie próby, aby dopuścić różne
hazardy linii zerowych w różnych warstwach (ale przy stałym wektorze
współczynników) lub różne hazardy linii zerowej oraz różne wektory
współczynników. Ponadto wprowadzono ogólne narzędzia definiowania jednej lub
wielu zmiennych towarzyszących zależnych od czasu. Zmienne towarzyszące zależne
od czasu można określać przy pomocy interpretera formuł, który umożliwia
definiowanie zmiennych towarzyszących za pomocą wyrażeń arytmetycznych. Mogą
one zawierać czas a także standardowe funkcje logiczne (np. timedep=age+age*log(t_)*(age>45),
gdzie t_ odnosi się do czasu przeżycia) oraz szeroki zestaw funkcji
rozkładu. Jak we wszystkich innych modułach programu STATISTICA,
użytkownik ma dostęp i może zmieniać parametry techniczne wszystkich procedur
(lub akceptować domyślne). Moduł oferuje także szeroki zestaw wykresów i
diagramów ułatwiających interpretację wyników (włączając wykresy skumulowanych
proporcji przeżywających/ulegających awarii, konfiguracji (układów) danych
uciętych, funkcji hazardu i skumulowanych funkcji hazardu, funkcji gęstości
prawdopodobieństwa, wykresy porównań grup, wykresy dopasowania rozkładów, różne
wykresy reszt i wiele innych). Przy zastosowaniach technicznych zob. grupę
procedur Analiza Weibulla.
![]()
OGÓLNA ESTYMACJA NIELINIOWA (oraz szybka regresja logistyczna i probit).
Moduł Estymacja nieliniowa umożliwia dopasowanie praktycznie dowolnego
typu modelu nieliniowego. Jedną z unikalnych właściwości tego modułu jest (w
odróżnieniu od tradycyjnych programów estymacji nieliniowej) to, że nie narzuca
on żadnych ograniczeń wielkości plików danych, które może przetwarzać.
Metody estymacji. Modele można dopasowywać przy pomocy estymacji metodą najmniejszych kwadratów lub metodą największej wiarygodności lub dowolnej funkcji straty określonej przez użytkownika. W przypadku stosowania kryterium najmniejszych kwadratów do estymacji parametrów modeli liniowych i nieliniowych możemy stosować bardzo efektywne algorytmy Levenberga-Marquardta i Gaussa-Newtona. Dla dużych plików danych lub w przypadku trudnych zagadnień regresji nieliniowej (takich jak te, które zostały ocenione jako zagadnienia o "podwyższonej trudności" przez Narodowy Instytut Standardów i Technologii; patrz http://www.nist.gov/itl/div898/strd/index.html) przy stosowaniu kryterium najmniejszych kwadratów jest to metoda zalecana do obliczania dokładnych ocen parametrów. Stosując arbitralnie dobraną funkcję straty mamy do wyboru cztery bardzo różne, wydajne procedury estymacji (quasi-Newtona, sympleks, metoda Hooke'a-Jeevesa przemieszczania układu oraz metoda Rosenbrocka poszukiwania układu rotowanych współrzędnych), tak że praktycznie we wszystkich przypadkach można otrzymać stabilne oceny parametrów, nawet w wyjątkowo wymagających obliczeniowo warunkach (patrz Kontrolne testy porównawcze ). Modele. Możemy określić model dowolnego typu wpisując odpowiednie równanie w edytorze równań. Równania mogą zawierać operatory logiczne; zatem można estymować także nieciągłe (kawałkami liniowe) modele regresji i modele zawierające zmienne wskaźnikowe (predyktory jakościowe). Równania mogą także zawierać szeroki zestaw funkcji rozkładu i dystrybuant (rozkładu beta, dwumianowego, Cauchy'ego, chi-kwadrat, wykładniczego, wartości ekstremalnych, F, gamma, geometrycznego, Laplace'a, normalnego, lognormalnego, Pareto, Poissona, Rayleigha, t (Studenta) lub rozkładu Weibulla). Mamy pełną kontrolę nad wszystkimi aspektami procedury estymacji (np. wartościami początkowymi, wielkościami kroku, kryteriami zbieżności itd.). Najbardziej typowe modele regresji nieliniowej są w module Estymacji nieliniowej predefiniowane i można je wybrać po prostu za pomocą opcji menu. W ten sposób dostępne są krokowa regresja logistyczna (logit) i regresja probit, model regresji wykładniczej oraz regresję kawałkami liniową (z punktami przełamania). Zauważmy, że STATISTICA zawiera także implementacje wydajnych algorytmów służących do dopasowywania uogólnionych modeli liniowych, w tym modeli probit, modeli wielomianowych logit oraz uogólnionych modeli addytywnych. Dalsze szczegóły można znaleźć w odpowiednich tekstach opisu.
Wykresy. Wszystkie wyniki są zintegrowane z rozbudowanym zestawem wykresów, w tym interakcyjnie dostosowywane dwuwymiarowe i trójwymiarowe (powierzchniowe) wykresy dopasowania dowolnej funkcji, które umożliwiają przedstawienie jakości dopasowania i zidentyfikowanie przypadków odstających lub zakresów rozbieżności między modelem a danymi. Możemy interakcyjnie dostosowywać równanie dopasowanej funkcji (jak to pokazano na wykresie) bez powtórnego przetwarzania danych i przedstawić praktycznie wszystkie aspekty procesu dopasowania nieliniowego. Wprowadzono także wiele innych specjalistycznych wykresów służących do oceny procesu dopasowania i przedstawienia wyników, takich jak histogramy wszystkich wybranych zmiennych i wartości resztowych, wykresy rozrzutu wartości obserwowanych względem wartości przewidywanych i przewidywanych względem reszt, wykresy normalności i normalności połówkowej dla reszt i wiele innych.
ANALIZA LOG-LINIOWA TABEL
LICZNOŚCI. Moduł ten oferuje pełną implementację procedur
modelowania logliniowego wielowymiarowych tabel liczebności. Warto zauważyć, że STATISTICA
zawiera także moduł Uogólniony model liniowy,
który umożliwia analizę modeli logitowych dwumianowych i wielomianowych z
układami kodowanymi na wzór modeli ANOVA. W jednym przebiegu można analizować
tabele obejmujące do 7 wymiarów. Można analizować zarówno kompletne, jak i
niekompletne (zawierające tzw. zera strukturalne) tabele. Tabele liczebności
można obliczyć na danych surowych lub można je wprowadzić bezpośrednio do
programu. Moduł Analizy logliniowej oferuje wyczerpujący zestaw
zaawansowanych procedur modelowania w interakcyjnym i elastycznym środowisku i
zdecydowanie ułatwia analizy eksploracyjne i konfirmacyjne złożonych tabel.
Użytkownik może zawsze przeglądać kompletną tabelę obserwowaną oraz tabele
brzegowe i wartości dopasowane (oczekiwane), a także może ocenić dopasowanie
wszystkich cząstkowych i brzegowych modeli zależności lub określonych wybranych
modeli (tabel brzegowych), które mają być dopasowane do danych obserwowanych.
Program posiada także inteligentną automatyczną procedurę wyboru modelu, która
najpierw określa konieczny porządek składników interakcyjnych wymaganych w
modelu dopasowywanym do danych, a następnie przez eliminację wsteczną wyznacza
najlepszy wystarczający model, który dostatecznie pasuje do danych (na
podstawie kryteriów określonych przez użytkownika). Standardowe wyniki obejmują
statystykę G kwadrat (chi-kwadrat największej wiarygodności),
standardową statystykę chi-kwadrat Pearsona z odpowiednimi stopniami
swobody i poziomami istotności, tabele obserwowane i oczekiwane, tabele
brzegowe i inne statystyki. Opcje graficzne dostępne w module Analizy
logliniowej obejmują rozmaite wykresy dwu- i trójwymiarowe przeznaczone
do prezentacji dwu- i wielowymiarowych tabel liczebności (także interakcyjne,
sterowane przez użytkownika serie skategoryzowanych histogramów i
histogramów 3W prezentujących "przekroje" wielowymiarowych tabel), wykresy
liczebności obserwowanych i oczekiwanych, wykresy reszt (standaryzowanych,
składników chi-kwadrat największej wiarygodności; odchylenia
Freemana-Tukeya itd.) oraz wiele innych.
![]()
ANALIZA SZEREGÓW CZASOWYCH I PROGNOZOWANIE. Moduł Szeregi czasowe
i prognozowanie zawiera obszerny zestaw metod opisu, modelowania,
dekompozycji i prognozowania modeli zarówno w dziedzinie czasu jak i
częstotliwości. Procedury te są w pełni zintegrowane, to znaczy wyniki jednej
analizy (np. reszty z analizy ARIMA) można bezpośrednio wykorzystać w
następnych analizach (np. do obliczenia funkcji autokorelacji reszt ARIMA).
Wprowadzono wiele wygodnych opcji przeglądania i sporządzania wykresów
pojedynczego lub wielu szeregów czasowych. Analizy można prowadzić nawet na
bardzo dużych szeregach czasowych. W aktywnym obszarze roboczym programu
można przechowywać wiele szeregów (np. wiele nieprzetworzonych szeregów
wejściowych lub szeregów powstałych na różnych etapach analizy); można te
szeregi przeglądać i porównywać. Program automatycznie przechowuje przebieg
kolejnych analiz oraz rejestr transformacji i innych wyników (np. reszty ARIMA,
składniki sezonowości). Dlatego użytkownik może zawsze powrócić do poprzednich
transformacji lub porównać (sporządzić wykres) pierwotny szereg z jego
przekształceniami. Informacje na temat kolejnych transformacji są przechowywane
w formie długich etykiet zmiennych, tak że jeśli zapiszemy nowo utworzone
zmienne w zbiorze danych, zachowamy "historię" każdego szeregu czasowego.
Poniżej opisano poszczególne procedury analizy szeregów czasowych
.
Przekształcenia, modelowanie, wykresy, autokorelacje. Przekształcenia dostępne w programie pozwalają użytkownikowi analizować struktury wejściowych szeregów czasowych. Program daje możliwość wykonania wszystkich typowych przekształceń szeregów czasowych, takich jak: usuwanie trendu, usuwanie autokorelacji, wygładzanie przy pomocy średniej ruchomej (nieważonej i ważonej z wagami zdefiniowanymi przez użytkownika lub wagami Daniella, Tukeya, Hamminga, Parzena lub Bartletta), wygładzanie przy pomocy mediany ruchomej, proste wyrównywanie wykładnicze (patrz także opis wszystkich opcji wyrównywania wykładniczego, poniżej), różnicowanie, sumowanie, residualizację, przesuwanie, wygładzanie 4253H, temperowanie, przekształcenia Fouriera (i odwrotne) i inne. Można także prowadzić analizy autokorelacji, autokorelacji cząstkowej i korelacji wzajemnej.
Klasyczna dekompozycja sezonowa (metoda Census I). Użytkownik może określić długość okresu i wybrać model sezonowości addytywnej lub multiplikatywnej. Program oblicza średnie ruchome, ilorazy lub różnice, wskaźniki sezonowości, szereg skorygowany sezonowo, wygładzony wskaźnik trendu i długookresowy oraz składnik nieregularny. Składniki te można poddawać dalszym analizom; na przykład, użytkownik może sporządzać histogramy, wykresy normalności itd. dla dowolnych lub wszystkich tych składników (np. w celu oceny trafności modelu).
Wielomianowe modele opóźnień. Moduł Szeregów czasowych może szacować model z nieograniczonymi opóźnieniami oraz modele z opóźnieniami Almona (ograniczonymi). Do analizy rozkładów zmiennych modelu służy zestaw wykresów.
Techniki prognozowania oparte na regresji. STATISTICA zawiera również regresyjne techniki analizy szeregów czasowych dla zmiennych opóźnionych lub nieopóźnionych (łącznie z regresją bez wyrazu wolnego, regresją nieliniową i interakcyjnym prognozowaniem typu "Co się stanie, jeśli ..."").
![]()
MODELOWANIE RÓWNAŃ STRUKTURALNYCH I ANALIZA ŚCIEŻKOWA (SEPATH).
Program STATISTICA zawiera obszerną implementację technik modelowania
równań strukturalnych z wygodnymi narzędziami do symulacji metodą Monte Carlo
(SEPATH). Moduł SEPATH jest to nowoczesny program z "inteligentnym"
interfejsem użytkownika. Oferuje bogaty zestaw procedur modelowania
zintegrowanych z unikalnymi narzędziami interfejsu użytkownika, które
umożliwiają definiowanie nawet złożonych modeli bez zastosowania składni
poleceń. Za pomocą Kreatorów i Narzędzi ścieżkowych możemy
definiować analizę w prostych funkcjonalnych terminach korzystając z menu i
okien dialogowych (w odróżnieniu od innych programów do modelowania równań
strukturalnych nie ma konieczności opanowania żadnego złożonego "języka"). SEPATH
jest kompletną implementacją, która ma wiele zaawansowanych własności. Program
może analizować macierze korelacji, kowariancji i momentów (ustrukturowane
średnie, modele ze zmiennymi wyrazów wolnych); wszystkie modele można
definiować przy pomocy Kreatora ścieżek, Kreatora analizy czynnikowej
i Ogólnych narzędzi ścieżkowych; narzędzia te cechują się wysoką
efektywnością i pozwalają użytkownikowi definiować nawet skomplikowane modele w
kilka minut przez wybieranie odpowiednich opcji w oknach dialogowych. Moduł SEPATH
oblicza odpowiednie błędy standardowe dla modeli standaryzowanych i modeli
dopasowanych do macierzy korelacji, stosując techniki optymalizacji z
ograniczeniami. Wyniki obejmują wyczerpujący zestaw statystyk diagnostycznych
wraz ze standardowymi wskaźnikami dopasowania oraz wskaźnikami dopasowania
opartymi na niecentralności, co odpowiada najnowszym osiągnięciom w dziedzinie
modelowania równań strukturalnych. Użytkownik może dopasowywać modele do wielu
prób (grup), a dla każdej grupy może określać parametry ustalone, wolne lub
ograniczone (równe w grupach). Podczas analizy macierzy momentów, narzędzia te
umożliwiają testowanie złożonych hipotez dla ustrukturowanych średnich w
różnych grupach. Dokumentacja modułu SEPATH
zawiera wiele szczegółowych przykładów z literatury, także przykłady
konfirmacyjnej analizy czynnikowej, analizy ścieżkowej, modeli teorii testów
dla testów jednorodnych, macierzy wielu cech i wielu metod, analizy czynnikowej
dla danych longitudinalnych, symetrii złożonej, ustrukturowanych średnich itd.
|
|