Zastosowania STATISTICA Text Miner
Do czego można użyć STATISTICA Text Miner ?
 Analiza treści stron WWW. System może automatycznie przetwarzać zawartość stron i portali internetowych oraz grup dyskusyjnych, np. w celu odnalezienia tekstów poświęconych pewnemu tematowi.
 Przewidywanie na podstawie nieuporządkowanego tekstu. W projektach data mining możemy uwzględnić odpowiedzi na pytania otwarte, takie jak opis dolegliwości uzyskany od pacjenta (wynikiem analizy może być klasyfikacja pacjentów i objawów).
 Analiza dużych repozytoriów dokumentów. Przykładowo przy wykrywaniu nadużyć ubezpieczeniowych można przeanalizować repozytorium zawierające opisy szkód, aby w przyszłości móc rozpoznać podejrzane opisy.
|

STATISTICA Text Miner jest rozszerzeniem systemu STATISTICA Data Miner, służącym do przekształcania pozbawionych struktury tekstów w użyteczna wiedzę, wspomagającą podejmowanie decyzji. W projektach data mining wykorzystuje się dane o różnej postaci - nie zawsze mają one strukturę umożliwiającą łatwe wykonanie analizy. System STATISTICA Text Miner wgłębia się w dane, które nie mają tradycyjnej struktury "arkusza danych" i odnajduje w nich użyteczną informację.
System STATISTICA Text Miner można bez trudności łączyć z innymi programami z rodziny STATISTICA. Podobnie jak inne produkty StatSoft, STATISTICA Text Miner zawiera wyjątkowo szeroki zestaw metod o bardzo dużych możliwościach w dziedzinie, dla której został przygotowany (tzn. w text mining). Metody te zostały zaimplementowane ze szczególną uwagą poświęconą skalowalności i wydajności, a także z zastosowaniem technologii wielowątkowej zapewniającej maksymalne wykorzystanie mocy obliczeniowej maszyn wieloprocesorowych.
Podobnie jak system STATISTICA Data Miner, STATISTICA Text Miner zaprojektowano jako otwarte oprogramowanie data mining. Narzędzia pobierania, selekcji i analizy można stosować nie tylko w odniesieniu do dokumentów tekstowych i stron WWW, ale również do klasyfikacji, segmentacji i innych sposobów analizy danych pozbawionych struktury, takich jak (wstępnie obrobione) obrazy, pliki dźwiękowe itd.
Zachęcamy do zapoznania się z przykładem wykonywania text mning w STATISTICA Text Miner
Najważniejsze możliwości STATISTICA Text Miner:
Odczytywanie dokumentów
- System zawiera narzędzia dostępu do dokumentów tekstowych w formatach tekstowym (.txt), Adobe Acrobat (.pdf), PostScript (.ps), HTML i XML (powszechnie wykorzystywane w Internecie) oraz formatach Microsoft Office (.doc i .rtf).
- Środowisko użytkownika umożliwia łatwy wybór dużej ilości dokumentów (np. za pomocą symboli zastępczych i w obrębie wybranego drzewa podkatalogów).
- System może, poczynając od wybranej strony WWW, wędrować przez wszystkie połączone z nią strony, a także strony połączone z tymi stronami (tzw. "Web-crawling"). Wszystkie dokumenty wchodzące w skład takiego drzewa odwołań zostaną uwzględnione w analizie, aż do zadanego poziomu "zagłębienia" (liczby kroków, które trzeba wykonać, aby dotrzeć do danej strony WWW).
- Nazwy plików i adresy stron (URL) mogą być również odczytywane ze zmiennej tekstowej w pliku STATISTICA. System właściwie traktuje zmienne z danymi (liczbowymi lub tekstowymi) i zmienne z odwołaniami do plików i stron. Dzięki temu można w poszczególnych obserwacjach przechowywać zarówno dane liczbowe, jak i duże dokumenty tekstowe, a co za tym idzie wykonywać poprawną analizę "mieszanych" danych (zawierających np. wiek, wzrost i wagę pacjenta oraz tekstowy opis objawów sporządzony przez lekarza).
- Wygodne i uniwersalne procedury importu list nazw dokumentów lub adresów stron (URL) do arkusza STATISTICA.
Przetwarzanie dokumentów
Dokumenty mogą być wstępnie przetwarzane (faktycznie analiza i wstępne przetwarzanie może odbywać się równolegle):
- Pomijanie nieistotnych słów. Możemy pomijać słowa i frazy, które są popularne, ale bezużyteczne w danej analizie (np. takie jak "się", spójniki "i", "lub" itp.)
- Redukcja do rdzenia (ang. "stemming"). Polega ona na utożsamieniu różnych form gramatycznych wyrazów (angielskie słowa "traveled" i "traveling" utożsamia się z "travel").
- STATISTICA Text Miner wykonuje redukcję do rdzenia dla dokumentów w językach: holenderskim, angielskim, francuskim, niemieckim, włoskim, portugalskim, hiszpańskim, szwedzkim (w sprawie innych języków prosimy o kontakt). Listy redukowanych słów są dostępne do edycji przez użytkownika; ponadto program umożliwia stosunkowo łatwe dodawanie obsługi innych języków.
- Po wstępnym przetworzeniu tekstów program zlicza wystąpienia wyrazów we wszystkich dokumentach. Uzyskane w ten sposób dane surowe są podstawą dalszych ("liczbowych") analiz.
- Przed utworzeniem pliku danych STATISTICA z liczbami wystąpień wyrazów można zastosować różne przekształcenia, przykładowo liczba wystąpień słowa w dokumencie może zostać podzielona przez długość dokumentu lub zlogarytmowana. Ponadto można zastosować różnorodne algorytmy wyboru cech, w tym rozkład według wartości osobliwych (SVD, singular value decomposition).
- Wynikowy plik danych z wartościami liczbowymi (np. wartościami wymiarów SVD, surowymi licznościami, częstościami względnymi, częstościami najpopularniejszych wyrazów itp.) jest gotowy do analizy.
- Informacje wydobyte z tekstu mogą zostać zapisane do pliku lub do bazy danych (zob. IDP).
Analiza dokumentów
Do uzyskanych w powyższy sposób danych (liczbowej reprezentacji zawartości dokumentów) możemy zastosować wszystkie metody analityczne:
- Proste podsumowania mogą wskazać najczęściej używane słowa.
- Po zastosowaniu SVD (np. poprzez analizę składowych głównych) uzyskuje się mapę dokumentów, służącą do oceny podobieństwa dokumentów itp.
- Mapowanie dokumentów w oparciu o liczności wyrazów umożliwia uzyskanie mapy podobieństwa jednocześnie między dokumentami i słowami.
- Analiza skupień (metody EM i k-średnich) identyfikuje grupy podobnych dokumentów.
- Predykcyjny data mining umożliwia znajdowanie związku między liczbową reprezentacją dokumentu a interesującymi cechami, np. diagnozą medyczną, informacją, czy dana transakcja była zgodna z prawem itp.
- Kluczowe etapy analizy wymagające intensywnego przetwarzania danych zostały wdrożone z wykorzystaniem technologii wielowątkowej, aby uzyskać maksymalne wykorzystanie maszyn wieloprocesorowych.
Współpraca z programami STATISTICA, STATISTICA Data Miner i WebSTATISTICA
Oprogramowanie do text mining jest w pełni zintegrowane ze STATISTICA: nie jest to produkt innego wytwórcy, luźno połączony ze STATISTICA! Z tego powodu STATISTICA Text Miner jest wyjątkowym rozwiązaniem: narzędzia text mining są "jeszcze jednym modułem" wbudowanym w środowisko STATISTICA Data Miner, WebSTATISTICA lub własnej aplikacji bazującej na STATISTICA (z użyciem SVB; przykładowo aplikacja będzie regularnie odczytywać dane z hurtowni danych za pomocą IDP, następnie wykonywać analizy i udostępniać je w Internecie za pomocą WebSTATISTICA, tak że będą z nich mogły korzystać uprawnione osoby na całym świecie).
|