Opis kursu:
Celem kursu jest zapoznanie jego uczestników z podstawowymi ideami i zasadami data mining (zgłębiania danych), tak aby mogli samodzielnie realizować projekty data mining. Na kursie omówione zostaną: dostęp do baz danych, przygotowanie danych do analiz, dobór odpowiedniej metody analitycznej, ocena uzyskanego modelu oraz wykonywanie analiz i stosowanie uzyskanych modeli (deployment).
Wymagania: umiejętność obsługi komputera w środowisku Windows, znajomość podstaw analizy danych. Zalecamy wcześniejszy udział w kursie STATISTICA kurs podstawowy lub Statystyka dla niestatystyków.
Kontynuacją mogą być np. kursy:
Data mining II a - metody bez nauczyciela,
Data mining II b - modele i metody,
Data mining III - STATISTICA Data Miner dla zaawansowanych,
Metodyki data mining,
Prognozowanie metodami data mining
Terminy: 16-17.10.2008, 18-19.11.2008, 5-6.02.2009
Program kursu
- Podstawowe idee data mining
- Modele data mining
- Etapy procesu data mining
- Rodzaje zadań data mining
- Środowisko STATISTICA Data Miner
- Wprowadzenie
- Dane wejściowe: lokalne pliki danych i zdalne źródła danych
- Wizualizacja i rozpowszechnianie wyników
- Przeglądarka węzłów
- Przykład prostej analizy w systemie STATISTICA Data Miner
- Dane zewnętrzne
- STATISTICA Query
- IDP - In-place Database Processing
- Specjalistyczne moduły systemu STATISTICA Data Miner (przegląd)
- Wstępne przetwarzanie danych
- Metody predykcyjnego data mining (uczenie z nauczycielem)
- Odkrywanie wiedzy (uczenie bez nauczyciela)
- Moduły stosowane po uzyskaniu modelu
- Wstępna obróbka danych - czyszczenie i przekształcenia
- Ogólne informacje
- Czyszczenie danych
- Niezgodności danych z rzeczywistością
- Postępowanie z brakami danych
- Dane nietypowe (odstające) i zaszumione
- Przekształcenia danych
- Redukcja danych
- Zmniejszenie liczby wymiarów
- Zamiana zmiennej ciągłej na skategoryzowaną (kategoryzacja)
- Łączenie klas zmiennej skategoryzowanej
- Losowe próbkowanie
- Wprowadzenie do wybranych metod data mining
- Regresja logistyczna
- Drzewa klasyfikacyjne i regresyjne
- Przykłady analiz w systemie STATISTICA Data Miner
- Problem klasyfikacyjny - modelowanie zdolności kredytowej
- Czyszczenie danych i zadanie regresyjne.
- Dostosowywanie systemu STATISTICA Data Miner