Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wprowadzenie do Data Miningu Bartosz Matosiuk. Agenda Data Mining Proces odkrywania wiedzy Działy DM Data Mining w SQL Server.

Podobne prezentacje


Prezentacja na temat: "Wprowadzenie do Data Miningu Bartosz Matosiuk. Agenda Data Mining Proces odkrywania wiedzy Działy DM Data Mining w SQL Server."— Zapis prezentacji:

1 Wprowadzenie do Data Miningu Bartosz Matosiuk

2 Agenda Data Mining Proces odkrywania wiedzy Działy DM Data Mining w SQL Server

3 Co to jest Data Mining Proces półautomatyczny Duże zbiory danych Statystyka, metody uczenia maszynowego (reguły, drzewa decyzyjne), logika rozmyta, metody ewolucyjne Przetwarzania danych przy wykorzystaniu modeli

4 Proces odkrywania wiedzy Knowlegde Discovery: The science of extracting useful information from large data sets or databases

5 Cechy wiedzy Cechy poszukiwanych informacji Trafnie przewidujące rzeczywistość szukamy największej możliwej zdolności generalizacji Zrozumiałe budowanie ufności (decyzje zarządcze muszą być budowane na danych którym się ufa) zastosowanie reprezentacji wysokiego poziomu IF... THEN, wizualizacja Interesujące Jak to zdefiniować?

6 Pre-processing Przygotowanie danych do pracy z algorytmem Etapy: Integracja danych Uzgadanianie typów i nazw atrybutów Oczyszczanie danych Błedy wynikające z walidacji formularzy: 00/00/0000 Zdublowane znaczenia atrybutów: zółty-słoneczny Dane celowo błędne: pralka za 1zł netto Dyskretyzacja niektóre algorytmy Selekcja atrybutów Niektóre atrybuty nic nie wniosą do analizy (nip, regon, imie etc)

7 Post-processing Przygotowanie surowej wiedzy do prezentacji Zależne od: Rodzaju algorytmu Architektury systemu odkrywania wiedzy (user-driven, data-driven) Celu systemu (wizualizacja wiedzy, system ekspercki …)

8 Post-processing Etapy: Filtrowanie wiedzy Usunięcie wiedzy o niskiej jakości Jedna z koncepcji: ograniczenie zbioru do reguł ciekawych Subiektywna – wg użytkownika Obiektywna – oparta na danych Interpretacja Przedstawienie wiedzy w zrozumiałej formie Uzasadnienie wiedzy Testowanie wiedzy Weryfikacja modelu przez zbiór testowy Metoda testowania jest zależna od algorytmu i zadania

9 Działy Data Miningu Analiza poszukiwawcza Exploratory Data Analysis lub EDA Eksploracja danych dokonywane przez użytkownika Narzędzia interaktywne i graficzne: Kreślenie surowych danych, Kreślenie statystyk (średnie, odchylenia standardowe etc) Łączenie wykresów Problem: wizualizacja danych p- wymiarowych (p>3)

10 Działy Data Miningu Segmentacja danych grupowanie rekordów na n grup automatyczne wykrywanie naturalnych grup wykrywanie związków w danych (powiązania pomiędzy atrybutami) K-means, podejście statystyczne, …

11 Działy Data Miningu Modelowanie prognozujące Przewidywanie wartości jednej zmiennej (atrybut celu) na podstawie innych Classification (atrybut celu jest dyskretny) Regression (atrybut celu jest ciągły) Cel: zbudowanie warunku opisującego klasę IF {A} THEN Goal=1, IF {B} THEN Gloal=0 UIDImieNazwiskoWiekSaldoIl dzieciS. cyw.…Goal 1JanNowak Ż…1 2-Płatnik44100k1Ż…1 3PanDyrektor Ż…1 4KasiaNowak K…0

12 Działy Data Miningu Odkrywanie asocjacji i odstępstw Algorytm APRIORI Budowanie ciągów powiązań w oparciu o prawdopodobieństwo ich wystapienia TIDChlebMlekoPiwoCzekoladaPieluchyJajkaŚmietana… … … … … … … …

13 Działy Data Miningu Ekspoloracja złożonych typów danych (Odzyskiwanie przez treść) Analiza danych multimedialnych Analiza plików tekstowych Webmining (dokumenty z częściową strukturą) Szukanie w bazie wzorców podobnych do szukanego (wyszukiwarki internetowe)

14 Liderzy rozwiązań and many more…

15 Data Mining w SQL Server SQL Server Analysis Services Serwer OLAP Serwer data mining Business Intelligence Development Studio Zintegrowane środowisko developerskie

16 Dostępne algorytmy MS Decision Trees Algorithm Klasyfikacja i regresja Drzewa decyzyjne

17 MS Clustering Algorithm segmentacja MS Association Algorithm badanie asocjacji MS Sequence Clustering Algorithm grupowanie danych posiadających podobne sekwencje

18 Dostępne algorytmy cd MS Naive Bayes Algorithm klasyfikacja zakłada naiwnie że artybuty nie są skorelowane

19 Dostępne algorytmy cd MS Time Series Algorithm przewidywanie wartości artybutów ciągłych MS Neural Network Algorithm (SSAS) klasyfikacja i regresja danych wielowarstwowy perceptron MS Logistic Regression Algorithm sieć neuronowa bez warstwy ukrytej realizacja liniowej regresji MS Linear Regression Algorithm wariacja algorytmu drzew decyzyjnych realizacja liniowej regresji

20 Showtime Co chcemy zrobić: Podzielić obecnych klientów na segmenty Zbudować model który zasugeruje którzy potencjalni klienci staną się klientami firmy (jaka jest charakterystyka klienta) Narzędzia: BI Studio, SQL Server 2005

21 Pytania? Dziękuję za uwagę Bartosz Matosiuk


Pobierz ppt "Wprowadzenie do Data Miningu Bartosz Matosiuk. Agenda Data Mining Proces odkrywania wiedzy Działy DM Data Mining w SQL Server."

Podobne prezentacje


Reklamy Google