Techniki eksploracji danych

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Data Mining w e-commerce
Klasyfikacja danych Metoda hierarchiczne
Inteligencja Obliczeniowa Metody probabilistyczne.
Wykład 28 Włodzisław Duch Uniwersytet Mikołaja Kopernika
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
ALGORYTM Co to jest algorytm?
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Elementy Modelowania Matematycznego
Regresja w EXCELU.
Zrównoleglanie programu sekwencyjnego
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Miary jednej cechy Miary poziomu Miary dyspersji Miary asymetrii (skośności)
Analiza współzależności
Pomoc w ocenie warunków pogodowych początkującym pilotom szybowców
Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
Krzysztof Suchecki wybrana prezentacja z konferencji ECCS'07 w Dreźnie Interacting Random Boolean Networks.
Paweł Kramarski Seminarium Dyplomowe Magisterskie 2
Grupowanie.
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
Linear Methods of Classification
Additive Models, Trees, and Related Methods
Sieci Hopfielda.
Zastosowanie drzew do obliczania prawdopodobieństw zdarzeń
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 4: Generowanie zdarzeń  Dr inż. Halina Tarasiuk p. 337, tnt.tele.pw.edu.pl.
Testy nieparametryczne
nieformalnie: Prawie o tym jak mierzyć zawartość cukru w cukrze...
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Używanie eksploracji danych w systemach IT
Uczenie w Sieciach Rekurencyjnych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
formalnie: Naiwny klasyfikator Bayesa
Analiza komórek w cytofluorymetrii przepływowej przy pomocy narzędzi Data Mining serwera SQL 2008 R2 Marcin Szeliga Trener & Konsultant
EXCEL Wykład 4.
Spis treści W świecie algortmów -Budowa algorytmu
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
III EKSPLORACJA DANYCH
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
Politechniki Poznańskiej
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
EXCEL Wstęp do lab. 4. Szukaj wyniku Prosta procedura iteracyjnego znajdowania niewiadomej spełniającej warunek będący jej funkcją Metoda: –Wstążka Dane:
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
SZTUCZNA INTELIGENCJA
Temat 3: Podstawy programowania Algorytmy – 2 z 2 _________________________________________________________________________________________________________________.
 Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Metody sztucznej inteligencji – Technologie rozmyte i neuronoweSystemy.
© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,
„Filtry i funkcje bazodanowe w EXCELU”
Autorzy: Gabriela Gasyna, Agata Szewczak, Anna Szewczyk
Algorytmy. Co to jest algorytm? Przepis prowadzący do rozwiązania zadania.
STATYSTYKA – kurs podstawowy wykład 11
Inteligencja Obliczeniowa Perceptrony o dużym marginesie błędu
Systemy neuronowo – rozmyte
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Perceptrony o dużym marginesie błędu
Jednorównaniowy model regresji liniowej
Metody Eksploracji Danych
Perceptrony o dużym marginesie błędu
Zapis prezentacji:

Techniki eksploracji danych Marcin Szeliga

Marcin Szeliga Piętnastoletnie doświadczenie w pracy z serwerem SQL Trener i konsultant Autor książek i artykułów Microsoft Most Valuable Professional w kategorii SQL

Agenda Klasyfikacja Segmentacja Analiza sekwencyjna Microsoft Naive Bayes Microsoft Decision Trees Segmentacja Microsoft Clustering Analiza sekwencyjna Microsoft Sequence Clustering

Klasyfikacja Klasyfikacja jest formą analizy predykcyjnej polegającej na przewidywaniu jednej lub więcej podanych wartości Jej wynikiem może być prosta odpowiedź Tak lub Nie, bądź Prawda lub Fałsz, ale może to być również jedna z wielu wartości, np. nazwa towaru czy nazwisko klienta W serwerze SQL 2008 klasyfikację powinno się przeprowadzać za pomocą algorytmu drzew decyzyjnych, regresji logistycznej, naiwnego klasyfikatora Bayesa lub sieci neuronowych

Microsoft Naive Bayes Klasyczny algorytm uczenia przez obserwację Skoro Kowalski spóźniał się codziennie przez 5 lat, to jutro pewnie też się spóźni Należy do klasyfikatorów liniowych i nie nadaje się do rozwiązywania nieliniowych problemów Takich jak określenie koloru pola szachownicy

Microsoft Naive Bayes Połączenie prawdopodobieństwa warunkowego i bezwarunkowego Bezwarunkowe (początkowe) prawdopodobieństwo zależy od rozkładu przypadków 60 % klientów to kobiety Warunkowe prawdopodobieństwo zależy od zaobserwowanych faktów 80% mężczyzn dzwoni dwa razy

Microsoft Naive Bayes Prawdopodobieństwa są mnożone: Każde z nich ma taki sam wpływ na wynik … O ile atrybuty wejściowe są od siebie niezależne Ilość zwracanych korelacji można kontrolować MINIMUM_DEPENDENCY_PROBABILITY

Microsoft Naive Bayes DEMONSTRACJA Klasyfikatory liniowe

Microsoft Decision Trees Klasyczny algorytm wspomagania procesu decyzyjnego Dla każdego przewidywanego atrybutu tworzone jest osobne drzewo W pierwszej kolejności obliczane są zależności pomiędzy atrybutami wejściowymi Ich miarą jest poziom entropii, punkty Bayesa lub ważone punkty Bayesa Jeżeli wszyscy planują studia, wynikiem jest 0 Jeżeli połowa osób planuje studia, wynik jest maksymalny SCORE_METHOD

Microsoft Decision Trees Wybierany jest atrybut którego podział wyznaczy korzeń drzewa Następnie przeprowadzany jest rekurencyjny podział danych na podzbiory Każdy atrybut wejściowy ma wpływ na podział COMPLEXITY_PENALTY Jeżeli przewidywany atrybut jest ciągły, przeprowadzana jest regresja Reguła regresji będzie inna dla każdego węzła drzewa FORCE_REGRESSOR

Microsoft Decision Trees Wartości mogą być dzielone binarnie lub całkowicie ryzyko = wysokie lub ryzyko = inne niż wysokie ryzyko = wysokie lub ryzyko = średnie lub ryzyko = niskie SPLIT_METHOD

Microsoft Decision Trees DEMONSTRACJA Uzupełniamy brakujące dane

Segmentacja Segmentacja polega na grupowaniu rekordów i w przeciwieństwie do obu wcześniej przedstawionych technik nie jest formą analizy predykcyjnej. Zamiast tego pozwala ona łączyć w klastry przypadki mające podobną charakterystykę W serwerze SQL 2008 segmentację powinno się przeprowadzać za pomocą algorytmu klastrowania lub klastrowania sekwencyjnego.

Microsoft Clustering Segmentacja danych na podstawie ukrytych w nich zależności W obrębie segmentów różnice pomiędzy przypadkami powinny być jak najmniejsze, pomiędzy segmentami – jak największe Proces heurystyczny Podajemy liczbę klastrów Pierwszy układ klastrów jest pseudolosowy (we wszystkich wymiarach) Ponieważ od niego w dużym stopniu zależą wyniki, algorytm tworzy kilka początkowych układów kandydujących i na końcu wybiera najlepszy Następnie zmienia się klastry tak, aby przypadki znalazły się w ich środkach Proces powtarza się dopóki przypadki zmieniają klastry MODELLING_CARDINALITY

Microsoft Clustering K-Means Klastry są reprezentowane przez ich centralne punkty Obliczana jest odległość Euklidesa przypadków od klastrów W przypadku atrybutów dyskretnych ocena odległości jest arbitralna Dokładna tylko dla sferycznych manifoldów Bardzo czuły na skrajne wartości Przypadek trafi tylko do jednego (najbliższego) klastra Odległości nie są bezpośrednio dostępne Możemy je porównać wywołując funkcję ClusterProbability CLUSTERING_METHOD 3 (Scalable K-Means) 4 (Non-scalable K-Means)

Microsoft Clustering EM (Expectation Maximization) Technika modelowania statystycznego Krok E – obliczenie prawdopodobieństwa przynależności przypadku do klastrów Krok M – zmiana parametrów modelu Przepadek z reguły trafia do kilku klastrów CLUSTERING_METHOD 1 (Scalable EM) 2 (Non-scalable EM)

Microsoft Clustering DEMONSTRACJA Wykrywamy nietypowe dane

Analiza sekwencyjna Przedstawione do tej pory techniki eksploracji danych nie uwzględniały kolejności, w jakiej występowały badane przez nie zdarzenia. Analiza sekwencyjna wykrywa właśnie często powtarzające się sekwencje zdarzeń W serwerze SQL 2008 analizę sekwencyjną powinno się przeprowadzać za pomocą algorytmu klastrowania sekwencyjnego.

Microsoft Sequence Clustering Łańcuch Markowa – ciąg zdarzeń, w którym prawdopodobieństwo każdego zdarzenia zależy jedynie od wyniku poprzednich zdarzeń W tym przypadku tylko od prawdopodobieństwa poprzedniego zdarzenia

Microsoft Sequence Clustering  

Microsoft Sequence Clustering DEMONSTRACJA Adaptacyjny interfejs

Techniki eksploracji danych Marcin Szeliga