Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Krzysztof Regulski, WIMiIP, KISiM, Analiza (odkrywanie) Asocjacji 2 Association rule learning w wykładzie wykorzystano: 1.materiały.

Podobne prezentacje


Prezentacja na temat: "Krzysztof Regulski, WIMiIP, KISiM, Analiza (odkrywanie) Asocjacji 2 Association rule learning w wykładzie wykorzystano: 1.materiały."— Zapis prezentacji:

1 Krzysztof Regulski, WIMiIP, KISiM, Analiza (odkrywanie) Asocjacji 2 Association rule learning w wykładzie wykorzystano: 1.materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych – Informatyka, 2.Dr Hab. Hung Son Nguyen, Reguły asocjacyjne, wykład Eksploracja Danych

2 Znajdowanie wzorców i reguł — Cel: znajdowanie przydatnych wzorców i reguł w dużych zbiorach danych. — Jest to przykład nauki bez nauczyciela (podobnie, jak w przypadku algorytmów grupowania): algorytm nie ma określonej z góry prawidłowej odpowiedzi, zamiast tego ma opisać wewnętrzne zależności między atrybutami, — Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. — Indukcja reguł asocjacyjnych powstała w zastosowaniach analizy danych „koszyka sklepowego” (MBA – market basket analysis)

3 Model koszyka zakupów — Model koszyka zakupów modelujemy najczęściej w postaci tzw. tablicy obserwacji.

4 Ufność i wsparcie — Reguła postaci:  → φ » Wsparcie (sup) - stosunek liczby obserwacji, które spełniają warunek, do liczby wszystkich obserwacji (prawdopodobieństwo zajścia zdarzenia ) – jaka część transakcji potwierdza regułę. » Ufność (conf) - stosunek liczby obserwacji, które spełniają warunek, do liczby obserwacji, które spełniają warunek  (warunkowe prawdopodobieństwo p( ) – wiarygodność reguły. — Celem jest znalezienie wszystkich reguł spełniających warunek, że dokładność (ufność) jest większa niż ustalony próg p a (minconf) oraz wsparcie jest większe niż pewien próg p s (minsup) » np. znalezienie wszystkich reguł ze wsparciem > 0,5 i dokładnością > 0,8 — Mówimy, że reguła asocjacyjna  → φ jest silna jeżeli sup(  → φ ) ≥ minsup i conf(  → φ ) ≥ minconf

5 — Jednowymiarowa reguła asocjacyjna – jeżeli dane występujące w regule reprezentują tę samą dziedzinę wartości — Wielowymiarowa reguła asocjacyjna – jeżeli dane występujące w regule reprezentują różne dziedziny wartości — Pojęcie wymiaru wywodzi się z terminologii hurtowni danych, gdzie pojawia się w kontekście pojęcia analiza wielowymiarowa danych. Klasyfikacja reguł asocjacyjnych ze względu wymiarowość przetwarzanych danych

6 — Jednopoziomowe reguły asocjacyjne (single-level association rules) – dane występujące w regule reprezentują ten sam poziom abstrakcji. » Przykład: konkretne produkty zakupione w supermarkecie, wykłady, na które zarejestrowali się studenci na studiach, słowa kluczowe występujące w dokumentach tekstowych — Wielopoziomowe lub uogólnione reguły asocjacyjne (multilevel lub generalized association rules) – dane występujące w bazie danych tworzą pewną hierarchię poziomów abstrakcji. » Przykładowo, produkty w supermarkecie można poklasyfikować według kategorii produktu: produkt 'pieluszki_Pampers' należy do kategorii 'środki_czystości'; produkt 'piwo_żywiec' należy do kategorii ‘napoje_alkoholowe‘; Klasyfikacja reguł asocjacyjnych ze względu stopień abstrakcji przetwarzanych danych

7 Zbiory częste — Zbiory częste – proste wzorce mówiące, które elementy sensownie często występują wspólnie (zbiory elementów dla których wsparcie ≥ minsup )

8 Algorytm Apriori 1. Generowanie częstych zbiorów — Algorytm rozpoczyna działanie od znalezienia wszystkich częstych (co najmniej minsup) zbiorów jednoelementowy L 1. — Następnie L 1 jest wykorzystywany do generowania dwuelementowych zbiorów kandydujących C 2 (candidate itemsets), L 2 - rodziny częstych zbiorów dwuelementowych, który z kolei jest używany do generowania L 3, itd. aż do momentu, gdy nie ma więcej częstych zbiorów k-elementowych. warunek połączeniowy – pierwszych k-1 elementów musi być identycznych 2. W oparciu o otrzymane zbiory częste, są generowane binarne reguły asocjacyjne. Na etapie generacji reguł pomijamy zbiory częste 1- elementowe, gdyż prowadziłyby one do reguł asocjacyjnych, których poprzednik lub następnik byłby zbiorem pustym.

9 Algorytm FP-Growth

10 Idea algorytmu – FP Growth — Diametralnie inne podejście do problemu odkrywania zbiorów częstych zaproponowano w algorytmie FP-Growth. — Jest to metoda “Dziel i rządź” — Baza danych jest przeskanowana dokładnie 2 razy: » pierwszy raz: częstość wystąpienia każdego przedmiotu (item); » drugi raz: Konstrukcja drzewa FP-tree. — O rząd wielkości szybszy niż Apriori. — W algorytmie tym proces odkrywania zbiorów częstych jest realizowany w dwóch krokach: 1.Krok 1 - Kompresja bazy danych D do FP-drzewa 2.Krok 2 - Eksploracja FP-drzewa w celu znalezienia zbiorów częstych

11 Kompresja bazy danych 1. Krok 1: znajdowanie wszystkich 1-elementowych zbiorów częstych w bazie danych D 2. Krok 2: transformacja każdej transakcji T i ∈ D do postaci transakcji skompresowanej Tr i, polegająca na usunięciu z Ti wszystkich elementów, które nie są częste 3. Krok 3: posortowanie transakcji - dla każdej transakcji Tr i, elementy transakcji są sortowane według malejących wartości ich wsparcia tworząc listę elementów — Posortowane transakcje Tr 1, Tr 2,..., Tr n, w ostatnim etapie tego kroku, są transformowane do FP-drzewa

12 FP - drzewo — FP-drzewo jest ukorzenionym, etykietowanym w wierzchołkach, grafem acyklicznym — Korzeń grafu posiada etykietę "null", pozostałe wierzchołki grafu, zarówno wierzchołki wewnętrzne jak i liście, reprezentują 1-elementowe zbiory częste — Z każdym wierzchołkiem grafu, za wyjątkiem korzenia, związana jest etykieta reprezentująca 1-elementowy zbiór częsty oraz licznik transakcji, reprezentujący liczbę transakcji wspierających dany zbiór

13 Transformacja do FP-drzewa — Utwórz korzeń FP-drzewa i przypisz mu etykietę „null" — Odczytaj bazę danych D (po kompresji) i dla pierwszej transakcji Tr 1 ∈ D utwórz ścieżkę w FP-drzewie, której początkiem jest korzeń drzewa — Kolejność występowania elementów w posortowanej transakcji odpowiada kolejności wierzchołków w ścieżce reprezentującej daną transakcję — Dla każdego wierzchołka należącego do ścieżki, wartość licznika transakcji jest początkowo równa 1

14 Transformacja do FP-drzewa — Dla kolejnej transakcji Tr 2 utwórz ścieżkę rozpoczynającą się od korzenia — Jeżeli lista elementów transakcji Tr 2 posiada wspólny prefiks z listą elementów transakcji Tr 1, wówczas nie tworzy nowych wierzchołków drzewa, lecz współdzieli istniejącą w FP-drzewie ścieżkę — Pozostałe elementy transakcji Tr 2, nie należące do wspólnego prefiksu, tworzą nowe wierzchołki połączone łukami - początkiem tej ścieżki jest wierzchołek I k

15 Transformacja do FP-drzewa — Pojedyncza ścieżka w FP-drzewie, rozpoczynająca się w korzeniu drzewa, reprezentuje zbiór transakcji zawierających identyczne elementy — Licznik transakcji ostatniego wierzchołka danej ścieżki zawiera informacje o liczbie transakcji wspierających zbiór elementów reprezentowanych przez wierzchołki grafu należące do tej ścieżki » Tablica nagłówków elementów (tablica nagłówkowa) - Struktura pełniąca rolę katalogu, która dla każdego elementu wskazuje jego lokalizację w FP-drzewie - przyspiesza i ułatwia przeszukiwanie FP-drzewa » Jeżeli dany element występuje wielokrotnie w FP-drzewie, wskaźniki do wierzchołków reprezentujących dany element tworzą listę wskaźników

16 Przykład FP-drzewa

17 — Ponownie skanuje bazę. Dla każdej transakcji: 1.usuwamy nieczęste items, 2.sortujmy items, 3.dodajemy ją do FP-tree

18 Przykład FP-drzewa — Proces eksploracji FP-drzewa bazuje na obserwacji, że dla każdego 1-elementowego zbioru częstego α, wszystkie częste nadzbiory zbioru α są reprezentowane w FP-drzewie przez ścieżki zawierające wierzchołek α

19 Eksploracja FP-drzewa — Dla każdego 1-elementowego zbioru częstego α znajdujemy wszystkie ścieżki w FP-drzewie, których końcowym wierzchołkiem jest wierzchołek reprezentujący zbiór α. — Pojedynczą ścieżkę, której końcowym wierzchołkiem jest α, nazywać będziemy ścieżką prefiksową wzorca α — Z każdą prefiksową ścieżką wzorca α jest związany licznik częstości ścieżki, którego wartość odpowiada wartości licznika transakcji wierzchołka końcowego ścieżki reprezentującego zbiór α — Zbiór wszystkich ścieżek prefiksowych wzorca tworzy warunkową bazę wzorca — Warunkowa baza wzorca służy do konstrukcji tzw. warunkowego FP-drzewa wzorca α, oznaczanego Tree-α — Warunkowe FP-drzewo jest następnie rekursywnie eksplorowane w celu znalezienia wszystkich zbiorów częstych zawierających zbiór α

20 Przykład — minsup = 30% — minconf = 70%

21 Przykład null orzeszki: 4 coca-cola: 1piwo: 3 pieluszki: 2coca-cola: 1

22 Przykład Eksploracja FP- drzewa: Rozpocznijmy od analizy ostatniego znalezionego 1-elementowego zbioru częstego - zbioru ‘pieluszki’ Jedyną ścieżką prefiksową wzorca ‘pieluszki’ jest ścieżka: {(orzeszki, piwo): 2} Licznik częstości tej ścieżki przyjmuje wartość licznika transakcji wierzchołka ‘pieluszki’ i jest równy 2 null orzeszki coca-colapiwo pieluszki: 2coca-cola –Ścieżka {(orzeszki, piwo): 2} tworzy warunkową bazę wzorca ‘pieluszki’. –Warunkowe FP-drzewo, związane ze wzorcem `pieluszki', zawiera tylko jedną ścieżkę {(orzeszki: 2, piwo: 2)} –Ścieżka ta generuje następujące zbiory częste: (orzeszki, piwo, pieluszki : 2), (orzeszki, pieluszki : 2) oraz (piwo, pieluszki : 2) –Wsparcie wygenerowanych zbiorów częstych wynosi 40%

23 Przykład null orzeszki coca-cola: 1piwo pieluszkicoca-cola: 1 Przechodzimy do analizy kolejnego 1-elementowego zbioru częstego `coca-cola'. Warunkowa baza wzorca `coca-cola' zawiera dwie ścieżki prefiksowe: {(orzeszki, piwo : 1)} i {(orzeszki : 1)} Warunkowe FP-drzewo, związane z wzorcem `coca-cola', zawiera tylko jeden wierzchołek {(orzeszki : 2)} i generuje tylko jeden zbiór częsty (orzeszki, coca-cola : 2) o wsparciu 40%

24 Przykład null orzeszki: 3 coca-colapiwo: 3 pieluszkicoca-cola 1-elementowy zbiór częsty `piwo‘: warunkowa baza danych zawiera tylko jedną ścieżkę prefiksową: {(orzeszki: 3)} Warunkowe FP-drzewo, związane ze wzorcem `piwo', zawiera tylko jeden wierzchołek {(orzeszki: 3)} i generuje tylko jeden zbiór częsty o wsparciu 60% {(orzeszki, piwo: 3)} 1-elementowy zbiór częsty ‘orzeszki’: warunkowa baza wzorca ‘orzeszki’ jest zbiorem pustym, gdyż FP-drzewo nie zawiera żadnych ścieżek prefiksowych dla wzorca ‘orzeszki’

25 Przykład — Wynikiem działania algorytmu FP-Growth są następujące zbiory częste

26 Generacja reguł — Na etapie generacji reguł pomijane są zbiory częste jednoelementowe. — W przypadku pozostałych zbiorów reguły generowane są jako wszystkie permutacje elementów do nich należących. — Przykładowo, dla zbioru 2, 3, 5 można wygenerować następujące reguły: 2 3 → → → 2 2 → → → 2 3

27 Wielopoziomowe reguły asocjacyjne

28 — W wielu dziedzinach zastosowań eksploracji danych trudno jest odkryć silne, interesujące i nieznane binarne reguły asocjacyjne — Problem: „rzadka” baza danych — Użytkownicy mogą być zainteresowani nie tyle znalezieniem konkretnych grup produktów/usług kupowanych razem, ile znalezieniem asocjacji pomiędzy nazwanymi grupami produktów

29 Wielopoziomowe reguły asocjacyjne — Przykładowa wielopoziomowa reguła asocjacyjna: 50% klientów kupujących pieczywo (chleb, bułki, rogale, itp.) kupuje również sok owocowy — Reguły asocjacyjne reprezentujące asocjacje pomiędzy nazwanymi grupami elementów (produktów, zdarzeń, cech, usług, itp.) nazywamy wielopoziomowymi lub uogólnionymi regułami asocjacyjnymi — Operują na ogólniejszych hierarchiach pojęciowych, które są czytelniejsze i łatwiejsze do analizy, oraz reprezentują uogólnioną wiedzę. — Wielopoziomowych reguł asocjacyjnych nie można wyprowadzić ze zbioru jednopoziomowych reguł asocjacyjnych. – Wynika to z faktu, że wsparcie wierzchołka wewnętrznego taksonomii elementów nie jest równe sumie wsparć jego następników w taksonomii. – W pojedynczej transakcji mogą występować elementy należące do tego samego wierzchołka wewnętrznego. Co więcej, w pojedynczej transakcji mogą wystąpić, wielokrotnie, elementy należące do różnych wierzchołków wewnętrznych taksonomii.

30 Taksonomia elementów — Taksonomia elementów (hierarchia wymiaru) – klasyfikacja pojęciowa elementów. Taksonomia elementów ma, najczęściej, charakter naturalny i wynika z ogólnie przyjętej klasyfikacji elementów. Dla zbioru elementów I może być zdefiniowanych jednocześnie wiele taksonomii. — opisuje relacje generalizacji/specjalizacji pomiędzy elementami — ma postać ukorzenionego grafu (tzw. drzewa), którego liśćmi są pojedyncze elementy zbioru I, natomiast wierzchołkami wewnętrznymi nazwane grupy elementów — korzeniem grafu jest zbiór wszystkich elementów I

31 Taksonomia elementów — Przykładowa taksonomia produktów supermarketu

32 Podstawowe pojęcia — Dany jest zbiór elementów I oraz dana jest taksonomia elementów H — Mówimy, że transakcja T wspiera element x ∈ I, jeżeli: » x ∈ T, lub » x jest poprzednikiem dowolnego elementu a ∈ T w taksonomii H — Transakcja T wspiera zbiór X, jeżeli wspiera każdy element zbioru X

33 Wielopoziomowe reguły asocjacyjne multilevel association rule, generalized association rule — Wielopoziomową regułą asocjacyjną nazywamy relację postaci X → Y, gdzie X ∈ I, Y ∈ I, X ∩ Y ≠ ∅ i żaden element y ∈ Y nie jest poprzednikiem żadnego elementu x ∈ X — poprzednik i/lub następnik reguły zawiera nazwaną grupę elementów taksonomii — Definicje wsparcia i ufności reguły wielopoziomowej – identyczne jak w przypadku binarnych reguł asocjacyjnych

34 Sformułowanie problemu — Problem odkrywania wielopoziomowych reguł asocjacyjnych można zdefiniować następująco: — Dana jest baza danych transakcji T oraz taksonomia elementów H – należy znaleźć wszystkie wielopoziomowe reguły asocjacyjne, których wsparcie jest większe lub równe pewnej minimalnej wartości wsparcia minsup i których ufność jest większa lub równa pewnej minimalnej wartości ufności minconf » próg minimalnego wsparcia jest jednakowy dla wszystkich reguł niezależnie od tego, czy reguła opisuje asocjacje występujące na najniższym poziomie abstrakcji, to jest, asocjacje pomiędzy elementami zbioru I, czy też na wyższym poziomie abstrakcji, to jest, pomiędzy nazwanymi grupami elementów.

35 Podstawowy algorytm odkrywania wielopoziomowych reguł asocjacyjnych 1. Krok 1: Rozszerz każdą transakcję T i ∈ D o zbiór poprzedników (nazwane grupy elementów) wszystkich elementów należących do transakcji (pomijamy w tym rozszerzeniu korzeń taksonomii i, ewentualnie, usuwamy wszystkie powtarzające się elementy) 2. Krok 2: W odniesieniu do bazy danych tak rozszerzonych transakcji zastosuj dowolny algorytm odkrywania binarnych reguł asocjacyjnych (np. Apriori, PredictiveApriori, Tertius, …) 3. Krok 3: Usuń wszystkie trywialne wielopoziomowe reguły asocjacyjne

36 — Trywialną wielopoziomową regułą asocjacyjną nazywamy regułę postaci „wierzchołek → poprzednik (wierzchołka)”, gdzie wierzchołek reprezentuje pojedynczy element lub nazwaną grupę elementów — Do usuwania trywialnych reguł wykorzystaj taksonomię elementów — Zastąp specjalizowane reguły jedną regułą uogólnioną: » np. „bułki → napoje” i „rogale → napoje” zastąp regułą „pieczywo → napoje” Podstawowy algorytm odkrywania wielopoziomowych reguł asocjacyjnych

37 Wady podstawowego algorytmu 1. Rozszerzenie transakcji o poprzedniki elementów prowadzi do wzrostu średniego rozmiaru transakcji 2. Wzrost średniego rozmiaru zbioru kandydującego 3. Wzrost liczby iteracji algorytmu i zwiększenia liczby odczytów bazy danych 4. Efektywność algorytmu — Propozycje rozwiązania problemu efektywności algorytmu: » algorytmy Cumulate, Stratify, Estimate, EstMerge — Problem jednakowego minimalnego progu wsparcia dla wszystkich poziomów taksonomii elementów - konsekwencje: » możliwość wykorzystania własność monotoniczności miary wsparcia (alg. Stratify) » problem określenia wartości minimalnego wsparcia - algorytmy odkrywania wielopoziomowych reguł asocjacyjnych o zmiennym progu minimalnego wsparcia Multi_AssocRedSup

38 Zmienny próg minimalnego wsparcia — Założenie: dla każdego poziomu taksonomii elementów definiujemy niezależny próg minimalnego wsparcia — Niższy poziom taksonomii – mniejszy próg minimalnego wsparcia Wsparcie zbiorów "coca_cola"' oraz "piwo"' wynosi 0.11, zatem, oba zbiory są częste. Wsparcie zbioru "napoje"' wynosi 0.22 i jest większe niż minsup dla poziomu i. Zatem, zbiór "napoje"' jest również zbiorem częstym. Gdyby przyjąć jednakowy próg minimalnego wsparcia, na przykład minsup = 0.2, wówczas tylko zbiór "napoje" byłby zbiorem częstym.

39 Ogólny algorytm o zmiennym progu minsup Algorytm jest algorytmem schodzącym (ang. top down) 1. Krok 1: poszukiwanie elementów częstych na najwyższym (najbardziej abstrakcyjnym) poziomie taksonomii 2. Krok 2: poszukiwanie elementów częstych na kolejnych, niższych poziomach taksonomii – aż do osiągnięcia poziomu liści taksonomii 3. Krok 3: poszukiwanie zbiorów częstych zawierających elementy częste należące do różnych poziomów taksonomii

40 Generowanie zbiorów częstych — Istnieje szereg wariantów znajdowania zbiorów częstych dla algorytmów odkrywania reguł o zmiennym progu minimalnego wsparcia: » Strategia niezależnych poziomów » Strategia krzyżowej filtracji zbioru k-elementowego » Strategia krzyżowej filtracji pojedynczego elementu

41 Strategia niezależnych poziomów — strategia wyczerpująca — poziomy taksonomii są wzajemnie niezależne — każdy wierzchołek taksonomii jest analizowany niezależnie od swoich poprzedników lub następników — wszystkie wierzchołki taksonomii reprezentują niezależne elementy (podobnie jak w przypadku odkrywania binarnych reguł asocjacyjnych) — strategia analizuje wsparcie każdego zbioru kandydującego niezależnie od tego, czy jego poprzednik w taksonomii elementów jest zbiorem częstym czy też nie, prowadzi to do analizy wielu zbiorów kandydujących, które z definicji nie są zbiorami częstymi.

42 Strategia krzyżowej filtracji zbioru k-elementowego — analizie poddawane są tylko te zbiory kandydujące, których elementy są następnikami zbiorów częstych k-elementowych » Przykładowo, jeżeli zbiór „piwo, pieczywo” jest zbiorem częstym, to zbiorami kandydującymi poddawanymi analizie są, na przykład, zbiory „piwo_żywiec, bułki_kajzerki” lub „piwo_lech, rogale”. — prowadzi do automatycznego odrzucenia wielu interesujących częstych zbiorów kandydujących, dla których poprzedniki elementów należących do tych zbiorów nie są częste. » Przykładowo, wsparcie grupy elementów „piwo_żywiec” > minsup zdefiniowanego dla tego poziomu taksonomii, natomiast wsparcie nazwanej grupy elementów "piwo" < minsup. » Strategia ta automatycznie odrzuci zbiór „piwo_żywiec, art. higieny”, który może być zbiorem częstym.

43 Strategia krzyżowej filtracji pojedynczego elementu — jest próbą kompromisu — zbiór kandydujący jest analizowany na i-tym poziomie jeżeli jego poprzednik na poziomie i-1 jest zbiorem częstym » jeżeli zbiór x na poziomie i jest częsty, to analizie są poddawane jego następniki. » Przykładowo, jeżeli zbiór „piwo” nie jest częsty, to w dalszej analizie pomija się zbiory „piwo_żywiec" oraz „piwo_lech”. — strategia ta posiada jednak podobną wadę jak strategia krzyżowej filtracji zbioru k-elementowego, to jest, może ona prowadzić do automatycznego odrzucenia interesujących częstych zbiorów kandydujących, takich, dla których poprzedniki elementów należących do tych zbiorów nie są częste — próbą rozwiązania tego problemu było zaproponowanie zmodyfikowanej wersji strategii krzyżowej filtracji pojedynczego elementu, nazwanej kontrolowaną strategią krzyżowej filtracji pojedynczego elementu (ang. controlled level-cross filtering strategy by single item).

44 Wielowymiarowe reguły asocjacyjne

45 — Wielowymiarową regułą asocjacyjną nazywamy regułę, w której dane w niej występujące reprezentują różne dziedziny wartości — Atrybuty (wymiary): » ciągłe (ilościowe) » kategoryczne (nominalne) — Reguły wielowymiarowe określają współwystępowanie wartości danych ciągłych i/lub kategorycznych

46 Przykład — Sprzedaż wina w sieci supermarketów: » sprzedaż wina jest mierzona ilością butelek sprzedanych w określonym przedziale czasu » wartość tej miary jest funkcją następujących „wymiarów” analizy: czasu, rodzaju wina oraz oddziału supermarketu. — Może się zatem zdarzyć, że różne wymiary analizy będą posiadały tą samą dziedzinę wartości. » Na przykład, dla wymiarów „adres supermarketu” i „adres klienta”, dziedziną wartości będzie zbiór adresów reprezentowanych przez łańcuchy znaków.

47 Wielowymiarowe reguły asocjacyjne Reguły: ^ → » sup = 50%, conf = 100% → » sup = 33%, conf = 66,6% wyniki głosowania na określoną partię polityczną osób o określonych parametrach

48 Problemy — Dane ciągłe – atrybut „zarobek – wymagają dyskretyzacji — Brakujące dane (wartości puste – null values) » pomiń rekordy zawierające brakujące dane » spróbuj uzupełnić brakujące dane — Uzupełnianie danych (imputacja) » założenie o świecie otwartym (dowolne wartości) i świecie zamkniętym (wartości występujące w bazie danych) » zastosuj algorytmy znajdowania zależności funkcyjnych w bazie danych

49 Transformacja problemu — Klasyczne podejście: transformacja problemu odkrywania wielowymiarowych reguł asocjacyjnych do problemu znajdowania binarnych reguł asocjacyjnych: » dyskretyzacja atrybutów ciągłych – przedziały wartości » Wiek [20, 29], [30,39],... — tworzenie rekordów postaci boolowskiej » Atrybuty kategoryczne: każda wartość atrybutu stanowi osobny „produkt” » Atrybuty ciągle: każdy przedział atrybutu stanowi osobny „produkt”

50 Transformacja problemu

51 — Kolumna Id odpowiada identyfikatorom rekordów z oryginalnej relacji, natomiast kolumnę Produkty tworzymy w następujący sposób – wpisujemy dla danego rekordu numery atrybutów dla których dany rekord posiada wartość 1. — Otrzymana tablica przypomina nam znaną tablicę, którą eksplorowaliśmy w celu znalezienia binarnych reguł asocjacyjnych. — Możemy zastosować dowolny z algorytmów odkrywania binarnych reguł asocjacyjnych w celu znalezienia wszystkich zbiorów częstych i wszystkich reguł asocjacyjnych. Załóżmy minsup=30% Zastosujmy algorytm Apriopri w celu znalezienia wszystkich zbiorów częstych i reguł asocjacyjnych

52 Transformacja problemu – znajdowanie zbiorów częstych Przykłady reguł wygenerowanych ze zbioru L4: 1. wiek ∈ (40,49) i St.cywilny=“żonaty” i dochód ∈ (30tys.-39tys.) to Partia = ‘A’ 2. dochód ∈ (30tys.-39tys.) i St.cywilny =“żonaty” i Partia = ‘A’ to wiek ∈ (40,49)

53 Dyskretyzacja atrybutów ilościowych — Przedziały o równej szerokości – rozmiar każdego przedziału jest identyczny (np. przedziały 10tys. dla atrybutu „dochód”) — Przedziały o równej gęstości – każdy przedział posiada zbliżoną (równą) liczbę rekordów przypisanych do przedziału — Dyskretyzacja poprzez grupowanie (cluster-based) – przedziały odpowiadają skupieniom wartości dyskretyzowanego atrybutu

54 Dyskretyzacja atrybutów ilościowych Dyskretyzacja może mieć charakter statyczny lub dynamiczny — Dyskretyzacja statyczna – np. dyskretyzacja atrybutu na przedziały o równej szerokości lub gęstości — Dyskretyzacja dynamiczna » w oparciu o rozkład wartości atrybutu » w oparciu o odległości pomiędzy wartościami atrybutu

55 Wielopoziomowe wielowymiarowe reguły asocjacyjne — Dla każdego atrybutu (wymiaru) bazy danych można zdefiniować hierarchię wymiaru (analogicznie do taksonomii elementów w przypadku wielopoziomowych reguł asocjacyjnych) — Wielowymiarowe reguły asocjacyjne reprezentujące asocjacje pomiędzy nazwanymi poziomami hierarchii wymiarów atrybutów nazywamy wielopoziomowymi lub uogólnionymi wielowymiarowymi regułami asocjacyjnymi

56 Hierarchia wymiaru — Przykładowa hierarchia wymiaru (atrybutu) „Dochód” — Przykładowa wielopoziomowa wielowymiarowa reguła: Jeżeli adres_zamieszkania=„miasto” i dochód = „średni” to preferencja_polityczna=„demokraci”

57 Przykłady wizualizacji

58

59


Pobierz ppt "Krzysztof Regulski, WIMiIP, KISiM, Analiza (odkrywanie) Asocjacji 2 Association rule learning w wykładzie wykorzystano: 1.materiały."

Podobne prezentacje


Reklamy Google