Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Analiza (odkrywanie) Asocjacji 2 Association rule learning

Podobne prezentacje


Prezentacja na temat: "Analiza (odkrywanie) Asocjacji 2 Association rule learning"— Zapis prezentacji:

1 Analiza (odkrywanie) Asocjacji 2 Association rule learning
Eksploracja Danych w wykładzie wykorzystano: materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych – Informatyka, Dr Hab. Hung Son Nguyen, Reguły asocjacyjne, wykład Analiza (odkrywanie) Asocjacji 2 Association rule learning Krzysztof Regulski, WIMiIP, KISiM,

2 Znajdowanie wzorców i reguł
Cel: znajdowanie przydatnych wzorców i reguł w dużych zbiorach danych. Jest to przykład nauki bez nauczyciela (podobnie, jak w przypadku algorytmów grupowania): algorytm nie ma określonej z góry prawidłowej odpowiedzi, zamiast tego ma opisać wewnętrzne zależności między atrybutami, Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. Indukcja reguł asocjacyjnych powstała w zastosowaniach analizy danych „koszyka sklepowego” (MBA – market basket analysis)

3 Model koszyka zakupów Model koszyka zakupów modelujemy najczęściej w postaci tzw. tablicy obserwacji.

4 Ufność i wsparcie Reguła postaci:  →φ
Wsparcie (sup) - stosunek liczby obserwacji, które spełniają warunek , do liczby wszystkich obserwacji (prawdopodobieństwo zajścia zdarzenia ) – jaka część transakcji potwierdza regułę. Ufność (conf) - stosunek liczby obserwacji, które spełniają warunek , do liczby obserwacji, które spełniają warunek  (warunkowe prawdopodobieństwo p( ) – wiarygodność reguły. Celem jest znalezienie wszystkich reguł spełniających warunek, że dokładność (ufność) jest większa niż ustalony próg pa (minconf) oraz wsparcie jest większe niż pewien próg ps (minsup) np. znalezienie wszystkich reguł ze wsparciem > 0,5 i dokładnością > 0,8 Mówimy, że reguła asocjacyjna  →φ jest silna jeżeli sup( →φ) ≥ minsup i conf( →φ) ≥ minconf

5 Klasyfikacja reguł asocjacyjnych ze względu wymiarowość przetwarzanych danych
Jednowymiarowa reguła asocjacyjna – jeżeli dane występujące w regule reprezentują tę samą dziedzinę wartości Wielowymiarowa reguła asocjacyjna – jeżeli dane występujące w regule reprezentują różne dziedziny wartości Pojęcie wymiaru wywodzi się z terminologii hurtowni danych, gdzie pojawia się w kontekście pojęcia analiza wielowymiarowa danych.

6 Klasyfikacja reguł asocjacyjnych ze względu stopień abstrakcji przetwarzanych danych
Jednopoziomowe reguły asocjacyjne (single-level association rules) – dane występujące w regule reprezentują ten sam poziom abstrakcji. Przykład: konkretne produkty zakupione w supermarkecie, wykłady, na które zarejestrowali się studenci na studiach, słowa kluczowe występujące w dokumentach tekstowych Wielopoziomowe lub uogólnione reguły asocjacyjne (multilevel lub generalized association rules) – dane występujące w bazie danych tworzą pewną hierarchię poziomów abstrakcji. Przykładowo, produkty w supermarkecie można poklasyfikować według kategorii produktu: produkt 'pieluszki_Pampers' należy do kategorii 'środki_czystości'; produkt 'piwo_żywiec' należy do kategorii ‘napoje_alkoholowe‘;

7 Zbiory częste Zbiory częste – proste wzorce mówiące, które elementy sensownie często występują wspólnie (zbiory elementów dla których wsparcie ≥ minsup)

8 Algorytm Apriori Generowanie częstych zbiorów
Algorytm rozpoczyna działanie od znalezienia wszystkich częstych (co najmniej minsup) zbiorów jednoelementowy L1. Następnie L1 jest wykorzystywany do generowania dwuelementowych zbiorów kandydujących C2(candidate itemsets), L2 - rodziny częstych zbiorów dwuelementowych, który z kolei jest używany do generowania L3, itd. aż do momentu, gdy nie ma więcej częstych zbiorów k-elementowych. warunek połączeniowy – pierwszych k-1 elementów musi być identycznych W oparciu o otrzymane zbiory częste, są generowane binarne reguły asocjacyjne. Na etapie generacji reguł pomijamy zbiory częste 1-elementowe, gdyż prowadziłyby one do reguł asocjacyjnych, których poprzednik lub następnik byłby zbiorem pustym.

9 Algorytm FP-Growth

10 Idea algorytmu – FP Growth
Diametralnie inne podejście do problemu odkrywania zbiorów częstych zaproponowano w algorytmie FP-Growth. Jest to metoda “Dziel i rządź” Baza danych jest przeskanowana dokładnie 2 razy: pierwszy raz: częstość wystąpienia każdego przedmiotu (item); drugi raz: Konstrukcja drzewa FP-tree. O rząd wielkości szybszy niż Apriori. W algorytmie tym proces odkrywania zbiorów częstych jest realizowany w dwóch krokach: Krok 1 - Kompresja bazy danych D do FP-drzewa Krok 2 - Eksploracja FP-drzewa w celu znalezienia zbiorów częstych

11 Kompresja bazy danych Krok 1: znajdowanie wszystkich 1-elementowych zbiorów częstych w bazie danych D Krok 2: transformacja każdej transakcji Ti ∈ D do postaci transakcji skompresowanej Tri, polegająca na usunięciu z Ti wszystkich elementów, które nie są częste Krok 3: posortowanie transakcji - dla każdej transakcji Tri, elementy transakcji są sortowane według malejących wartości ich wsparcia tworząc listę elementów Posortowane transakcje Tr1, Tr2, ..., Trn, w ostatnim etapie tego kroku, są transformowane do FP-drzewa

12 FP - drzewo FP-drzewo jest ukorzenionym, etykietowanym w wierzchołkach, grafem acyklicznym Korzeń grafu posiada etykietę "null", pozostałe wierzchołki grafu, zarówno wierzchołki wewnętrzne jak i liście, reprezentują 1-elementowe zbiory częste Z każdym wierzchołkiem grafu, za wyjątkiem korzenia, związana jest etykieta reprezentująca 1-elementowy zbiór częsty oraz licznik transakcji, reprezentujący liczbę transakcji wspierających dany zbiór

13 Transformacja do FP-drzewa
Utwórz korzeń FP-drzewa i przypisz mu etykietę „null" Odczytaj bazę danych D (po kompresji) i dla pierwszej transakcji Tr1 ∈ D utwórz ścieżkę w FP-drzewie, której początkiem jest korzeń drzewa Kolejność występowania elementów w posortowanej transakcji odpowiada kolejności wierzchołków w ścieżce reprezentującej daną transakcję Dla każdego wierzchołka należącego do ścieżki, wartość licznika transakcji jest początkowo równa 1

14 Transformacja do FP-drzewa
Dla kolejnej transakcji Tr2 utwórz ścieżkę rozpoczynającą się od korzenia Jeżeli lista elementów transakcji Tr2 posiada wspólny prefiks z listą elementów transakcji Tr1, wówczas nie tworzy nowych wierzchołków drzewa, lecz współdzieli istniejącą w FP-drzewie ścieżkę Pozostałe elementy transakcji Tr2, nie należące do wspólnego prefiksu, tworzą nowe wierzchołki połączone łukami - początkiem tej ścieżki jest wierzchołek Ik

15 Transformacja do FP-drzewa
Pojedyncza ścieżka w FP-drzewie, rozpoczynająca się w korzeniu drzewa, reprezentuje zbiór transakcji zawierających identyczne elementy Licznik transakcji ostatniego wierzchołka danej ścieżki zawiera informacje o liczbie transakcji wspierających zbiór elementów reprezentowanych przez wierzchołki grafu należące do tej ścieżki Tablica nagłówków elementów (tablica nagłówkowa) - Struktura pełniąca rolę katalogu, która dla każdego elementu wskazuje jego lokalizację w FP-drzewie - przyspiesza i ułatwia przeszukiwanie FP-drzewa Jeżeli dany element występuje wielokrotnie w FP-drzewie, wskaźniki do wierzchołków reprezentujących dany element tworzą listę wskaźników

16 Przykład FP-drzewa

17 Przykład FP-drzewa Ponownie skanuje bazę. Dla każdej transakcji:
usuwamy nieczęste items, sortujmy items, dodajemy ją do FP-tree

18 Przykład FP-drzewa Proces eksploracji FP-drzewa bazuje na obserwacji, że dla każdego 1-elementowego zbioru częstego α, wszystkie częste nadzbiory zbioru α są reprezentowane w FP-drzewie przez ścieżki zawierające wierzchołek α

19 Eksploracja FP-drzewa
Dla każdego 1-elementowego zbioru częstego α znajdujemy wszystkie ścieżki w FP-drzewie, których końcowym wierzchołkiem jest wierzchołek reprezentujący zbiór α. Pojedynczą ścieżkę, której końcowym wierzchołkiem jest α, nazywać będziemy ścieżką prefiksową wzorca α Z każdą prefiksową ścieżką wzorca α jest związany licznik częstości ścieżki, którego wartość odpowiada wartości licznika transakcji wierzchołka końcowego ścieżki reprezentującego zbiór α Zbiór wszystkich ścieżek prefiksowych wzorca tworzy warunkową bazę wzorca Warunkowa baza wzorca służy do konstrukcji tzw. warunkowego FP-drzewa wzorca α, oznaczanego Tree-α Warunkowe FP-drzewo jest następnie rekursywnie eksplorowane w celu znalezienia wszystkich zbiorów częstych zawierających zbiór α

20 Przykład minsup = 30% minconf = 70%

21 Przykład null orzeszki: 4 coca-cola: 1 coca-cola: 1 piwo: 3
pieluszki: 2 coca-cola: 1

22 Przykład Eksploracja FP- drzewa: null Rozpocznijmy od analizy ostatniego znalezionego 1-elementowego zbioru częstego - zbioru ‘pieluszki’ Jedyną ścieżką prefiksową wzorca ‘pieluszki’ jest ścieżka: {(orzeszki, piwo): 2} Licznik częstości tej ścieżki przyjmuje wartość licznika transakcji wierzchołka ‘pieluszki’ i jest równy 2 orzeszki coca-cola coca-cola piwo pieluszki: 2 coca-cola Ścieżka {(orzeszki, piwo): 2} tworzy warunkową bazę wzorca ‘pieluszki’. Warunkowe FP-drzewo, związane ze wzorcem `pieluszki', zawiera tylko jedną ścieżkę {(orzeszki: 2, piwo: 2)} Ścieżka ta generuje następujące zbiory częste: (orzeszki, piwo, pieluszki : 2), (orzeszki, pieluszki : 2) oraz (piwo, pieluszki : 2) Wsparcie wygenerowanych zbiorów częstych wynosi 40%

23 Przykład Warunkowe FP-drzewo, związane z wzorcem `coca-cola',
Przechodzimy do analizy kolejnego 1-elementowego zbioru częstego `coca-cola'. Warunkowa baza wzorca `coca-cola' zawiera dwie ścieżki prefiksowe: null {(orzeszki, piwo : 1)} i {(orzeszki : 1)} orzeszki coca-cola: 1 coca-cola: 1 piwo Warunkowe FP-drzewo, związane z wzorcem `coca-cola', zawiera tylko jeden wierzchołek {(orzeszki : 2)} i generuje tylko jeden zbiór częsty (orzeszki, coca-cola : 2) o wsparciu 40% pieluszki coca-cola: 1

24 Przykład 1-elementowy zbiór częsty `piwo‘: warunkowa baza danych zawiera tylko jedną ścieżkę prefiksową: {(orzeszki: 3)} Warunkowe FP-drzewo, związane ze wzorcem `piwo', zawiera tylko jeden wierzchołek {(orzeszki: 3)} i generuje tylko jeden zbiór częsty o wsparciu 60% {(orzeszki, piwo: 3)} 1-elementowy zbiór częsty ‘orzeszki’: warunkowa baza wzorca ‘orzeszki’ jest zbiorem pustym, gdyż FP-drzewo nie zawiera żadnych ścieżek prefiksowych dla wzorca ‘orzeszki’ null orzeszki: 3 coca-cola coca-cola piwo: 3 pieluszki coca-cola

25 Przykład Wynikiem działania algorytmu FP-Growth są następujące zbiory częste

26 Generacja reguł Na etapie generacji reguł pomijane są zbiory częste jednoelementowe. W przypadku pozostałych zbiorów reguły generowane są jako wszystkie permutacje elementów do nich należących. Przykładowo, dla zbioru 2, 3, 5 można wygenerować następujące reguły: 2 3 → 5 2 5 → 3 3 5 → 2 2 → 3 5 3 → 2 5 5 → 2 3

27 Wielopoziomowe reguły asocjacyjne

28 Wielopoziomowe reguły asocjacyjne
W wielu dziedzinach zastosowań eksploracji danych trudno jest odkryć silne, interesujące i nieznane binarne reguły asocjacyjne Problem: „rzadka” baza danych Użytkownicy mogą być zainteresowani nie tyle znalezieniem konkretnych grup produktów/usług kupowanych razem, ile znalezieniem asocjacji pomiędzy nazwanymi grupami produktów

29 Wielopoziomowe reguły asocjacyjne
Przykładowa wielopoziomowa reguła asocjacyjna: 50% klientów kupujących pieczywo (chleb, bułki, rogale, itp.) kupuje również sok owocowy Reguły asocjacyjne reprezentujące asocjacje pomiędzy nazwanymi grupami elementów (produktów, zdarzeń, cech, usług, itp.) nazywamy wielopoziomowymi lub uogólnionymi regułami asocjacyjnymi Operują na ogólniejszych hierarchiach pojęciowych, które są czytelniejsze i łatwiejsze do analizy, oraz reprezentują uogólnioną wiedzę. Wielopoziomowych reguł asocjacyjnych nie można wyprowadzić ze zbioru jednopoziomowych reguł asocjacyjnych. Wynika to z faktu, że wsparcie wierzchołka wewnętrznego taksonomii elementów nie jest równe sumie wsparć jego następników w taksonomii. W pojedynczej transakcji mogą występować elementy należące do tego samego wierzchołka wewnętrznego. Co więcej, w pojedynczej transakcji mogą wystąpić, wielokrotnie, elementy należące do różnych wierzchołków wewnętrznych taksonomii.

30 Taksonomia elementów Taksonomia elementów (hierarchia wymiaru) – klasyfikacja pojęciowa elementów. Taksonomia elementów ma, najczęściej, charakter naturalny i wynika z ogólnie przyjętej klasyfikacji elementów. Dla zbioru elementów I może być zdefiniowanych jednocześnie wiele taksonomii. opisuje relacje generalizacji/specjalizacji pomiędzy elementami ma postać ukorzenionego grafu (tzw. drzewa), którego liśćmi są pojedyncze elementy zbioru I, natomiast wierzchołkami wewnętrznymi nazwane grupy elementów korzeniem grafu jest zbiór wszystkich elementów I

31 Taksonomia elementów Przykładowa taksonomia produktów supermarketu

32 Podstawowe pojęcia Dany jest zbiór elementów I oraz dana jest taksonomia elementów H Mówimy, że transakcja T wspiera element x ∈ I, jeżeli: x ∈T, lub x jest poprzednikiem dowolnego elementu a∈T w taksonomii H Transakcja T wspiera zbiór X, jeżeli wspiera każdy element zbioru X

33 Wielopoziomowe reguły asocjacyjne multilevel association rule, generalized association rule
Wielopoziomową regułą asocjacyjną nazywamy relację postaci X → Y, gdzie X ∈ I, Y ∈ I, X ∩ Y ≠ ∅ i żaden element y ∈ Y nie jest poprzednikiem żadnego elementu x ∈ X poprzednik i/lub następnik reguły zawiera nazwaną grupę elementów taksonomii Definicje wsparcia i ufności reguły wielopoziomowej – identyczne jak w przypadku binarnych reguł asocjacyjnych

34 Sformułowanie problemu
Problem odkrywania wielopoziomowych reguł asocjacyjnych można zdefiniować następująco: Dana jest baza danych transakcji T oraz taksonomia elementów H – należy znaleźć wszystkie wielopoziomowe reguły asocjacyjne, których wsparcie jest większe lub równe pewnej minimalnej wartości wsparcia minsup i których ufność jest większa lub równa pewnej minimalnej wartości ufności minconf próg minimalnego wsparcia jest jednakowy dla wszystkich reguł niezależnie od tego, czy reguła opisuje asocjacje występujące na najniższym poziomie abstrakcji, to jest, asocjacje pomiędzy elementami zbioru I, czy też na wyższym poziomie abstrakcji, to jest, pomiędzy nazwanymi grupami elementów.

35 Podstawowy algorytm odkrywania wielopoziomowych reguł asocjacyjnych
Krok 1: Rozszerz każdą transakcję Ti ∈ D o zbiór poprzedników (nazwane grupy elementów) wszystkich elementów należących do transakcji (pomijamy w tym rozszerzeniu korzeń taksonomii i, ewentualnie, usuwamy wszystkie powtarzające się elementy) Krok 2: W odniesieniu do bazy danych tak rozszerzonych transakcji zastosuj dowolny algorytm odkrywania binarnych reguł asocjacyjnych (np. Apriori, PredictiveApriori, Tertius, …) Krok 3: Usuń wszystkie trywialne wielopoziomowe reguły asocjacyjne

36 Podstawowy algorytm odkrywania wielopoziomowych reguł asocjacyjnych
Trywialną wielopoziomową regułą asocjacyjną nazywamy regułę postaci „wierzchołek → poprzednik (wierzchołka)”, gdzie wierzchołek reprezentuje pojedynczy element lub nazwaną grupę elementów Do usuwania trywialnych reguł wykorzystaj taksonomię elementów Zastąp specjalizowane reguły jedną regułą uogólnioną: np. „bułki → napoje” i „rogale → napoje” zastąp regułą „pieczywo → napoje”

37 Wady podstawowego algorytmu
Rozszerzenie transakcji o poprzedniki elementów prowadzi do wzrostu średniego rozmiaru transakcji Wzrost średniego rozmiaru zbioru kandydującego Wzrost liczby iteracji algorytmu i zwiększenia liczby odczytów bazy danych Efektywność algorytmu Propozycje rozwiązania problemu efektywności algorytmu: algorytmy Cumulate, Stratify, Estimate, EstMerge Problem jednakowego minimalnego progu wsparcia dla wszystkich poziomów taksonomii elementów - konsekwencje: możliwość wykorzystania własność monotoniczności miary wsparcia (alg. Stratify) problem określenia wartości minimalnego wsparcia - algorytmy odkrywania wielopoziomowych reguł asocjacyjnych o zmiennym progu minimalnego wsparcia Multi_AssocRedSup

38 Zmienny próg minimalnego wsparcia
Założenie: dla każdego poziomu taksonomii elementów definiujemy niezależny próg minimalnego wsparcia Niższy poziom taksonomii – mniejszy próg minimalnego wsparcia Wsparcie zbiorów "coca_cola"' oraz "piwo"' wynosi 0.11, zatem, oba zbiory są częste. Wsparcie zbioru "napoje"' wynosi 0.22 i jest większe niż minsup dla poziomu i. Zatem, zbiór "napoje"' jest również zbiorem częstym. Gdyby przyjąć jednakowy próg minimalnego wsparcia, na przykład minsup = 0.2, wówczas tylko zbiór "napoje" byłby zbiorem częstym.

39 Ogólny algorytm o zmiennym progu minsup
Algorytm jest algorytmem schodzącym (ang. top down) Krok 1: poszukiwanie elementów częstych na najwyższym (najbardziej abstrakcyjnym) poziomie taksonomii Krok 2: poszukiwanie elementów częstych na kolejnych, niższych poziomach taksonomii – aż do osiągnięcia poziomu liści taksonomii Krok 3: poszukiwanie zbiorów częstych zawierających elementy częste należące do różnych poziomów taksonomii

40 Generowanie zbiorów częstych
Istnieje szereg wariantów znajdowania zbiorów częstych dla algorytmów odkrywania reguł o zmiennym progu minimalnego wsparcia: Strategia niezależnych poziomów Strategia krzyżowej filtracji zbioru k-elementowego Strategia krzyżowej filtracji pojedynczego elementu

41 Strategia niezależnych poziomów
strategia wyczerpująca poziomy taksonomii są wzajemnie niezależne każdy wierzchołek taksonomii jest analizowany niezależnie od swoich poprzedników lub następników wszystkie wierzchołki taksonomii reprezentują niezależne elementy (podobnie jak w przypadku odkrywania binarnych reguł asocjacyjnych) strategia analizuje wsparcie każdego zbioru kandydującego niezależnie od tego, czy jego poprzednik w taksonomii elementów jest zbiorem częstym czy też nie, prowadzi to do analizy wielu zbiorów kandydujących, które z definicji nie są zbiorami częstymi.

42 Strategia krzyżowej filtracji zbioru k-elementowego
analizie poddawane są tylko te zbiory kandydujące, których elementy są następnikami zbiorów częstych k-elementowych Przykładowo, jeżeli zbiór „piwo, pieczywo” jest zbiorem częstym, to zbiorami kandydującymi poddawanymi analizie są, na przykład, zbiory „piwo_żywiec, bułki_kajzerki” lub „piwo_lech, rogale”. prowadzi do automatycznego odrzucenia wielu interesujących częstych zbiorów kandydujących, dla których poprzedniki elementów należących do tych zbiorów nie są częste. Przykładowo, wsparcie grupy elementów „piwo_żywiec” > minsup zdefiniowanego dla tego poziomu taksonomii, natomiast wsparcie nazwanej grupy elementów "piwo" < minsup. Strategia ta automatycznie odrzuci zbiór „piwo_żywiec, art. higieny”, który może być zbiorem częstym.

43 Strategia krzyżowej filtracji pojedynczego elementu
jest próbą kompromisu zbiór kandydujący jest analizowany na i-tym poziomie jeżeli jego poprzednik na poziomie i-1 jest zbiorem częstym jeżeli zbiór x na poziomie i jest częsty, to analizie są poddawane jego następniki. Przykładowo, jeżeli zbiór „piwo” nie jest częsty, to w dalszej analizie pomija się zbiory „piwo_żywiec" oraz „piwo_lech”. strategia ta posiada jednak podobną wadę jak strategia krzyżowej filtracji zbioru k-elementowego, to jest, może ona prowadzić do automatycznego odrzucenia interesujących częstych zbiorów kandydujących, takich, dla których poprzedniki elementów należących do tych zbiorów nie są częste próbą rozwiązania tego problemu było zaproponowanie zmodyfikowanej wersji strategii krzyżowej filtracji pojedynczego elementu, nazwanej kontrolowaną strategią krzyżowej filtracji pojedynczego elementu (ang. controlled level-cross filtering strategy by single item).

44 Wielowymiarowe reguły asocjacyjne

45 Wielowymiarowe reguły asocjacyjne
Wielowymiarową regułą asocjacyjną nazywamy regułę, w której dane w niej występujące reprezentują różne dziedziny wartości Atrybuty (wymiary): ciągłe (ilościowe) kategoryczne (nominalne) Reguły wielowymiarowe określają współwystępowanie wartości danych ciągłych i/lub kategorycznych

46 Przykład Sprzedaż wina w sieci supermarketów:
sprzedaż wina jest mierzona ilością butelek sprzedanych w określonym przedziale czasu wartość tej miary jest funkcją następujących „wymiarów” analizy: czasu, rodzaju wina oraz oddziału supermarketu. Może się zatem zdarzyć, że różne wymiary analizy będą posiadały tą samą dziedzinę wartości. Na przykład, dla wymiarów „adres supermarketu” i „adres klienta”, dziedziną wartości będzie zbiór adresów reprezentowanych przez łańcuchy znaków.

47 Wielowymiarowe reguły asocjacyjne
wyniki głosowania na określoną partię polityczną osób o określonych parametrach Reguły: <Wiek: > ^ <Stan_cywilny: żonaty> → <Partia: A> sup = 50%, conf = 100% <Status_cywilny: kawaler> → <Partia: A> sup = 33%, conf = 66,6%

48 Problemy Dane ciągłe – atrybut „zarobek – wymagają dyskretyzacji
Brakujące dane (wartości puste – null values) pomiń rekordy zawierające brakujące dane spróbuj uzupełnić brakujące dane Uzupełnianie danych (imputacja) założenie o świecie otwartym (dowolne wartości) i świecie zamkniętym (wartości występujące w bazie danych) zastosuj algorytmy znajdowania zależności funkcyjnych w bazie danych

49 Transformacja problemu
Klasyczne podejście: transformacja problemu odkrywania wielowymiarowych reguł asocjacyjnych do problemu znajdowania binarnych reguł asocjacyjnych: dyskretyzacja atrybutów ciągłych – przedziały wartości Wiek [20, 29], [30,39], ... tworzenie rekordów postaci boolowskiej Atrybuty kategoryczne: każda wartość atrybutu stanowi osobny „produkt” Atrybuty ciągle: każdy przedział atrybutu stanowi osobny „produkt”

50 Transformacja problemu

51 Transformacja problemu
Załóżmy minsup=30% Zastosujmy algorytm Apriopri w celu znalezienia wszystkich zbiorów częstych i reguł asocjacyjnych Kolumna Id odpowiada identyfikatorom rekordów z oryginalnej relacji, natomiast kolumnę Produkty tworzymy w następujący sposób – wpisujemy dla danego rekordu numery atrybutów dla których dany rekord posiada wartość 1. Otrzymana tablica przypomina nam znaną tablicę, którą eksplorowaliśmy w celu znalezienia binarnych reguł asocjacyjnych. Możemy zastosować dowolny z algorytmów odkrywania binarnych reguł asocjacyjnych w celu znalezienia wszystkich zbiorów częstych i wszystkich reguł asocjacyjnych.

52 Transformacja problemu – znajdowanie zbiorów częstych
Przykłady reguł wygenerowanych ze zbioru L4: 1. wiek∈(40,49) i St.cywilny=“żonaty” i dochód∈(30tys.-39tys.) to Partia = ‘A’ 2. dochód∈(30tys.-39tys.) i St.cywilny =“żonaty” i Partia = ‘A’ to wiek∈(40,49)

53 Dyskretyzacja atrybutów ilościowych
Przedziały o równej szerokości – rozmiar każdego przedziału jest identyczny (np. przedziały 10tys. dla atrybutu „dochód”) Przedziały o równej gęstości – każdy przedział posiada zbliżoną (równą) liczbę rekordów przypisanych do przedziału Dyskretyzacja poprzez grupowanie (cluster-based) – przedziały odpowiadają skupieniom wartości dyskretyzowanego atrybutu

54 Dyskretyzacja atrybutów ilościowych
Dyskretyzacja może mieć charakter statyczny lub dynamiczny Dyskretyzacja statyczna – np. dyskretyzacja atrybutu na przedziały o równej szerokości lub gęstości Dyskretyzacja dynamiczna w oparciu o rozkład wartości atrybutu w oparciu o odległości pomiędzy wartościami atrybutu

55 Wielopoziomowe wielowymiarowe reguły asocjacyjne
Dla każdego atrybutu (wymiaru) bazy danych można zdefiniować hierarchię wymiaru (analogicznie do taksonomii elementów w przypadku wielopoziomowych reguł asocjacyjnych) Wielowymiarowe reguły asocjacyjne reprezentujące asocjacje pomiędzy nazwanymi poziomami hierarchii wymiarów atrybutów nazywamy wielopoziomowymi lub uogólnionymi wielowymiarowymi regułami asocjacyjnymi

56 Hierarchia wymiaru Przykładowa hierarchia wymiaru (atrybutu) „Dochód”
Przykładowa wielopoziomowa wielowymiarowa reguła: Jeżeli adres_zamieszkania=„miasto” i dochód = „średni” to preferencja_polityczna=„demokraci”

57 Przykłady wizualizacji

58 Przykłady wizualizacji

59 Przykłady wizualizacji


Pobierz ppt "Analiza (odkrywanie) Asocjacji 2 Association rule learning"

Podobne prezentacje


Reklamy Google