Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych

Slides:



Advertisements
Podobne prezentacje
7. Metody analizy i modelowania strukturalnego SI
Advertisements

TRADYCYJNE METODY PLANOWANIA I ORGANIZACJI PROCESÓW PRODUKCYJNYCH
Data Mining w e-commerce
Modelowanie przypadków użycia
Mechanizm wnioskowania rozmytego
Badania operacyjne. Wykład 1
Badania operacyjne. Wykład 2
Wykład no 11.
PRYWATNE UBEZPIECZENIA ZDROWTNE
Makroekonomia I Ćwiczenia
Statystyka w doświadczalnictwie
Algorytmy generowania reguł decyzyjnych
Systemy dynamiczne 2010/2011Systemy i sygnały - klasyfikacje Kazimierz Duzinkiewicz, dr hab. inż.Katedra Inżynierii Systemów Sterowania 1 Dlaczego taki.
Wykład 7 Wojciech Pieprzyca
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
Odkrywanie wzorców sekwencji
SZTUCZNA INTELIGENCJA ARTIFICIAL INTELLIGENCE
P O P Y T , P O D A Ż.
SYSTEMY INFORMATYCZNE - Altamira, CRM i Remedy
Teoria wyboru konsumenta
FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak
Wykład 4 Analiza i projektowanie obiektowe
Wykład 3 Analiza i projektowanie strukturalne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Bazy Danych II prowadzący: mgr inż. Leszek Siwik
Podstawy układów logicznych
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Sieci bayesowskie Wykonali: Mateusz Kaflowski Michał Grabarczyk.
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy otoczenia społeczno -demograficznego
Algorytm DIC Dynamic Itemset Countin
DOŚWIADCZENIA LOSOWE.
Wybrane zagadnienia relacyjnych baz danych
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
III EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Projektowanie relacyjnych baz danych – postacie normalne
Regresja wieloraka.
Diagramy przypadków użycia ALINA SUCHOMSKA. Przypadki użycia systemu  technika wyznaczania funkcjonalnych wymagań systemu  opisują typowe interakcje.
Łódź 2008 Banki danych WYKŁAD 2 dr Łukasz Murowaniecki T-109.
Testowanie hipotez statystycznych
Model obiektowy bazy danych
Podstawowe funkcje ekonomiczne
Zagadnienia AI wykład 2.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Zagadnienia AI wykład 5.
Projektowanie relacyjnych baz danych – diagramy związków encji
Analiza regresji wielokrotnej c.d.
Rozkład wariancji z próby (rozkład  2 ) Pobieramy próbę x 1,x 2,...,x n z rozkładu normalnego o a=0 i  =1. Dystrybuanta rozkładu zmiennej x 2 =x 1 2.
Metody Sztucznej Inteligencji – technologie rozmyte i neuronowe Wnioskowanie Mamdani’ego - rozwinięcia  Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii.
Analiza (odkrywanie) Asocjacji 2 Association rule learning
Modelowanie model związków encji
SKLEP DETEKTYWISTYCZNY „LUPA”. Polityka działalności sklepu:  Tylko markowe produkty  Aby mieć pewność, że sprzęt który Państwo kupujecie został zaprojektowany.
Podstawowe pojęcia i terminy stosowane w statystyce
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
STATYSTYKA – kurs podstawowy wykład 12 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Systemy rozmyte – wnioskowanie Mamdani’ego II © Kazimierz Duzinkiewicz, dr hab.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Transformacja modelu EER do modelu relacyjnego
Elementy cyfrowe i układy logiczne
Inżynieria systemów informacyjnych
Podstawowe rodzaje modeli rozmytych
Podstawy teorii zachowania konsumentów
Podstawy teorii zachowania konsumentów
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Selekcja danych Korelacja.
Zapis prezentacji:

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych

Geneza problemu Geneza problemu odkrywania reguł asocjacyjnych: problem analizy koszyka zakupów (MBA – Market Basket Analysis) Dane: baza danych zawierająca informacje o zakupach realizowanych przez klientów supermarketu Cel: znalezienie grup produktów, które klienci supermarketu najczęściej kupują razem

Analiza koszyka zakupów Celem analizy MBA jest znalezienie naturalnych wzorców zachowań konsumenckich klientów Znalezione wzorce zachowań mogą być wykorzystane: organizacji pólek w supermarkecie opracowania akcji promocyjnych opracowania katalogu oferowanych produktów

Zastosowanie MBA – (1) Znaleziony wzorzec: „ktoś kto kupuje pieluszki, najczęściej kupuje również piwo” Akcja promocyjna: (typowy trick) Ogłoś obniżkę cen pieluszek, jednocześnie podnieś cenę piwa Organizacja sklepu: Staraj się umieszczać produkty kupowane wspólnie w przeciwległych końcach sklepu, zmuszając klientów do przejścia przez cały sklep

Zastosowanie MBA – (2) MBA znajduje zastosowanie wszędzie tam, gdzie „klienci” nabywają łącznie pewien zbiór dóbr lub usług: Telekomunikacja (koszykiem jest zbiór rozmów telefonicznych) Analiza pogody (koszykiem jest zbiór zdarzeń pogodowych, które wystąpiły w danym przedziale czasu) Bankowość Diagnostyka medyczna Karty kredytowe

Model koszyka zakupów Model koszyka zakupów jest pewną abstrakcją umożliwiającą modelowanie relacji wiele-do wiele pomiędzy encjami „produkty” i „koszyki” Formalnie, model koszyka zakupów można opisać za pomocą tzw. tablicy obserwacji

Tablica obserwacji – (1) Dany jest zbiór atrybutów A= {A1, A2, ..., An} oraz zbiór obserwacji T = {T1, T2, ..., Tm}

Tablica obserwacji – (2) Atrybuty tablicy reprezentują wystąpienia encji „produkty” Wiersze tablicy reprezentują wystąpienia encji „koszyki” Dodatkowy atrybut tr_id - wartościami atrybutu są identyfikatory poszczególnych obserwacji Pozycja Ti[Aj] = 1 tablicy wskazuje, że i-ta obserwacja zawiera wystąpienie j-tego atrybutu

Tablica obserwacji – (3) „Koszyki” = studenci, „produkty” = wykłady oferowane przez uczelnię MBA – poszukiwanie wykładów, które studenci wybierają najczęściej łącznie „Koszyki” = strony WWW, „produkty” = słowa kluczowe MBA – poszukiwanie stron WWW opisanych tymi samymi, lub podobnymi, zbiorami słów kluczowych (prawdopodobnie, znalezione strony dotyczą podobnej problematyki)

Skala problemu Rozwiązanie problemu MBA musi być skalowalne: Supermarket: sprzedaje ponad 150 000 produktów i przechowuje informacje o miliardach wykonanych transakcji rocznie Web zawiera kilka miliardów stron i zawiera ponad 100 milionów słów

Reguły asocjacyjne - (1) Wynikiem analizy koszyka jest zbiór reguł asocjacyjnych postaci następującej relacji: {(Ai1 = 1)  ...  (Aik = 1)  {(Aik+1 = 1)  ...  (Aik+l = 1) (1) Interpretacja reguły: „jeżeli klient kupił produkty Ai1, Ai2, ..., Aik, to prawdopodobnie kupił również produkty Aik+1, Aik+2, ..., Aik+l”

Reguły asocjacyjne - (2) Regułę asocjacyjną (1) można przedstawić jednoznacznie w równoważnej postaci   : (Ai1, Ai2, ..., Aik)  (Aik+1, Aik+2, ..., Aik+l) Z każdą regułą asocjacyjną    związane są dwie podstawowe miary określające statystyczną ważność i siłę reguły: wsparcie - sup(  ) ufność - conf(  )

Reguły asocjacyjne - (3) Wsparciem sup reguły asocjacyjnej    nazywać będziemy stosunek liczby obserwacji, które spełniają warunek   , do liczby wszystkich obserwacji (wsparcie reguły = prawdopodobieństwu zajścia zdarzenia    ) Ufnością conf reguły asocjacyjnej    nazywać będziemy stosunek liczby obserwacji, które spełniają warunek   , do liczby obserwacji, które spełniają warunek  (ufność reguły = warunkowemu prawdopodobieństwu p(| )

Klasyfikacja reguł asocjacyjnych Klasyfikacja reguł asocjacyjnych ze względu na: typ przetwarzanych danych wymiarowość przetwarzanych danych stopień abstrakcji przetwarzanych danych Inne typy reguł asocjacyjnych Asocjacje vs. analiza korelacji

Typ przetwarzanych danych – (1) Wyróżniamy: binarne reguły asocjacyjne ilościowe reguły asocjacyjne Regułę asocjacyjną nazywamy binarną, jeżeli dane występujące w regule są danymi (zmiennymi) binarnymi Regułę asocjacyjną nazywamy ilościową, jeżeli dane występujące w regule są danymi ciągłymi i/lub kategorycznymi

Typ przetwarzanych danych – (2) Binarna reguła asocjacyjna: pieluszki =1  piwo =1 (reprezentuje współwystępowanie danych) Ilościowa reguła asocjacyjna: wiek = ’30...40’  wykształcenie = ‘wyższe’  opcja_polityczna =‘demokrata’ (reprezentuje współwystępowanie wartości danych)

Wymiarowość przetwarzanych danych – (1) Wyróżniamy: jednowymiarowe reguły asocjacyjne wielowymiarowe reguły asocjacyjne Regułę asocjacyjną nazywamy jednowymiarową, jeżeli dane występujące w regule reprezentują tę samą dziedzinę wartości Regułę asocjacyjną nazywamy wielowymiarową, jeżeli dane występujące w regule reprezentują różne dziedziny wartości

Wymiarowość przetwarzanych danych – (2) Jednowymiarowa reguła asocjacyjna: pieluszki =1  piwo =1 Wielowymiarowa reguła asocjacyjna: wiek = ’30...40’  wykształcenie = ‘wyższe’  opcja_polityczna =‘demokrata’

Stopień abstrakcji przetwarzanych danych – (1) Wyróżniamy: jednopoziomowe reguły asocjacyjne wielopoziomowe reguły asocjacyjne Regułę asocjacyjną nazywamy jednopoziomową, jeżeli dane występujące w regule reprezentują ten sam poziom abstrakcji Regułę asocjacyjną nazywamy wielopoziomową, jeżeli dane występujące w regule reprezentują różne poziomy abstrakcji

Stopień abstrakcji przetwarzanych danych – (2) Jednopoziomowa reguła asocjacyjna: pieluszki_Pampers =1  piwo_Zywiec =1 Wielopoziomowa reguła asocjacyjna: pieluszki_Pampers =1  piwo_Zywiec =1  napoje = 1 (produkt napoje reprezentuje pewna abstrakcję, będącą generalizacją określonych produktów)

Odkrywanie binarnych reguł asocjacyjnych Dane: I={i1, i2, ..., in}: zbiór literałów, nazywanych dalej elementami, Transakcja T: zbiór elementów, takich że T I i T , Baza danych D: zbiór transakcji, Transakcja T wspiera element x  I, jeżeli x  T Transakcja T wspiera zbiór X  I, jeżeli T wspiera każdy element ze zbioru X, X  T

Reguły asocjacyjne – miary (1) Binarną regułą asocjacyjną (krótko, regułą asocjacyjną) nazywamy relację postaci X  Y, gdzie X  I, Y  I, i X  Y =  Reguła X  Y posiada wsparcie sup w bazie danych D, 0  sup  1, jeżeli sup% transakcji w D wspiera zbiór X  Y Reguła X  Y posiada ufność conf w bazie danych D, 0  conf  1, jeżeli conf% transakcji w D, które wspierają zbiór X, wspierają również Y

Reguły asocjacyjne – miary (2) wsparcie(X  Y): oznacza liczbę transakcji w bazie danych, które potwierdzają daną regułę – miara wsparcia jest symetryczna względem zbiorów stanowiących poprzednik i następnik reguly ufność(X  Y): oznacza stosunek liczby transakcji zawierających X  Y do liczby transakcji zawierających X – miara ta jest asymetryczna względem zbiorów stanowiących poprzednik i następnik reguły

Reguły asocjacyjne – miary (3) Ograniczenia miar (definiowane przez użytkownika): Minimalne wsparcie – minsup Minimalna ufność - minconf Mówimy, że reguła asocjacyjna X  Y jest silna jeżeli sup(X  Y)  minsup i conf(X  Y)  minconf Dana jest baza danych transakcji. Należy znaleźć wszystkie silne binarne reguły asocjacyjne

Przykład Zakładając minsup = 50% i minconf=50%, w przedstawionej bazie danych można znaleźć następujące reguły asocjacyjne: A  C sup = 50%, conf=66,6% C  A sup = 50%, conf=100%

Inne miary oceny reguł asocjacyjnych Conviction conviction(A  C) =(|D| -sup(C))/(|D|(1-conf (A  C)) Lift lift(A  C) =(|D| conf(A  C))/(sup (A  C)) Interest interest(A  C) = (sup(A, C))/(sup(A)*sup(C))