Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Prezentacja firmy Remigiusz Siudziński Warszawa,
Data Mining w e-commerce
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Badania operacyjne. Wykład 1
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
zarządzanie produkcją
badania rynku turystycznego
Hurtownie Danych Mariusz Dołęga.
STRATEGIA WDRAŻANIA PROJEKTU INNOWACYJNEGO TESTUJĄCEGO STRATEGIA WDRAŻANIA PROJEKTU INNOWACYJNEGO TESTUJĄCEGO l istopad 2010 rok Projekt współfinansowany.
INFORMAYZACJA PRZEDSIĘBIORSTW
1 Kryteria wyboru systemów: Przystępując do procesu wdrażania zintegrowanego systemu zarządzania, należy odpowiedzieć na następujące pytania związane z.
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Odkrywanie wzorców sekwencji
1 Investing in the New Europe Rozwój eCommerce w sektorze finansowym z perspektywy inwestora kapitałowego Krzysztof Kulig Partner Innova Capital Warszawa.
Additive Models, Trees, and Related Methods
Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny
KONCEPCJA DZIAŁALNOŚCI
Typy systemów informacyjnych
Multimedialne bazy danych
Wykład 2 Cykl życia systemu informacyjnego
Zarządzanie 1. Zarządzanie
Zarządzanie projektami
MATEMATYCZNE MODELOWANIE SYSTEMÓW
GOSPODARKA OPARTA NA DANYCH
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ i ZARZĄDZANIA
Kilka uwag ogólnych o danych zastanych (wtórnych)
Rynek usług medycznych
Metadane w opisie hurtowni danych oraz procesie ETL
Techniki eksploracji danych
GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Kryteria wyboru systemów:
Moduł: Informatyka w Zarządzaniu
Wybrane zagadnienia relacyjnych baz danych
Program Operacyjny Kapitał Ludzki
Planowanie przepływów materiałów
dr Łukasz Murowaniecki T-109
INFORMACJA MARKETINGOWA
MS Excel - wspomaganie decyzji
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
w ekonomii, finansach i towaroznawstwie
III EKSPLORACJA DANYCH
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
VII EKSPLORACJA DANYCH
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Operacyjne sterowanie produkcją
Seminarium licencjackie Beata Kapuścińska
Analiza kluczowych czynników sukcesu
1. 2 Zarządzanie wiedzą i kwalifikacjami pracowników jako element procesu restrukturyzacji procesu restrukturyzacji Maciej Łukawski.
Charakterystyka powszechnie stosowanych metod badawczych
Eksploatacja zasobów informatycznych przedsiębiorstwa.
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Analiza wskaźnikowa i analiza dyskryminacyjna
Zintegrowane systemy informatyczne
Zintegrowane systemy informatyczne
WYKŁAD dr Krystyna Kmiotek
WPROWADZENIE DO ZAJĘĆ SCHEMAT ĆWICZEŃ I METODYKA Marketing Usług Finansowych.
Katedra Logistyki dr Cezary Gradowicz. Katedra Logistyki kierując się potrzebą uzupełnienia i poszerzenia wiedzy podstawowej oferowanej w ramach przedmiotów.
BIZNESPLAN OPRACOWAŁA: DOROTA PIEKARSKA
1. Cel pracy Moja ocena systemów klasy MRP/ERP w kategorii wzorców projektowych. Hipoteza badawcza Zastosowanie systemów MRP/ERP jako wzorców projektowych.
Zastosowanie metod statystycznych w obszarze CRM.
Systemy neuronowo – rozmyte
Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania
Statystyka i opracowanie danych
Metody Eksploracji Danych
Dr Dorota Rozmus Katedra Analiz Gospodarczych i Finansowych
Zapis prezentacji:

Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania Eksploracja Danych Eksploracja danych (1) Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania www.metal.agh.edu.pl/~regulski Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Plan wykładów Wprowadzenie do Eksploracji Danych Repetytorium z probabilistyki i statystyki Przygotowanie i wstępna obróbka danych Dobór, eliminacja i redukcja liczby zmiennych Klasyfikacja. Regresja. Grupowanie. Odkrywanie asocjacji. Odkrywanie wzorców sekwencji. Analiza szeregów czasowych. Analiza przeżycia. Eksploracja tekstu. Eksploracja sieci Web. KISIM, WIMiIP, AGH

Literatura Uczelnia on-line (http://wazniak.mimuw.edu.pl/) Projekt sfinansowano ze środków Europejskiego Funduszu Społecznego z programu Sektorowy Program Operacyjny Rozwój Zasobów Ludzkich 2004 - 2006. StatSoft: Metody statystyki i data mining w badaniach naukowych, Statystyka i data mining w praktyce, Nowoczesne narzędzia gromadzenia, udostępniania i analizy danych: STATISTICA Data Miner i Sybase IQ Morzy T., Eksploracja Danych. Metody i algorytmy, WN-PWN, Warszawa 2013 Larose D.T., Metody i modele eksploracji danych, WN-PWN, W-wa, 2008 Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000 Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000 Klosgen W., Żytkow J.M., Handbook of Data Mining and Knowledge discovery, Oxford University Press, 2002 J. Hand, H. Mannila, P. Smyth, Eksploracja danych, WNT, Warszawa 2001 P. Cichosz, Systemy uczące się, WNT, 2000 T. Morzy, Odkrywanie asocjacji: Algorytmy i struktury danych, OWN, 2004 KISIM, WIMiIP, AGH

Zasady zaliczenia Laboratorium opracowanie danych (dobór zmiennych, selekcja, próba losowa, etc.) opracowanie modelu drzewa decyzyjnego opracowanie modelu grupowania (klasteryzacja) przygotowanie sprawozdania sprawozdanie oddane po terminie: stopień w dół każde zajęcia są oceniane KOLOKWIUM z wykładu (*) (*) obecność na wykładach oraz wysokie oceny z laboratoriów i projektu mogą zapewnić zwolnienie z kolokwium z wykładów KISIM, WIMiIP, AGH

Zasady zaliczenia Projekt każde zajęcia są punktowane ustalenie zbioru danych / źródeł np.: http://archive.ics.uci.edu/ml/ (własne, oryginalne dane + pkt) wybór modelu/techniki eksploracji danych postawienie problemu badawczego opracowanie danych (dobór zmiennych, selekcja etc) wybór algorytmów, narzędzi programistycznych (np. STATISTICA) (porównanie dwóch algorytmów/programów +pkt); - realizacja drzew decyzyjnych; - analiza skupień; - opracowanie wybranego przez siebie algorytmu data mining; opracowanie sprawozdania przygotowanie prezentacji na 5,0 (bdb)   projekt oddany po terminie: stopień w dół prezentacja nie wygłoszona: kolejny stopień w dół KISIM, WIMiIP, AGH

Zasady zaliczenia Ocena końcowa (z syllabusa) Ocena końcowa (OK) to średnia ważona: Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW) (*) OK = 0,4*OP + 0,3*OL + 0,3*OW(*) Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji (*) obecność na wykładach oraz wysokie oceny z laboratoriów i projektu mogą zapewnić zwolnienie z kolokwium z wykładów z uznaniem oceny z projektu, wtedy OK=0,6*OP+0,4*OL KISIM, WIMiIP, AGH

Eksploracja Danych Data Mining

Zalew danych Bez analizy przechowywanych danych przechowywanie takich wolumenów danych nie ma najmniejszego sensu. UC Irvine Machine Learning Repository http://archive.ics.uci.edu/ml/ KISIM, WIMiIP, AGH

Czym jest eksploracja danych? Eksploracja danych: proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców, schematów, podobieństw lub trendów w dużych repozytoriach danych. Celem eksploracji danych jest analiza danych i procesów dla lepszego ich zrozumienia Odkrywane w procesie eksploracji danych wzorce mają najczęściej postać reguł logicznych, klasyfikatorów (np. drzew decyzyjnych), zbiorów skupień, wykresów, równań liniowych, itp. Eksploracja danych to etap odkrywania wiedzy w bazach danych KDD (Knowledge Discovery in Databases). KISIM, WIMiIP, AGH

Dane a wiedza Toniemy w danych, a brakuje nam wiedzy jaka jest w tych danych zawarta. Bez analizy przechowywanych danych przechowywanie takich wolumenów danych nie ma najmniejszego sensu. „Wiedza jest specyficznym rodzajem zasobów – w przeciwieństwie do wszystkich innych, przybywa jej w miarę używania” G.Probst KISIM, WIMiIP, AGH

KOMPONENTY KAPITAŁU INTELEKTUALNEGO liczbę zleceń na klienta lojalność (czas współpracy z klientem) liczbę utraconych klientów udział w rynku rozpoznawalność marki znaki handlowe inwestycje w marketing kompetencje pracowników rotacja pracowników poziom motywacji odbyte szkolenia wiedza zawarta w dokumentach KAPITAŁ LUDZKI KAPITAŁ KLIENCKI KAPITAŁ PROCESÓW KAPITAŁ INNOWACJI procedury i techniki produkcyjne systemy zarządzania jakością jakość produktów odsetek braków patenty: wartość, stan wykorzystania – korzyści płynące z patentu inwestycje w badania i rozwój odnawialność technologii IT KISIM, WIMiIP, AGH

Rodzaj kapitału a funkcja zarządzania KISIM, WIMiIP, AGH

Zarządzanie wiedzą (Knowledge Management) G.Probst, S.Raub, K. Romhardt Zarządzanie wiedzą (KM) - pełni rolę koordynacyjną w przedsiębiorstwie. Tworzy warunki do tworzenia lub pozyskiwania wiedzy, dzielenia się nią i wykorzystywania zajmuje się wiedzą, czyli kapitałem ludzkim – jest jedną z „funkcji” zarządzania kapitałem intelektualnym. Rolą KM jest zapewnienie sprawnego przepływu informacji i wiedzy pomiędzy wszystkimi częściami organizacji. KISIM, WIMiIP, AGH

Typy zapytań do repozytoriów danych OLAP można interpretować jako rozszerzenie standardu SQL o możliwość efektywnego przetwarzania złożonych zapytań zawierających agregaty. Niestety, analiza porównawcza zagregowanych danych, która jest podstawa modelu OLAP, operuje na zbyt szczegółowym poziomie abstrakcji i nie pozwala na formułowanie bardziej ogólnych zapytań. KISIM, WIMiIP, AGH

Zapytania eksploracyjne Eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika, oraz tych problemów, dla których nie dysponujemy pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych. Praktyczne pożytki ekstrahowania danych: prognozowanie (ang. prediction, forecasting), opis (ang. description). KISIM, WIMiIP, AGH

Zastosowania Eksploracji Danych eksploracji danych o ruchu internetowym, marketing, e-marketing rozpoznawaniu sygnałów obrazu, mowy, pisma, wspomaganiu diagnostyki medycznej, badaniach genetycznych, analizie operacji bankowych, projektowaniu hurtowni danych, tworzeniu reklam skierowanych (ang. Targeted ads), prognozowaniu sprzedaży (ang. Sales forecast), wdrażaniu strategii Cross-selling'owej, wykrywaniu nadużyć (ang. Fraud detection), ocenie ryzyka kredytowego, ubezpieczeniowego segmentacji klientów. KISIM, WIMiIP, AGH

Zastosowanie w telekomunikacji* Zadanie Zastosowane Metody Efekty Wyszukiwanie anomalii działania sieci na podstawie logów routerów w sieci korporacyjnej reguły asocjacyjne, grupowanie Zbiór reguł (które potwierdziły wiedzę ekspertów) Przewidywanie ruchu w sieci komórkowej Grupowanie, drzewa decyzyjne, regresja Model predykcyjny ruchu w sieci z akceptowalnym przez ekspertów błędem Przewidywanie anomalii w działaniu sieci komórkowej; analiza w pojedynczych komórkach reguły asocjacyjne, drzewa decyzyjne, wizualizacje Zbiór reguł :95% reguł znanych ekspertom – oczywistych, 4% potwierdzających ich intuicje, 1% interesujących Przewidywanie anomalii w działaniu sieci komórkowej, z uwzględnieniem wpływu komórek sąsiednich Zbiór reguł :90% reguł znanych ekspertom – oczywistych, 7% potwierdzających ich intuicje, 3% interesujących Wykrywanie sekwencji czasowych alarmów w sieci komórkowej reguły asocjacyjne, własne metody badania sekwencji czasowych Eksperyment w toku * Muraszkiewicz, M.: "Eksploracja danych dla telekomunikacji", materiały konferencyjne - VI Konferencja PLOUG, Systemy informatyczne w dobie Internetu", Zakopane, 23-27 listopada, 2000. KISIM, WIMiIP, AGH

Data Mining w bankowości zarządzanie relacjami z klientem - wykorzystywane są do wyznaczania „ocen” poszczególnych klientów oraz przewidywania prawdopodobieństwa zachowania się klienta w określony sposób. Na przykład, mogą mierzyć skłonność klienta do posiadania określonej karty kredytowej lub do reagowania na produkty konkurencji. segmentacja i profilowanie klientów - jak scharakteryzować klientów, którzy przynoszą największe zyski? Można na nie odpowiedzieć tworząc modele w oparciu o dane transakcyjne, geo-demograficzne, styl życia, profile sprzedażowe klientów oraz ich historię relacji z bankiem. analiza dochodowości - umożliwiają ocenę bieżącej wartości klienta, jak i jej predykcję w oparciu o estymowaną krzywą przeżycia. monitoring relacji z klientem - modele aktywacji klientów w zakresie wykorzystania posiadanych produktów oraz usług bankowych, które przede wszystkim analizują spadki trendów użycia produktu lub usługi. Zawierają również analizy ryzyka rezygnacji klienta z usług oraz analizy czasu przetrwania klienta. zarządzanie ofertą - identyfikacja na podstawie danych historycznych najlepszych ofert dla poszczególnych klientów oraz identyfikacja grup produktów często kupowanych razem. Są one konstruowane w oparciu o analizy koszykowe, segmentacje klientów lub produktów oraz modele predykcyjne. zarządzanie i optymalizacja kampanii marketingowych - optymalizacja procesu marketingowego ze względu na koszty stałe kampanii, alokację zasobów, koszty druku materiałów, koszty kontaktu z klientem itd. zarządzanie ryzykiem - inwestorzy mają możliwość alokacji kapitału w te segmenty rynku lub instrumenty finansowe, które maksymalizują zysk lub minimalizują ryzyko, ponieważ dzięki nim mogą stworzyć szczegółowe analizy oparte na wielu scenariuszach uwzględniających oczekiwaną wartość aktywów lub oczekiwany zwrot z inwestycji kapitału oraz ryzyko. wykrywanie oszustw; KISIM, WIMiIP, AGH

WebMining - zastosowania Odkrywanie i analiza informacji gromadzonych w serwisie (web content mining): wydzielenie tematów (przestrzenie tematyczne) analiza tekstów (text mining) katalogowanie zawartości na podstawie założonych kryteriów (crawlery) Odkrywanie i analiza wzorców korzystania z serwisu przez użytkowników (web usage mining) analiza logów wykrywanie sesji w serwisach bez identyfikacji wykrywanie ścieżek nawigacyjnych wykrywanie „wzorców sposobów korzystania” struktura obciążenia systemu Analiza struktury serwisu - analiza korzystania z odsyłaczy (web structure mining) wykrywanie nieużywanych, błędnych, ścieżki „na około”, martwe końcówki KISIM, WIMiIP, AGH

Proces odkrywania wiedzy Hetoregeniczne źródła danych wybór zmiennych przekształcenia interpretacja i ocena odkrytych struktur KISIM, WIMiIP, AGH

Dziedziny naukowe eksploracji danych Eksploracja danych to zadanie interdyscyplinarne: statystyka, technologie bazodanowe, uczenie maszynowe, rozpoznawanie wzorców, sztuczna inteligencja, wizualizacja. “Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać” KISIM, WIMiIP, AGH

Metody eksploracji danych klasyfikacja/regresja (classifications) grupowanie/analiza skupień (clustering) odkrywanie sekwencji (sequential patterns) odkrywanie charakterystyk analiza przebiegów czasowych (time-series similarities) odkrywanie asocjacji (associations) wykrywanie zmian i odchyleń (deviation detection) eksploracja WWW eksploracja tekstów KISIM, WIMiIP, AGH

Dobór metody data mining do zadań KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Odkrywanie asocjacji (kojarzenie, odkrywanie wzorców i reguł, opis zależności) - najszersza klasa metod obejmująca, najogólniej, metody odkrywania interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami pomiędzy danymi w dużych zbiorach danych. Wynikiem działania metod odkrywania asocjacji są zbiory reguł asocjacyjnych lub wzorców sekwencji opisujących znalezione zależności i/lub korelacje. KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Klasyfikacja (modelowanie przewidujące) - obejmuje metody odkrywania modeli (tak zwanych klasyfikatorów) lub funkcji opisujących zależności pomiędzy zadaną klasyfikacją obiektów a ich charakterystyką. Odkryte modele klasyfikacji są, następnie, wykorzystywane do klasyfikacji nowych obiektów o nieznanej klasyfikacji. Klasyfikacja często korzysta z algorytmów opartych na drzewach decyzyjnych lub sieciach neuronowych. Użycie tych algorytmów rozpoczyna się od podania im w ramach uczenia się (treningu) zbioru przykładów już sklasyfikowanych. W wypadku wykrywania nadużyć, zbiór taki zawierałby przypadki (przykłady) gdzie wystąpiło nadużycie oraz przypadki „uczciwe”. KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Regresja (analiza regresji, modelowanie przewidujące) również korzysta z procesu uczenia się, z tą różnicą w stosunku do klasyfikacji, że powstaje tu funkcja (a nie odwzorowanie), która danemu elementowi przyporządkowuje konkretną wartość. Przykładem jej zastosowania jest przewidywanie popytu na nowy produkt w zależności od wydatków na reklamę. Jeśli zmienne wykorzystywane w modelach opartych na regresji mają złożoną naturę (np. wielkość sprzedaży, wskaźniki giełdowe), to zwykle do zaimplementowania regresji korzysta się z sieci neuronowych, a to z uwagi na ich przydatność w „sytuacjach nieliniowych”. KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Grupowanie (analiza skupień, klastrowanie, modelowanie opisowe, segmentacja) - obejmuje metody analizy danych i znajdowania skończonych zbiorów klas obiektów posiadających podobne cechy (podział na nieznane wcześniej grupy). Grupowanie polega na przyporządkowaniu branego pod uwagę elementu do jednej lub wielu grup, przy czym grupy te są wyznaczane na podstawie analizy danych, a nie jak w przypadku klasyfikacji, gdzie klasy są zadane. KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Wykrywanie punktów osobliwych - obejmuje metody wykrywania (znajdowania) obiektów osobliwych, które odbiegają od ogólnego modelu danych (klasyfikacja i predykcja) lub modeli klas (analiza skupień). Często, metody wykrywania punktów osobliwych stanowią integralną część innych metod eksploracji danych, na przykład, metod grupowania. KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Analiza przebiegów (szeregów) czasowych obejmuje metody analizy przebiegów czasowych w celu znalezienia: trendów, podobieństw, anomalii oraz cykli. możliwe cele: zależność pomiędzy operacjami zależność pomiędzy wystąpieniami odkrywanie wzorców sekwencji prognozowanie zjawisk KISIM, WIMiIP, AGH

Klasy metod (techniki) eksploracji danych Odkrywanie charakterystyk – opisy koncepcji/klas – obejmuje metody znajdowania zwięzłych opisów lub podsumowań ogólnych własności klas obiektów. Znajdowane opisy mogą mieć postać reguł charakteryzujących lub reguł dyskryminacyjnych. W tym drugim przypadku, opisują różnice pomiędzy ogólnymi własnościami klasy docelowej (klasy analizowanej) a własnościami klasy (zbioru klas) kontrastującej (klasy porównywanej). Analiza trendów i odchyleń – obejmuje metody analizy danych zmiennych w czasie w celu znalezienia różnic pomiędzy aktualnymi a oczekiwanymi wartościami danych, anomalnych zmian wartości danych w czasie, itp. Eksploracja tekstu, Eksploracja WWW – obejmuje wyszukiwanie według zawartości (podobnych wzorców) KISIM, WIMiIP, AGH

Przykładowe algorytmy z zakresu Data Mining analiza regresji liniowej i nieliniowej, regresja logistyczna, analiza przeżycia modele szeregów czasowych ARIMA analiza ANOVA analiza skupień analiza czynnikowa analiza rzetelności i pozycji analiza kanoniczna analiza korespondencji modele drzew decyzyjnych (klasyfikacyjne/regresyjne, CART) Sztuczne Sieci Neuronowe metody klasyfikacji: najbliższych sąsiadów, naiwny klasyfikator Bayesa algorytmy indukcji reguł analiza asosjacji analiza składowych głównych PCA skalowanie wielowymiarowe MOS metoda wektorów nośnych SVM algorytm NIPALS komponenty wariacyjne algorytm wstecznej propagacji algorytm Apriori Narzędzia:   → STATISTICA - StatSoft   → IBM- SPSS Statistics    → środowisko R   → Clementine - IBM   → Oracle Data Mining   → Enterprise Miner SAS   → IBM DB2 Intelligent Miner   → Mine Set - Silicon Graphics   → Weka   → RapidMiner   → Data Mining Client for Excel   → The Dap Project for Statistics and Graphics   → GNU PSPP - a program for statistical analysis   → OpenStat   → Statistical Lab http://home.agh.edu.pl/~matlab/software.html KISIM, WIMiIP, AGH