Eksploracja danych Data Mining

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

I część 1.
Prezentacja firmy Remigiusz Siudziński Warszawa,
Data Mining w e-commerce
Agnieszka Nowak Instytut Informatyki, Uniwersytet Śląski
KSZTAŁTOWANIE STRUKTURY KAPITAŁU A DŹWIGNIA FINANSOWA
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Liczby pierwsze.
Uwagi na temat eksploracji danych dla telekomunikacji
Badania operacyjne. Wykład 1
Analiza raportów do podejmowania decyzji. Podejmowanie decyzji Przed podjęciem decyzji należy uważnie przeanalizować otrzymane raporty.
Wskaźniki analizy technicznej
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon
Bazy danych zastosowania i skutki Prentice Hall8.2 O czym będzie Elektroniczna przechowalnia informacji: podstawy baz danych Nieco dalej: Systemy.
BAZA DANYCH - RODZAJE.
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
Hurtownie Danych Mariusz Dołęga.
1 magia kuponów jak wykorzystać kupony w reklamie efektywnościowej.
Próba eksperymentalnej oceny metody PROBE
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
Metody Sztucznej Inteligencji w Sterowaniu 2009/2010 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania.
Proces analizy i rozpoznawania
Prognozowanie na podstawie modelu ekonometrycznego
Wykład 7 Wojciech Pieprzyca
Wykład 6 Wojciech Pieprzyca
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Odkrywanie wzorców sekwencji
Klasyfikacja Sformułowanie problemu Metody klasyfikacji
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
UKŁADY SZEREGOWO-RÓWNOLEGŁE
RYNEK WALUTOWY W POLSCE
Typy systemów informacyjnych
Udział grup inwestorów w obrotach giełdowych – rok 2003 Warszawa,
Wstęp do eksploracji danych
Wykonawcy:Magdalena Bęczkowska Łukasz Maliszewski Piotr Kwiatek Piotr Litwiniuk Paweł Głębocki.
Listonic – Wygodna lista zakupów
Sieci oparte na architekturze Internetu
MATEMATYCZNE MODELOWANIE SYSTEMÓW
Analiza współzależności cech statystycznych
GOSPODARKA OPARTA NA DANYCH
Produkcja skojarzona w systemie elektroenergetycznym
Kluczowe liczby w projekcie budżetu na 2014 rok i w projekcie Wieloletniej Prognozy Finansowej na lata Warszawa 15 listopada 2013 r. MIASTO STOŁECZNE.
WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ i ZARZĄDZANIA
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Plan prezentacji Zarys projektu Geneza tematu
Podstawy działania wybranych usług sieciowych
Pieniądz Elektroniczny
Modelowanie i Identyfikacja 2011/2012 Metoda propagacji wstecznej Dr hab. inż. Kazimierz Duzinkiewicz, Katedra Inżynierii Systemów Sterowania 1 Warstwowe.
Wybrane zagadnienia relacyjnych baz danych
dr Łukasz Murowaniecki T-109
GOSPODARKA OPARTA NA DANYCH
Bazy danych, sieci i systemy komputerowe
Nowa strategia MultiBanku: klienci zamożni i małe firmy
w ekonomii, finansach i towaroznawstwie
VII EKSPLORACJA DANYCH
Regresja wieloraka.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Technologia odpowiada człowiekowi w w w. w i n u e l. c o m. p l.
Hurtownie i eksploracja danych
Strategia Marketingowa i Handlowa KW SA
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania
BAZY DANYCH MS Access.
Zintegrowane systemy informatyczne
WPROWADZENIE DO ZAJĘĆ SCHEMAT ĆWICZEŃ I METODYKA Marketing Usług Finansowych.
Zastosowanie metod statystycznych w obszarze CRM.
Systemy neuronowo – rozmyte
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Zapis prezentacji:

Eksploracja danych Data Mining Tadeusz Morzy Instytut Informatyki Politechnika Poznańska

Plan wystąpienia Wprowadzenie: Powódź danych Eksploracja danych – przykłady zastosowań Eksploracja danych – metody eksploracji danych

Skąd się biorą dane ? Dane są generowane przez: banki, ubezpieczalnie, firmy sieci handlowe, szpitale Dane eksperymentalne: astronomia, biologia, etc Web, tekst, i e-handel

Przykłady (1) Very Long Baseline Interferometry (VLBI) posiada 16 teleskopów, z których każdy produkuje 1 Gigabit/second danych astronomicznych w czasie 25-dniowej sesji obserwacyjnej AT&T obsługuje miliardy połączeń dziennie Danych jest tyle, że nie można ich wszystkich zapamiętać – analiza tych danych jest wykonywana “on the fly” ( „w locie”)

Przykłady (2) sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji koncern Mobil Oil rozwija magazyn danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS zbudowany przez NASA generuje w każdej godzinie dziesiątki gigabajtów danych niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów

Największe systemy baz danych 2003 Komercyjne bazy danych: Winter Corp. 2003 Survey: France Telecom posiada najwiekszą bazę danych, ~30TB; AT&T ~ 26 TB Web Alexa internet archiwum: 7-letnie dane, 500 TB Google wyszukuje 4+ miliarda stron, tysiące TB IBM WebFountain, 160 TB (2003) Internet archiwum (www.archive.org),~ 300 TB

5 milionów TB wygenerowanych w 2002 UC Berkeley 2003 szacuje: 5 exabytes (5 million terabytes) nowych danych wygenerowanych w 2002. www.sims.berkeley.edu/research/projects/how-much-info-2003/ USA produkuje ~40% danych światowych

Przyrost danych Podwojenie danych w stosunku do roku 1999 (~30% przyrost roczny) Niewielka część danych jest przeglądana i analizowana, oraz wykorzystywana w praktyce!!! Niezbędna jest analiza przechowywanych danych – inaczej przechowywanie takich wolumenów danych nie ma najmniejszego sensu Dziedziną, która zajmuje się analizą i odkrywaniem zależności, reguł, wzorców w BD i DW jest – eksploracja danych (ang. data mining)

Plan wystąpienia Wprowadzenie: Powódź danych Eksploracja danych – przykłady zastosowań Eksploracja danych - metody eksploracji danych

Dziedziny zastosowań Nauka Biznes Web: Administracja astronomia, bioinformatyka, przemysł farmaceutyczny, … Biznes reklama, CRM (Customer Relationship management), inwestycje, finanse, ubezpieczenia, telekomunikacja, medycyna, … Web: Przeglądarki (Google), handel elektroniczny – Amazon, eBay, Allegro Administracja wykrywanie przestępstw, wykrywanie nadużyć podatkowych, etc.

Dziedziny zastosowań Handel i marketing Finanse i bankowość identyfikacja „profilu klienta” dla przewidywania, którzy klienci odpowiedzą na marketing korespondencyjny, wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość identyfikacja schematów wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia Odkrywanie nowych obiektów (astronomia) wykrywanie schematów alarmowych w sieciach telekomunikacyjnych

Udzielanie kredytów: Sytuacja: klient występuje o kredyt Zadanie: Czy bank powinien udzielić kredytu? Uwaga: klienci, którzy posiadają najlepsza wiarygodność kredytową nie potrzebują kredytów; ci którzy potrzebują kredytów najczęściej posiadają najgorszą wiarygodność kredytową. Najlepszymi klientami banków są klienci ulokowani pośrodku. Jak ich zidentyfikować???

Genomic Microarrays Dany jest zbiór danych opisujących pacjentów szpitala. Czy potrafimy w oparciu o ten zbiór danych: Poprawnie zdiagnozować pacjenta (określić chorobę)? Przewidzieć poprawnie wynik terapii? Zaproponować najlepszą terapię?

Przykład: ALL vs AML Wynik testu: 33/34 poprawnie, 1 błąd 38 przypadków treningowych, 34 testy 2 klasy: Acute Lymphoblastic Leukemia (ALL) vs Acute Myeloid Leukemia (AML) W oparciu o dane treningowe opracowano model diagnostyczny ALL AML Wynik testu: 33/34 poprawnie, 1 błąd

Plan wystąpienia Wprowadzenie: Powódź danych Eksploracja danych – przykłady zastosowań Eksploracja danych - metody eksploracji danych

Eksploracja danych Eksploracja danych (Data Mining): zbiór technik automatycznego odkrywania nietrywialnych zależności i schematów (patterns) w dużych zbiorach danych (bazach danych) Eksploracja danych (Data Mining) często nazywana jest również odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases) lub eksploracją baz danych (Database Mining) DATA MINING DANE SCHEMATY

Data Warehouses/Data Marts Eksploracja danych Increasing potential to support business decisions End User Making Decisions Data Presentation Visualization Business Analyst Data Mining Information Discovery Data Analyst Data Exploration Statistical Analysis, Reporting Data Warehouses/Data Marts OLAP, MDA DBA Data Sources Paper, Files, Database systems, OLTP, WWW

Metody eksploracji danych klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń analiza połączeń (eksploracja Web’u)

Metody eksploracji: klasyfikacja Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe, ... ???

Metody eksploracji: klasyfikacja przykład klasyfikacji: automatyczny podział kierowców na powodujących i nie powodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych

Metody eksploracji: grupowanie Znajdź „naturalne” pogrupowanie obiektów w oparciu o ich wartości zastosowania grupowania: grupowanie dokumentów grupowanie klientów segmentacja rynku

Metody eksploracji: odkrywanie asocjacji odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują pieluszki, kupują również piwo klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach

Metody eksploracji: odkrywanie wzorców sekwencji odkrywanie wzorców sekwencji: znajdowanie najczęściej występujących sekwencji elementów przykład odkrywania wzorców sekwencji: klienci, którzy kupili farbę emulsyjną, kupią w najbliższym czasie pędzel płaski kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5% zastosowania odkrytych wzorców sekwencji: planowanie inwestycji giełdowych przewidywanie sprzedaży znajdowanie skutecznej terapii

Metody eksploracji: odkrywanie charakterystyk odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę pacjenci chorujący na anginę cechują się temperaturą ciała większą niż 37.5 C, bólem gardła, osłabieniem organizmu zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych

Problemy odkrywania wiedzy w dużych bazach danych mogą zostać odkryte tysiące reguł człowiek nie potrafi rozumieć i przeanalizować bardzo dużych zbiorów informacji różni użytkownicy systemu bazy danych są zainteresowani różnymi typami reguł z różnych relacji odkrywanie reguł jest procesem bardzo złożonym obliczeniowo

Problemy odkrywania wiedzy Rozwiązanie: odkrywanie tylko części wszystkich możliwych reguł - wskazanej przez użytkownika przy pomocy kryteriów tylko użytkownik potrafi ocenić poprawnie wartość odkrytej wiedzy Jak zagwarantować poufność i ochronę danych osobistych w przypadku eksploracji danych?

Proces odkrywania wiedzy użytkownik specyfikuje zapytanie regułowe - żądanie odszukania reguł spełniających określone kryteria system odkrywania wiedzy (Knowledge Discovery Management System) wykorzystuje algorytm generowania reguł dla znalezienia reguł spełniających kryteria użytkownika odkryte reguły stanowią wynik wykonania zapytania po otrzymaniu wyniku, użytkownik może zdecydować o zmianie kryteriów dla szukanych reguł i ponownie wyspecyfikować zapytanie regułowe zapytanie regułowe KDDMS użytkownik baza danych odkryte reguły

Uwagi końcowe Systemy baz danych – narzędzie do przechowywania danych Hurtownie danych – narzędzie wspomagania podejmowania decyzji Eksploracja danych – narzędzie do analizy zgromadzonych danych