Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Data Mining w e-commerce
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Badania operacyjne. Wykład 1
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Procesy informacyjne w zarządzaniu
METODOLOGIA W INFORMATYCE
Program Międzynarodowej Oceny Umiejętności Uczniów OECD PISA
Ekonometria wykladowca: dr Michał Karpuk
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Klasyfikacja dokumentów tekstowych w oparciu o blogi
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Specjalność Analiza danych 2009 Katedra Statystyki Instytut Zastosowań Matematyki.
Specjalność Analiza danych 2010 na kierunku IiE Katedra Statystyki Instytut Zastosowań Matematyki.
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Wykład 6 Wojciech Pieprzyca
Program przedmiotu “Metody statystyczne w chemii”
Additive Models, Trees, and Related Methods
5. Problemy lokalizacji w projektowaniu międzynarodowych struktur logistycznych – przegląd metod i technik.
Typy systemów informacyjnych
BADANIA STATYSTYCZNE opracował: Bąk Damian.
MATEMATYCZNE MODELOWANIE SYSTEMÓW
Formy pracy na odległość w dobie Nowej Gospodarki dr Zbigniew E. Zieliński Wyższa Szkoła Handlowa im. B. Markowskiego ul. Peryferyjna.
GOSPODARKA OPARTA NA DANYCH
Jak mierzyć i od czego zależy?
ALGORYTMY OPTYMALIZACJI
Kilka uwag ogólnych o danych zastanych (wtórnych)
Techniki eksploracji danych
Komputerowe wspomaganie medycznej diagnostyki obrazowej
Prognozowanie i symulacje
Moduł: Informatyka w Zarządzaniu
Planowanie przepływów materiałów
dr Łukasz Murowaniecki T-109
GOSPODARKA OPARTA NA DANYCH
Planowanie badań i analiza wyników
MS Excel - wspomaganie decyzji
SYSTEMY EKSPERTOWE I SZTUCZNA INTELIGENCJA
1. Współczesne generacje technologii
w ekonomii, finansach i towaroznawstwie
VII EKSPLORACJA DANYCH
Politechniki Poznańskiej
Operacyjne sterowanie produkcją
Seminarium licencjackie Beata Kapuścińska
Metoda studium przypadku jako element XI Konkursu Wiedzy Ekonomicznej
Systemy informatyczne wprowadzenie
Transport i logistyka Studia II stopnia Katedra Transportu.
Charakterystyka powszechnie stosowanych metod badawczych
Hurtownie i eksploracja danych
ZINTEGROWANE SYSTEMY ZARZĄDZANIA
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Transfer Wiedzy w Leśnym Centrum Informacji dr inż. Dorota Farfał Sękocin Stary 5 grudnia 2011 r.
4 lipca 2015 godz pok września 2015 godz pok. 212.
Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania
Wybrane zagadnienia inteligencji obliczeniowej Zakład Układów i Systemów Nieliniowych I-12 oraz Katedra Mikroelektroniki i Technik Informatycznych proponują.
AI - Sztuczna inteligencja w oprogramowaniu dla przedsiębiorstw
Nikogo nie trzeba przekonywać, że eksperymenty wykonywane samodzielnie przez ucznia czy prezentowane przez nauczyciela sprawiają, że lekcje są bardziej.
KNW K Konwencjonalne oraz N Niekonwencjonalne metody W Wnioskowania.
Narzędzia AI Dominik Ślęzak, Pokój Wykład dostępny na:
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
Studia II stopnia. KIM BĘDZIESZ? Analitykiem biznesowym – specjalistą w zakresie stosowania profesjonalnych narzędzi matematyczno-statystycznych oraz.
1. Cel pracy Moja ocena systemów klasy MRP/ERP w kategorii wzorców projektowych. Hipoteza badawcza Zastosowanie systemów MRP/ERP jako wzorców projektowych.
Analiza danych genomicznych metodami statystycznymi i inteligencji obliczeniowej Wiktor Młynarski
1 Komputerowe wspomaganie medycznej diagnostyki obrazowej dr inż.. Grażyna Gilewska materiały na stronie:
Zastosowanie metod statystycznych w obszarze CRM.
Systemy neuronowo – rozmyte
Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe
Metody Eksploracji Danych
Metody Eksploracji Danych
Systemy eksperckie i sztuczna inteligencja
Zapis prezentacji:

Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania Eksploracja Danych Eksploracja danych (1) Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania www.metal.agh.edu.pl/~regulski Krzysztof Regulski, WIMiIP, KISiM, regulski@agh.edu.pl B5, pok. 408

Plan wykładów Wprowadzenie do Eksploracji Danych Repetytorium z probabilistyki i statystyki Przygotowanie i wstępna obróbka danych Dobór, eliminacja i redukcja liczby zmiennych Klasyfikacja. Regresja. Grupowanie. Odkrywanie asocjacji. Odkrywanie wzorców sekwencji. Analiza szeregów czasowych. Analiza przeżycia. Eksploracja tekstu. Eksploracja sieci Web. KISIM, WIMiIP, AGH

Literatura Uczelnia on-line (http://wazniak.mimuw.edu.pl/) Projekt sfinansowano ze środków Europejskiego Funduszu Społecznego z programu Sektorowy Program Operacyjny Rozwój Zasobów Ludzkich 2004 - 2006. StatSoft: Metody statystyki i data mining w badaniach naukowych, Statystyka i data mining w praktyce, Nowoczesne narzędzia gromadzenia, udostępniania i analizy danych: STATISTICA Data Miner i Sybase IQ Morzy T., Eksploracja Danych. Metody i algorytmy, WN-PWN, Warszawa 2013 Larose D.T., Metody i modele eksploracji danych, WN-PWN, W-wa, 2008 Data Mining: Concepts and Techniques, J. Han, M. Kamber, Morgan Kaufman, 2000 Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations, I. H. Witten, E. Frank, Morgan Kaufman, 2000 Klosgen W., Żytkow J.M., Handbook of Data Mining and Knowledge discovery, Oxford University Press, 2002 J. Hand, H. Mannila, P. Smyth, Eksploracja danych, WNT, Warszawa 2001 P. Cichosz, Systemy uczące się, WNT, 2000 T. Morzy, Odkrywanie asocjacji: Algorytmy i struktury danych, OWN, 2004 KISIM, WIMiIP, AGH

Zasady zaliczenia Laboratorium opracowanie danych (dobór zmiennych, selekcja, próba losowa, etc.) opracowanie modelu drzewa decyzyjnego opracowanie modelu grupowania (klasteryzacja) przygotowanie sprawozdania sprawozdanie oddane po terminie: stopień w dół każde zajęcia są oceniane KOLOKWIUM z wykładu (*) (*) obecność na wykładach oraz wysokie oceny z laboratoriów i projektu mogą zapewnić zwolnienie z kolokwium z wykładów KISIM, WIMiIP, AGH

Zasady zaliczenia Projekt zajęcia są punktowane ustalenie zbioru danych / źródeł np.: http://archive.ics.uci.edu/ml/ (własne, oryginalne dane + pkt) postawienie problemu badawczego opracowanie danych (dobór zmiennych, selekcja etc) wybór algorytmów, narzędzi programistycznych (np. STATISTICA) (porównanie dwóch algorytmów/programów +pkt); - realizacja drzew decyzyjnych; - analiza skupień; - opracowanie wybranego przez siebie algorytmu data mining; opracowanie sprawozdania przygotowanie prezentacji na 5,0 (bdb)   projekt oddany po terminie: stopień w dół prezentacja nie wygłoszona: kolejny stopień w dół KISIM, WIMiIP, AGH

Zasady zaliczenia Ocena końcowa (z syllabusa) Ocena końcowa (OK) to średnia ważona: Ocena z ćwiczeń laboratoryjnych (OL) + ocena projektu (OP) + ocena z kolokwium z wykładu (OW) (*) OK = 0,4*OP + 0,3*OL + 0,3*OW(*) Ocenę z projektu może obniżyć niedotrzymanie terminu realizacji (*) obecność na wykładach oraz wysokie oceny z laboratoriów i projektu mogą zapewnić zwolnienie z kolokwium z wykładów z uznaniem oceny z projektu, wtedy OK=0,6*OP+0,4*OL KISIM, WIMiIP, AGH

Eksploracja Danych Data Mining

Gdzie stosujemy eksplorację danych? inne ? polityka zarządzanie ekonomia gospodarka produkcja zarządzanie jakością sztuczna inteligencja: rozpoznawanie wzorców, mowy, pisma, semantyka BigData data mining KISIM, WIMiIP, AGH

Industry 4.0

Big Data big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów: szukanie, pobieranie, gromadzenie i przetwarzanie  model 4V (Volume, Velocity, Variety, Value) : wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych; wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów; wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych; weryfikacja – koniecznie weryfikuj hipotezy i wnioski. Big Data as-a-Service (BDaaS), czyli przetwarzanie w chmurze obliczeniowej wielkich zbiorów danych, to dziś najszybciej rozwijająca się gałąź IT Ponad 7 miliardów dolarów – na tyle szacowana jest wartość sektora Big Data as-a-Service (BDaaS) w roku 2020 segment Big Data rozwija się niemal 6-krotnie szybciej niż cały rynek IT

Big Data Early detection of defects and production failures, thus enable their prevention, increase productivity, quality, and agility benefits that have significant competitive value. Big Data Analytics consists of 6Cs in the integrated Industry 4.0 and Cyber Physical Systems environment. The 6C system comprises: Connection (sensor and networks) Cloud (computing and data on demand) Cyber (model & memory) Content/context (meaning and correlation) Community (sharing & collaboration) Customization (personalization and value) Data has to be processed with advanced tools (analytics and algorithms) to generate meaningful information. KISIM, WIMiIP, AGH

KISIM, WIMiIP, AGH

Przechowywanie / Przetwarzanie / Analiza KISIM, WIMiIP, AGH

Bez analizy przechowywanie danych nie ma najmniejszego sensu. Zalew danych Bez analizy przechowywanie danych nie ma najmniejszego sensu. UC Irvine Machine Learning Repository http://archive.ics.uci.edu/ml/ KISIM, WIMiIP, AGH

Czym jest eksploracja danych? Eksploracja danych: proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców, schematów, podobieństw lub trendów w dużych repozytoriach danych. Celem eksploracji danych jest analiza danych i procesów dla lepszego ich zrozumienia Odkrywane w procesie eksploracji danych wzorce mają najczęściej postać reguł logicznych, klasyfikatorów (np. drzew decyzyjnych), zbiorów skupień, wykresów, równań liniowych, itp. Eksploracja danych to etap odkrywania wiedzy w bazach danych KDD (Knowledge Discovery in Databases). KISIM, WIMiIP, AGH

Dane a wiedza Toniemy w danych, a brakuje nam wiedzy jaka jest w tych danych zawarta. „Wiedza jest specyficznym rodzajem zasobów – w przeciwieństwie do wszystkich innych, przybywa jej w miarę używania” G.Probst KISIM, WIMiIP, AGH

KOMPONENTY KAPITAŁU INTELEKTUALNEGO liczbę zleceń na klienta lojalność (czas współpracy z klientem) liczbę utraconych klientów udział w rynku rozpoznawalność marki znaki handlowe inwestycje w marketing kompetencje pracowników rotacja pracowników poziom motywacji odbyte szkolenia wiedza zawarta w dokumentach KAPITAŁ LUDZKI KAPITAŁ KLIENCKI KAPITAŁ PROCESÓW KAPITAŁ INNOWACJI procedury i techniki produkcyjne systemy zarządzania jakością jakość produktów odsetek braków patenty: wartość, stan wykorzystania – korzyści płynące z patentu inwestycje w badania i rozwój odnawialność technologii IT KISIM, WIMiIP, AGH

Rodzaj kapitału a funkcja zarządzania KISIM, WIMiIP, AGH

Zarządzanie wiedzą (Knowledge Management) G.Probst, S.Raub, K. Romhardt Zarządzanie wiedzą (KM) - pełni rolę koordynacyjną w przedsiębiorstwie. Tworzy warunki do tworzenia lub pozyskiwania wiedzy, dzielenia się nią i wykorzystywania zajmuje się wiedzą, czyli kapitałem ludzkim – jest jedną z „funkcji” zarządzania kapitałem intelektualnym. Jego rolą jest zapewnienie sprawnego przepływu informacji i wiedzy pomiędzy wszystkimi częściami organizacji.

Zapytania eksploracyjne Eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika, oraz tych problemów, dla których nie dysponujemy pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych. Praktyczne pożytki ekstrahowania danych: prognozowanie (ang. prediction, forecasting), opis (ang. description). KISIM, WIMiIP, AGH

Proces odkrywania wiedzy Hetoregeniczne źródła danych wybór zmiennych przekształcenia interpretacja i ocena odkrytych struktur KISIM, WIMiIP, AGH

Dziedziny naukowe eksploracji danych Eksploracja danych to zadanie interdyscyplinarne: statystyka, technologie bazodanowe, uczenie maszynowe, rozpoznawanie wzorców, sztuczna inteligencja, wizualizacja. “Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać” KISIM, WIMiIP, AGH

Metody eksploracji danych klasyfikacja/regresja (classifications) grupowanie/analiza skupień (clustering) odkrywanie sekwencji (sequential patterns) odkrywanie charakterystyk analiza przebiegów czasowych (time-series similarities) odkrywanie asocjacji (associations) wykrywanie zmian i odchyleń (deviation detection) eksploracja WWW eksploracja tekstów KISIM, WIMiIP, AGH

Przykładowe algorytmy z zakresu Data Mining indukcja drzew (CART, CHAID) Grupowanie (k-Średnich; EM) SVM, ANN RoughSets NeuroFuzzy (ANFIS) MARSplines, ANOVA, VEPAC analiza regresji liniowej i nieliniowej, regresja logistyczna, analiza przeżycia modele szeregów czasowych ARIMA analiza ANOVA analiza skupień modele drzew decyzyjnych (klasyfikacyjne/regresyjne, CART) Sztuczne Sieci Neuronowe metody klasyfikacji: najbliższych sąsiadów, naiwny klasyfikator Bayesa algorytmy indukcji reguł analiza asosjacji analiza składowych głównych PCA metoda wektorów nośnych SVM algorytm NIPALS komponenty wariacyjne (VEPAC) Sieci neuronowe data mining Narzędzia:   → STATISTICA - StatSoft   → IBM- SPSS Statistics    → środowisko R   → Weka   → Oracle Data Mining   → Enterprise Miner SAS   → Mine Set - Silicon Graphics   → Alteryx   → RapidMiner   → Data Mining Client for Excel   → Azure   → GNU PSPP - a program for statistical analysis   → OpenStat   → Statistical Lab http://home.agh.edu.pl/~matlab/software.html KISIM, WIMiIP, AGH

Sztuczna Inteligencja ?

Inteligencja Czy inteligencja jest jakąś jedną dziedziną, czy też jest to nazwa dla zbioru odrębnych i niepowiązanych zdolności? Co zyskujemy w procesie uczenia się? Co to jest intuicja? Czy inteligencja może być nabyta wskutek nauki lub obserwacji, czy też jest jakoś uwarunkowana wewnętrznie? Jak wiedza wpływa na wzrost inteligencji? Czy inteligencja to szczegółowa wiedza o jakiejś dziedzinie, czy zbiór związanych ze sobą różnych zdolności? KISIM, WIMiIP, AGH

w ten sposób sztuczna inteligencja nigdy nie ma żadnych osiągnięć Inteligencja jest zdolnością do sprawnego rozwiązywania zadań intelektualnych, które zazwyczaj uchodzą za trudne. … są trudne tak długo, jak długo nie są znane algorytmy ich rozwiązywania, potem przestają być traktowane jako zadania sztucznej inteligencji w ten sposób sztuczna inteligencja nigdy nie ma żadnych osiągnięć KISIM, WIMiIP, AGH

sztuczna inteligencja - rozwiązywanie „trudnych” zadań Czy to jest trudny problem ? 98731269868414316984251684351 × 985316846315968463198643541684 A to: ”Kochanie, kup ładny kawałek wołowiny…” KISIM, WIMiIP, AGH

Krzysztof Manc (Wynalazca) Robot kolejkowy EWA-1 -Pan tu nie stał, pan nie jest w ciąży. - Moja konstrukcja jest optymalna, tylko ludzie nie dorośli do tego. Wolą sami stać w kolejkach. Krzysztof Manc (Wynalazca) KISIM, WIMiIP, AGH

Zagadnienia Sztucznej Inteligencji (AI) Soft Computing Optymalizacja badania operacyjne Algorytmy ewolucyjne i genetyczne reprezentacja wiedzy Logika rozmyta Sieci neuronowe wnioskowanie Metody statystyczne Computational Intelligence - numeryczne Artificial Intelligence - symboliczne Systemy ekspertowe Rachunek prawdopodobieństwa Wizualizacja Data mining Uczenie maszynowe Rozpoznawanie Wzorców KISIM, WIMiIP, AGH

Przykłady zadań sztucznej inteligencji dokonywanie ekspertyz ekonomicznych, prawnych, technicznych, medycznych (ocena) wspomaganie podejmowania decyzji (doradzanie) rozpoznawanie obrazów, twarzy, wzorców, etc. optymalizacja (harmonogramowanie, alokacja zasobów, planowanie tras) generacja nowej wiedzy (poszukiwanie zalezności, tendencji, reguł, etc – data mining) prognozowanie zjawisk ekonomicznych, przyrodniczych rozumienie języka naturalnego sterowanie urządzeniami (roboty etc) i inne… KISIM, WIMiIP, AGH

Czy nam to szybko grozi? KISIM, WIMiIP, AGH