Wprowadzenie do Data Miningu

Slides:

Advertisements

Podobne prezentacje

Prezentacja firmy Remigiusz Siudziński Warszawa,

Advertisements

Data Mining w e-commerce

Rekurencja 1 Podprogram lub strukturę danych nazywamy rekurencyjną, (recursive subprogram, recursive data structure) jeżeli częściowo składa się z samej.

Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona

Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”

Uwagi na temat eksploracji danych dla telekomunikacji

OLAP budowa aplikacji analitycznych w MS SQL 2000 i Yukon

Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona

CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.

Programowanie liniowe całkowitoliczbowe

Statystyka w doświadczalnictwie

WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.

Klasyfikacja dokumentów tekstowych w oparciu o blogi

WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.

Co to jest studium przypadku?

KWESTIA ENDOGENICZNOŚCI

Przygotowanie danych do eksperymentów z zakresu eksploracji danych

Wykład 6 Wojciech Pieprzyca

Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN

Klasyfikacja Sformułowanie problemu Metody klasyfikacji

System eksploracji danych z wykorzystaniem dokumentów XML

Information Bridge Framework platforma integracji Microsoft Office 2003 z aplikacjami Line of Business Krzysztof Michalski10/01/2005.

Linear Methods of Classification

Additive Models, Trees, and Related Methods

Mirosław ŚWIERCZ Politechnika Białostocka, Wydział Elektryczny

Analiza, projekt i częściowa implementacja systemu obsługi kina

Lider rynku Źródło: The OLAP Report Źródło: Gartner Group

Możliwości biblioteki logiczno-fizycznej opartej na systemie masa-sprężyna jako środowiska modelowania rzeczywistości wirtualnej. Projekt systemu Seminarium.

formalnie: Budowa i zasada funkcjonowania sztucznych sieci neuronowych

MATEMATYCZNE MODELOWANIE SYSTEMÓW

Tryb tabelaryczny w Analysis Services 2012

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ i ZARZĄDZANIA

Król Excel 2013 Dynastii ciąg dalszy Grzegorz Stolecki

Detekcja twarzy w obrazach cyfrowych

Używanie eksploracji danych w systemach IT

Uczenie w Sieciach Rekurencyjnych

Techniki eksploracji danych

GŁOSOWA ŁĄCZNOŚĆ Z KOMPUTEREM

Analiza wizualna – co to jest i czym to się je

Duży efekt małym kosztem, czyli SQL Server nie tylko jako baza danych

dr Łukasz Murowaniecki T-109

Planowanie badań i analiza wyników

Modelowanie obiektowe Diagramy klas

w ekonomii, finansach i towaroznawstwie

III EKSPLORACJA DANYCH

Politechniki Poznańskiej

IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja

Seminarium licencjackie Beata Kapuścińska

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +

Szkolenia E-Learning SIMP Consulting Stanisław Płaskowicki Dorota Płaskowicka.

Systemy Business Intelligence – warunki użytkowania Halina Tańska Wydział Matematyki i Informatyki Uniwersytet Warmińsko-Mazurski „e-commerce” Olsztyn.

Charakterystyka powszechnie stosowanych metod badawczych

Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.

Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.

Podstawowe pojęcia Data Mining, przebieg procesu, zastosowania

Wybrane zagadnienia inteligencji obliczeniowej Zakład Układów i Systemów Nieliniowych I-12 oraz Katedra Mikroelektroniki i Technik Informatycznych proponują.

Regresja liniowa. Dlaczego regresja? Regresja zastosowanie Dopasowanie modelu do danych Na podstawie modelu, przewidujemy wartość zmiennej zależnej na.

Aplikacje internetowe XML Paweł Lenkiewicz. Aplikacje internetowe – XML2 eXtensible Markup Language Uniwersalny język opisu danych Często używany we współpracy.

© Kazimierz Duzinkiewicz, dr hab. inż. Katedra Inżynierii Systemów Sterowania Modelowanie i podstawy identyfikacji 2015/2016 Modele neuronowe – podstawy,

GeneracjeTechnologia Architektura przetwarzania 0. Przekaźniki elektromechaniczne 1. Lampy elektronowe 2. Tranzystory 3. Układy scalone 3.5.Układy dużej.

Zintegrowane systemy informatyczne

Informatyka w biznesie Prezentacja promująca specjalność na kierunku ZARZĄDZANIE.

SQL Server Analysis Services Action!

Zastosowanie metod statystycznych w obszarze CRM.

Systemy neuronowo – rozmyte

Metody Eksploracji Danych

Selekcja danych Korelacja.

Indukcja reguł Inżynieria wiedzy Krzysztof Regulski, WIMiIP, KISiM,

Inteligentne oprogramowanie z wykorzystaniem SQL Server Data Mining

Sztuczna Inteligencja Reprezentacja wiedzy I Logika przybliżona

Zapis prezentacji:

Wprowadzenie do Data Miningu Bartosz Matosiuk

Agenda Data Mining Proces odkrywania wiedzy Działy DM Data Mining w SQL Server

Co to jest Data Mining Proces półautomatyczny Duże zbiory danych Statystyka, metody uczenia maszynowego (reguły, drzewa decyzyjne), logika rozmyta, metody ewolucyjne Przetwarzania danych przy wykorzystaniu modeli

Proces odkrywania wiedzy Knowlegde Discovery: “The science of extracting useful information from large data sets or databases”

Cechy wiedzy Cechy poszukiwanych informacji Trafnie przewidujące rzeczywistość szukamy największej możliwej zdolności generalizacji Zrozumiałe budowanie ufności (decyzje zarządcze muszą być budowane na danych którym się ufa) zastosowanie reprezentacji wysokiego poziomu IF ... THEN, wizualizacja Interesujące Jak to zdefiniować?

Pre-processing Przygotowanie danych do pracy z algorytmem Etapy: Integracja danych Uzgadanianie typów i nazw atrybutów Oczyszczanie danych Błedy wynikające z walidacji formularzy: 00/00/0000 Zdublowane znaczenia atrybutów: zółty-słoneczny Dane celowo błędne: pralka za 1zł netto Dyskretyzacja niektóre algorytmy Selekcja atrybutów Niektóre atrybuty nic nie wniosą do analizy (nip, regon, imie etc)

Post-processing Przygotowanie ‘surowej’ wiedzy do prezentacji Zależne od: Rodzaju algorytmu Architektury systemu odkrywania wiedzy (user-driven, data-driven) Celu systemu (wizualizacja wiedzy, system ekspercki …)

Post-processing Etapy: Filtrowanie wiedzy Interpretacja Usunięcie wiedzy o niskiej jakości Jedna z koncepcji: ograniczenie zbioru do reguł ciekawych Subiektywna – wg użytkownika Obiektywna – oparta na danych Interpretacja Przedstawienie wiedzy w zrozumiałej formie Uzasadnienie wiedzy Testowanie wiedzy Weryfikacja modelu przez zbiór testowy Metoda testowania jest zależna od algorytmu i zadania

Działy Data Miningu Analiza poszukiwawcza Exploratory Data Analysis lub EDA Eksploracja danych dokonywane przez użytkownika Narzędzia interaktywne i graficzne: Kreślenie ‘surowych danych’, Kreślenie statystyk (średnie, odchylenia standardowe etc) Łączenie wykresów Problem: wizualizacja danych p-wymiarowych (p>3)

Działy Data Miningu Segmentacja danych grupowanie rekordów na n grup automatyczne wykrywanie naturalnych grup wykrywanie związków w danych (powiązania pomiędzy atrybutami) K-means, podejście statystyczne, …

Działy Data Miningu Modelowanie prognozujące Przewidywanie wartości jednej zmiennej (atrybut celu) na podstawie innych Classification (atrybut celu jest dyskretny) Regression (atrybut celu jest ciągły) Cel: zbudowanie warunku opisującego klasę IF {A} THEN Goal=1, IF {B} THEN Gloal=0 UID Imie Nazwisko Wiek Saldo Il dzieci S. cyw. … Goal 1 Jan Nowak 26 20000 2 Ż - Płatnik 44 100k 3 Pan Dyrektor 29 30000 4 Kasia 23 1000 K

Działy Data Miningu Odkrywanie asocjacji i odstępstw Algorytm APRIORI Budowanie ciągów powiązań w oparciu o prawdopodobieństwo ich wystapienia TID Chleb Mleko Piwo Czekolada Pieluchy Jajka Śmietana … 1 2 3 4 5 6 7

Działy Data Miningu Ekspoloracja złożonych typów danych (Odzyskiwanie przez treść) Analiza danych multimedialnych Analiza plików tekstowych Webmining (dokumenty z częściową strukturą) Szukanie w bazie wzorców podobnych do szukanego (wyszukiwarki internetowe)

Liderzy rozwiązań and many more…

Data Mining w SQL Server SQL Server Analysis Services Serwer OLAP Serwer data mining Business Intelligence Development Studio Zintegrowane środowisko developerskie

Dostępne algorytmy MS Decision Trees Algorithm Klasyfikacja i regresja Drzewa decyzyjne

MS Clustering Algorithm segmentacja MS Association Algorithm badanie asocjacji MS Sequence Clustering Algorithm grupowanie danych posiadających podobne sekwencje

Dostępne algorytmy cd MS Naive Bayes Algorithm klasyfikacja zakłada ‘naiwnie’ że artybuty nie są skorelowane

Dostępne algorytmy cd MS Time Series Algorithm przewidywanie wartości artybutów ciągłych MS Neural Network Algorithm (SSAS) klasyfikacja i regresja danych wielowarstwowy perceptron MS Logistic Regression Algorithm sieć neuronowa bez warstwy ukrytej realizacja liniowej regresji MS Linear Regression Algorithm wariacja algorytmu drzew decyzyjnych

Showtime Co chcemy zrobić: Narzędzia: BI Studio, SQL Server 2005 Podzielić obecnych klientów na segmenty Zbudować model który zasugeruje którzy potencjalni klienci staną się klientami firmy (jaka jest charakterystyka klienta) Narzędzia: BI Studio, SQL Server 2005

Pytania? Dziękuję za uwagę Bartosz Matosiuk bartosz@matosiuk.net