Używanie eksploracji danych w systemach IT

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie do Data Miningu
Advertisements

Badania statystyczne Wykłady 1-2 © Leszek Smolarek.
Excel Narzędzia do analizy regresji
Prezentacja firmy Remigiusz Siudziński Warszawa,
Data Mining w e-commerce
Michał Kowalczykiewicz
Ludwik Antal - Numeryczna analiza pól elektromagnetycznych –W10
Eksploracja danych “Drążymy informację ale zbieramy wiedzę” - słowa Johna Naisbett’a, motto z książki “Advances in knowledge discovery and data mining”
Bazy danych II Instrukcja SELECT Piotr Górczyński 25/08/2001.
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Przegląd zastosowań.
EControl – prostsze zarządzanie tożsamością pracowników Twórz Zarządzaj Audytuj Wolfgang Berger Omni Technology Solutions
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
Symulacja zysku Sprzedaż pocztówek.
Modelowanie lokowania aktywów
1 Stan rozwoju Systemu Analiz Samorządowych czerwiec 2009 Dr Tomasz Potkański Z-ca Dyrektora Biura Związku Miast Polskich Warszawa,
SŁOWA, które doprowadzą nas do KLIENTA
Ksantypa2: Architektura
Prognozowanie na podstawie modelu ekonometrycznego
Klasyfikacja Obcinanie drzewa Naiwny klasyfikator Bayes’a kNN
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych
Odkrywanie wzorców sekwencji
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
Klasyfikacja systemów
5. Problemy lokalizacji w projektowaniu międzynarodowych struktur logistycznych – przegląd metod i technik.
Lider rynku Źródło: The OLAP Report Źródło: Gartner Group
Wykład 2 Cykl życia systemu informacyjnego
Klasyfikacja dokumentów za pomocą sieci radialnych
Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.
dr inż. Piotr Muryjas Wyższa Szkoła Przedsiębiorczości i Administracji
Wstęp do eksploracji danych
o granicy funkcji przy obliczaniu granic Twierdzenia
Analiza współzależności cech statystycznych
Rozkłady wywodzące się z rozkładu normalnego standardowego
Microsoft Solution Framework
Dr hab. Dariusz Piwczyński Katedra Genetyki i Podstaw Hodowli Zwierząt
Techniki eksploracji danych
Prezentacja i szkolenie
Procesy eksploracji danych
KOLEKTOR ZASOBNIK 2 ZASOBNIK 1 POMPA P2 POMPA P1 30°C Zasada działanie instalacji solarnej.
Podstawy działania wybranych usług sieciowych
EXCEL Wykład 4.
Zasady organizacji wydarzeń promocyjnych
Wykorzystanie nowoczesnych systemów zarządzania w celu zwiększenia
Prezentacja programu Territory Manager 4.01 Delta Software sp. zoo.
Modelowanie obiektowe Diagramy UML – diagram przypadków użycia
w ekonomii, finansach i towaroznawstwie
IV EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Ekonometria stosowana
Ekonometryczne modele nieliniowe
Prawo malejącej krańcowej stopy zwrotu Prawo DMP
Seminarium licencjackie Beata Kapuścińska
1 Spotkanie dotowane w ramach Programu Rozwoju Sprzedaży Ilustracje pochodzą z ogólnodostępnych stron internetowych, w tym
Obliczalność czyli co da się policzyć i jak Model obliczeń sieci liczące dr Kamila Barylska.
Systemy dynamiczne 2014/2015Obserwowalno ść i odtwarzalno ść  Kazimierz Duzinkiewicz, dr hab. in ż. Katedra In ż ynierii Systemów Sterowania 1 Obserwowalność.
Studium osiągalności. Rozmiar projektu (np. w punktach funkcyjny projektu w porównaniu do rozmiaru zakładanego zespołu projektowego i czasu Dostępność.
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Wspomaganie Decyzji IV
EXCEL Wstęp do lab. 4. Szukaj wyniku Prosta procedura iteracyjnego znajdowania niewiadomej spełniającej warunek będący jej funkcją Metoda: –Wstążka Dane:
Adaptacyjne Systemy Inteligentne Maciej Bielski, s4049.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Rodzaje zmian zachodzących w otoczeniu przedsiębiorstwa:
Projekt modułu BANK INTERNETOWY Moduł funkcji banku
Przeczytaj wszystko na temat wiadomości programu Microsoft SharePoint
Selekcja danych Korelacja.
Prezentacja biznesplanu
Programowanie sieciowe Laboratorium 4
Korelacja i regresja liniowa
Zapis prezentacji:

Używanie eksploracji danych w systemach IT Rafal Lukawiecki Strategic Consultant, Project Botticelli Ltd rafal@projectbotticelli.co.uk

Cele Rozwiązywanie typowych scenariuszy biznesowych i IT Zrozumienie sposobu używania środowiska BIDS Zobaczmy działanie (ok. 70% popołudnia na pokazy) Rozwiązywanie problemów DM przez wybieranie i parametryzację właściwych algorytmów DM To seminarium bazuje na książce „Data Mining” autorstwa ZhaoHui Tang i Jamie MacLennan, oraz na prezentacjach Jamiego. Dziękuję Jamiemu i Donaldowi Farmerowi za pomoc podczas przygotowywania tej sesji. Dziękuję Roni Karassik za slajd. Dziękuję Mike'owi Tsalidisowi, Oldze Londer i Marinowi Bezicowi za wszelką pomoc. Dziękuję Maciejowi Pileckiemu za pomoc przy pokazach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. Niektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Wszelkie prawa zastrzeżone. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia.

Program Przegląd technik Scenariusze: Segmentacja i klasyfikacja klientów Analiza sprzedaży Zyskowność i ryzyko Analiza potrzeb klientów Prognozowanie Inne scenariusze

Techniki

Algorytmy DM firmy Microsoft Przeznaczone do szerokiego stosowania Automatyczne dostrajanie i parametryzowanie Po prostu działają przy niewielkim zaangażowaniu użytkownika Spójny i prosty interfejs Dlaczego „Microsoft xxx”? Jak dotąd jest zaledwie kilka prawdziwie standardowych algorytmów Każdy producent DM ma własne odmienne wersje Firma Microsoft wymyśliła kilka technik Np. użycie drzew regresji i zagnieżdżonych przypadków Można łatwo dodać algorytmy innych firm i własne

Algorytmy eksploracji danych Opis Drzewa decyzyjne Określa szanse wyniku na podstawie wartości w zestawie treningowym Reguły asocjacyjne Określa relacje między przypadkami Klastrowanie Klasyfikuje przypadki na odrębne grupy na podst. zbiorów atrybutów Naiwny klasy-fikator Bayesa Wyraźnie przedstawia różnice w konkretnej zmiennej dla różnych elementów danych Klastrowanie sekwencyjne Grupuje lub klastruje dane na podstawie sekwencji poprzednich zdarzeń Szeregi czasowe Analizuje i prognozuje dane czasowe łącząc możliwości rozwiązania ARTXP (opracowanego przez zespół Microsoft Research) do krótkoterminowych przewidywań z metodą ARIMA (w SQL 2008) w celu osiągnięcia precyzji w dłuższej perspektywie. Sieci neuronowe Szuka nieznanych nieintuicyjnych relacji w danych Regresja liniowa Określa relację między kolumnami w celu przewidywania wyniku Regresja logistyczna Określa relację między kolumnami w celu oceny prawdopodobieństwa, że kolumna będzie zawierać konkretny stan

Macierz algorytmów Segmentacja Zaawansowana Prognozowanie ekspl. danych Segmentacja Prognozowanie Klasyfikacja Szacowanie Analiza tekstu Asocjacja Reguły asocjacyjne Klastrowanie Drzewa decyzyjne Regresja liniowa Regresja logistyczna Naiwny klasy- fikator Bayesa Sieci neuronowe Klastrowanie sekwencyjne Szeregi czasowe

SCENARIUSZ 1: KLASYFIKAJCA I SEGMENTACJA KLIENTÓW Kim są nasi klienci? Czy istnieją jakieś relacje między danymi demograficznymi klientów a ich chęcią kupowania u nas? Na kim należy się bardziej skoncentrować? SCENARIUSZ 1: KLASYFIKAJCA I SEGMENTACJA KLIENTÓW

Poznajemy środowisko BIDS Business Intelligence Development Studio Tryby offline i online Wszystko, co robimy, pozostaje na serwerze Wdrożenie trybu offline wymaga uprawnień administratora serwera Proces: Zdefiniowanie źródeł danych i widoków źródeł danych Zdefiniowanie struktury i modeli eksploracji Trenowanie (proces) struktur Weryfikacja dokłdności Eksploracja i wizualizacji Przewidywania Wdrażanie dla innych użytkowników Regularna aktualizacja i ponowna walidacja modelu

Używanie środowiska BIDS do przygotowań na potrzeby eksploracji danych Pokaz Używanie środowiska BIDS do przygotowań na potrzeby eksploracji danych 10

Data Mining Designer Budowa struktury eksploracji i jej pierwszy model eksploracji Trenowanie (proces) modelu Walidacja modelu na karcie Accuracy Chart Eksploracja i wizualizacja Przewidywania

Drzewa decyzyjne firmy Microsoft Służą do: Klasyfikacji: analiza odejść i ryzyka Regresji: przewidywanie zysku lub dochodu Analizy asocjacyjnej opartej na wielu przewidywalnych zmiennych Jedno drzewo dla każdego przewidywalnego atrybutu Szybkie

Parametry drzewa decyzyjnego COMPLEXITY_PENALTY FORCE_REGRESSOR MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MINIMUM_SUPPORT SCORE_METHOD SPLIT_METHOD

Pokaz Tworzenie modelu eksploracji danych na potrzeby klasyfikacji klientów przy użyciu drzew decyzyjnych firmy Microsoft Eksploracja drzewa decyzyjnego 14

Naiwny klasyfikator Bayesa firmy Microsoft Służy do: Klasyfikacji Asocjacji z wieloma przewidywalnymi atrybutami Zakłada, że wszystkie dane wejściowe są niezależne Prosta technika klasyfikacji na podstawie prawdopodobieństwa warunkowego

Parametry naiwnego klasyfikatora Bayesa MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MAXIMUM_STATES MINIMUM_DEPENDENCY_PROBABILITY

Klastrowanie Stosowane do Dyskretne i ciągłe Uwaga: Segmentacji: grupowanie klientów, kampanie mailingowe Także: do klasyfikacji i regresji Wykrywania anomalii Dyskretne i ciągłe Uwaga: Atrybuty „Predict Only” nie są używane w klastrowaniu

Klastrowanie

Klastrowanie Wykrywanie anomalii Wiek Mężczyzna Kobieta Syn Córka Rodzic

Parametry klastrowania CLUSTER_COUNT CLUSTER_SEED CLUSTERING_METHOD MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_STATES MINIMUM_SUPPORT MODELLING_CARDINALITY SAMPLE_SIZE STOPPING_TOLERANCE

Sieć neuronowa firmy Microsoft Stosowana do: Klasyfikacji Regresji Znakomita do znajdowania skomplikowanych relacji między atrybutami Trudne do interpretacji wyniki Metoda spadku gradientu Warstwa wyjścia Lojalność Warstwy ukryte Warstwa wejścia Wiek Wykształcenie Płeć Przychód

Parametry sieci neuronowej HIDDEN_NODE_RATIO HOLDOUT_PERCENTAGE HOLDOUT_SEED MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MAXIMUM_STATES SAMPLE_SIZE

Pokaz Rozwinięcie klasyfikacji i segmentacji klientów za pomocą rozwiązań klastrowania, naiwnego klasyfikatora Bayesa i sieci neuronowych firmy Microsoft Eksploracja i wizualizacja wykrytych układów za pomocą powyższych metod 23

Walidacja wyników Karty Accuracy Viewer umożliwiają wykonanie pełnego przewidywania w oparciu o dane wydzielone Wyniki są porównywane ze znanymi wydzielonymi wartościami i wizualizowane: Macierz klasyfikacji – żmudna, ale dokładna Wykresy wzrostu pokazują porównanie modelu z losowymi pozbawionymi podstaw domysłami Porównanie wyników wielu algorytmów Dwa typy wykresów: rodzajowy i charakterystyczny dla przewidywanej wartości (np. [Całkowita liczba zakupów samochodów] = 2) Wykres zysku to prosta odmiana wykresu wzrostu Nie jest faktyczną prognozą „zysku”. To tylko nazwa

Pokaz Weryfikacja wyników przy użyciu macierzy klasyfikacji Walidacja dokładności modelu przy użyciu dwóch typów wykresów wzrostu 25

Poprawianie modeli Podejścia: Zmiana algorytmu Zmiana parametrów modelu Zmiana wejść/wyjść w celu uniknięcia złych korelacji Czyszczenie zestawu danych Być może dane nie zawierają dobrych układów Weryfikacja statystyk (Data Explorer)

Pokaz Poprawa wyników klastrowania przez parametryzację Ponowna walidacja modeli klasyfikacji klientów 27

SCENARIUSZ 2: ANALIZA SPRZEDAŻY Dlaczego niektóre nasze produkty odnoszą większy sukces? Dlaczego niektóre grupy klientów preferują pewien model lub pewną markę? Czy możemy automatycznie polecić dodatkowe produkty w naszej witrynie sieci Web, nie irytując klientów? SCENARIUSZ 2: ANALIZA SPRZEDAŻY

Przede wszystkim zastosować: Drzewa decyzyjne Zwłaszcza w przypadkach zagnieżdżonych To powoduje subtelną zmianę, umożliwiającą znajdowanie asocjacji Klastrowanie Naiwny klasyfikator Bayesa Sieci neuronowe oraz ...

Reguły asocjacyjne firmy Microsoft Używane do: Analiza koszykowa Sprzedaż krzyżowa i rekomendacje Zaawansowana eksploracja danych Umożliwia wyszukiwanie częstych zestawów elementów i reguł Wrażliwe na parametry

Parametry reguł asocjacyjnych MINIMUM_SUPPORT MINIMUM_PROBABILITY MINIMUM_IMPORTANCE MINIMUM_ITEMSET_SIZE MAXIMUM_ITEMSET_COUNT MAXIMUM_ITEMSET_SIZE MAXIMUM_SUPPORT

Pokaz Analiza potrzeb klientów przy użyciu drzew decyzyjnych i bez zagnieżdżania... ... i drzew decyzyjnych z przypadkami zagnieżdżonymi Używanie reguł asocjacyjnych do szukania preferencji zakupowych 32

SCENARIUSZ 3: ZYSKOWNOŚĆ I RYZYKO Kim są klienci zapewniający największe zyski? Czy na podstawie danych demograficznych można przewidywać, kim będą klienci w przyszłości? Czy należy im już dziś przyznać „Platynową kartę”? SCENARIUSZ 3: ZYSKOWNOŚĆ I RYZYKO

Zyskowność i ryzyko Kolejny przykład klasyfikacji to wykrywanie, co powoduje, że klient zapewnia zyski Z reguły używane podejścia do rozwiązania problemu: Drzewa decyzyjne (regresja), regresja liniowa i sieci neuronowe lub regresja logistyczna Często używana do przewidywania Ważne w przewidywaniu prawdopodobieństwa przewidywanych lub spodziewanych zysków Ocena ryzyka Regresja logistyczna i sieci neuronowe

Funkcje Funkcji DMX można używać do tworzenia bardziej rozbudowanych wyrażeń przewidywań Przewidywanie miar statystycznych: PredictProbability PredictHistogram Użycie ma kluczowe znaczenie podczas przewidywania dowolnych wartości, w szczególności zysku lub ryzyka

PredictProbability PredictProbability(LoanStatus) Prawdopodobieństwo najbardziej prawdopodobnego wyniku PredictProbability(LoanStatus, “Defaulted”) Prawdopodobieństwo, że pożyczka będzie bardzo kłopotliwa Podobnie jak PredictAdjustedProbability itp.

Pokaz Analiza i przewidywanie ryzyka pożyczki za pomocą kwerend nazwanych Analiza zyskowności przy użyciu wielu algorytmów Wykonywanie przewidywań w środowisku BIDS Przewidywanie w programie Excel przy użyciu wcześniej wdrożonych modeli i karty „Data Mining” 37

Walidacja krzyżowa wyników: wiarygodność SQL Server 2008 X iteracji ponownego treningu i testowania modelu Wyniki poszczególnych testów pogrupowane statystycznie Model jest uznawany za dokładny (i prawdopodobnie wiarygodny), gdy wariancja jest niska, a wyniki zgodne z oczekiwaniami

Walidacja krzyżowa wiarygodności modelu Pokaz Walidacja krzyżowa wiarygodności modelu 39

SCENARIUSZ 4: ANALIZA POTRZEB KLIENTÓW Jak się zachowują? Co najprawdopodobniej zrobią, gdy już naprawdę drogi samochód? Czy mam podjąć jakieś kroki? SCENARIUSZ 4: ANALIZA POTRZEB KLIENTÓW

Co to jest sekwencja? Aby wykryć najbardziej prawdopodobne początki, trasy i zakończenia podróży klientów po naszej domenie należy wziąć pod uwagę użycie: Reguł asocjacyjnych Klastrowania sekwencyjnego

Klastrowanie sekwencyjne firmy Microsoft Analiza: Zachowań klientów Układów transakcji Strumieni kliknięć Segmentacji klientów Przewidywanie sekwencji Mieszanka technologii klastrowania i sekwencjonowania Grupowanie osób na podstawie ich profili w tym dane sekwencyjne

Dane sekwencyjne ID klienta Wiek Stan cywilny Zakupy samochodów ID sekw Marka 1 35 ZŻ Porch-A 2 Bamborgini 3 Kexus 20 W Wagen Voovo 57 T-Yota

Parametry klastrowania sekwencyjnego CLUSTER_COUNT MAXIMUM_SEQUENCE_STATES MAXIMUM_STATES MINIMUM_SUPPORT

Pokaz Analiza zachowań transakcyjnych klientów przy użyciu klastrowania sekwencyjnego Analiza zdarzeń prowadzących do utraty klienta przy użyciu klastrowania sekwencyjnego 45

SCENARIUSZ 5: PROGNOZOWANIE Jak będzie się kształtować sprzedaż w ciągu kilku najbliższych miesięcy? Czy wystąpią problemy kredytowe? Czy serwer będzie wymagał uaktualnienia wciągu następnych 3 miesięcy? SCENARIUSZ 5: PROGNOZOWANIE

Szacowanie przyszłości Prognozowanie Ale: dane są bardzo sezonowe Sezonowość wykrywana za pomocą szybkiej transformacji Fouriera Szeregi czasowe W programie SQL Server 2005 jest używany algorytm ARTXP (drzewa autoregresyjne z predykcją krzyżową) Do prognozowania krótkoterminowego W programie SQL Server 2008 jest używana hybryda poprawionego algorytmu ARTXP standardowego algorytmu ARIMA (scałkowana autoregresja i średnia ruchoma) Znakomite do prognozowania krótko- i długoterminowego

Szeregi czasowe firmy Microsoft Zastosowania: Prognozowanie sprzedaży Przewidywanie zapasów Przewidywanie odwiedzin witryny Szacowanie wartości akcji Technologia drzewa regresji do opisywania i przewidywania wartości szeregu Drzewa umożliwiają stosowanie wielu regresorów

Autoregresja Miesiąc Mleko Chleb Sty 100 80 Lut 120 90 Mar 110 85 Kwi 115 Maj 125 Cze 123 Lip 140 150 … Id Przyp Mleko (t-2) (t-1) (t0) Chleb Chleb (t0) 1 100 120 110 80 90 85 2 115 3 125 4 123 5 140 150 …

Drzewo regresji Wszystko Mleko(t-1) >120 Mleko(t-1) <=120 Chleb(t-2) <=110 Chleb(t-2) >110 Mleko(t-1) >120 Mleko(t-1) <=120 Mleko = 3,02 + 0,72*Chleb(t-1) +0,31*Mleko(t-1)

Dane wejściowe Miesiąc Mleko Chleb Sty 100 80 Lut 120 90 Mar 110 85 Kwi 115 Maj 125 Cze 123 Lip 140 150 … Miesiąc Produkt Sprzedaż Sty Mleko 100 Chleb 80 Lut 120 90 Mar 110 85 Kwi 115 … Format A Format B

Parametry szeregów czasowych AUTO_DETECT_PERIODICITY COMPLEXITY_PENALTY HISTORIC_MODEL_COUNT HISTORIC_MODEL_GAP MAXIMUM_SERIES_VALUE MINIMUM_SERIES_VALUE MINIMUM_SUPPORT MISSING_VALUE_SUBSITUTION PERIODICITY_HINT

Pokaz Prognozowanie sprzedaży przy użyciu modelu klienta i środowiska BIDS Prognozowanie sprzedaży przy użyciu narzędzi analizy tabel w programie Excel 53

Monitorowanie wydajności Problem: Co jest przyczyną problemów z serwerami? Czy daje się zaobserwować powtarzający się schemat awarii? Sugerowane rozwiązanie: Szeregi czasowe licznika wydajności z dziennika, uśrednione i znormalizowane Klastrowanie sekwencyjne zdarzeń występujących w dzienniku aplikacji dla każdej transakcji

Pokaz Przewidywanie potrzeb dotyczących użycia dysku w serwerze za pomocą szeregów czasowych 55

INNE SCENARIUSZE

Poprawa danych w procesach ETL Problem: Niespójne lub brakujące dane w procesie ETL (hurtownie danych). Sugerowane rozwiązanie: Model drzewa decyzyjnego (lub klastrowanie, naiwny klasyfikator Bayesa) do istniejących danych Zastosowanie przewidywania w czasie rzeczywistym, gdy ma miejsce proces ETL Oznaczyć miarą prawdopodobieństwa każdy wiersz zawierający wiersz przewidywanych wartości (to nie jest fakt)

Wykrywanie zagrożeń Problem: Sugerowane rozwiązanie: Wykrywanie podejrzanych transakcji oraz intruzów. Sugerowane rozwiązanie: Klastrowanie (lub sieć neuronowa) do wykrywania małych grup wydzieleń Przewidywanie „tylko jednego wiersza” danych transakcyjnych, w celu stwierdzenia, czy należy do podejrzanego klastra lub Klastrowanie sekwencyjne kliknięć w celu wykrycia znanych schematów ataku

Analiza opinii z witryny sieci Web i poczty e-mail Problem: Jakie są główne problemy wskazywane przez klientów? W jaki sposób można szybko wykryć zgłoszenia problemów wymagających reakcji? Sugerowane rozwiązanie: Wyodrębnianie i atomizacja tekstu za pomocą SSIS Reguły asocjacyjne (lub klastrowanie sekwencyjne) wyodrębnionych tokenów Możliwe przewidzenie wcześniej sugerowanego rozwiązania lub po prostu klasyfikacja zgłoszenia

Zasoby Prezentacje i biuletyn: www.sqlserverdatamining.com AdventureWorksDW: www.codeplex.com Książka autorstwa Jamiego MacLennana i ZhaoHui Tanga „Data Mining with SQL Server 2005”, Wiley 2005, ISBN 0471462616 A także: www.beyeblogs.com/donaldfarmer blogs.msdn.com/jamiemac www.microsoft.com/sql/technologies/dm forums.microsoft.com/MSDN/ShowForum.aspx?ForumID=81&SiteID=1 Pełna dokumentacja w witrynie SQL Server Books Online Znakomite seminaria www.microsoft.com/technetspotlight

Podsumowanie Eksploracja danych to kluczowa technologia analizy predykcyjnej – główny trend Intuicyjna ze znakomitą wizualną prezentacją informacji zwrotnych gwarantującą wysoką jakość Dzięki niej użytkownik może awansować do rangi strażnika wiedzy Pozwala odkrywać i eksplorować ukrytą wiedzę, dzięki której firma może odnosić większe sukcesy

Pytania i odpowiedzi Dziękuję!

2008 Microsoft Corporation & Project Botticelli Ltd 2008 Microsoft Corporation & Project Botticelli Ltd. Wszelkie prawa zastrzeżone. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. Niektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia.

SCENARIUSZ DODATKOWY: WALIDACJA WPROWADZANYCH DANYCH Jak można wykryć błędny wpis danych bez sztywnego kodowania reguł? Inteligentne aplikacje? SCENARIUSZ DODATKOWY: WALIDACJA WPROWADZANYCH DANYCH

Co w tym niezwykłego? Zachowanie aplikacji ewoluuje i jest zgodne z modelem eksploracji danych Mają na nie wpływ zdarzenia powodowane przez aplikacje! Tworzy się sprzężenie zwrotne z aplikacji poprzez efekt i z powrotem do aplikacji „Sztuczka” tego połączenia polega na wykryciu nowo powstających układów i znikających starych – podstawowe zadanie eksploracji danych

Inteligentna aplikacja Dane do przewidzenia Dane treningowe Model eksploracji Dane BD Dane klienta Dziennik apl. “Tylko jeden wiersz” Nowy wpis Nowy Txion Aparat DM Aparat DM Model eksploracji Model eksploracji Przewidziane dane

Inteligentna aplikacja – kroki Widok uproszczony Przygotować bazę danych do eksploracji Utworzyć i trenować model DM na danych składających się zarówno z danych wejściowych, jak i faktycznych wyników Przetestować model. Jeśli OK... Model przewiduje wyniki Opracować logikę aplikacji w zależności od przewidywanych wyników (if, case itp.) Okresowo aktualizować (i wykonywać walidację) model wraz z rozbudową danych

Inteligentna część aplikacji Instrukcja „if” będzie testować wartość zwracaną z przewidywania – na ogół przewidywane prawdopodobieństwo lub przewidywany wynik Kroki: Zbudować przypadek (zbiór atrybutów) reprezentujący aktualnie przetwarzaną transakcję Np. koszyk zakupów klienta plus informacje o wysyłce Wykonać instrukcję „SELECT ... PREDICTION JOIN” na wstępnie załadowanym modelu eksploracji Przeczytać zwrócone atrybuty, zwłaszcza prawdopodobieństwo przypadku dla pewnego wyniku Np. prawdopodobieństwo > 50%, że „WynikTransakcji=NiepowodzenieDostawy” Aplikacja właśnie podjęła inteligentną decyzję! Pamiętać, aby regularnie odświeżać i ponownie testować model – codziennie?

Zapraszam do pokazu pod adresem... www.microsoft.com/technetspotlight Proszę poszukać mojej sesji zatytuowanej „Build More Intelligent Applications Using Data Mining” na konferencji Microsoft TechEd Developers 2007 w Barcelonie