Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Używanie eksploracji danych w systemach IT

Podobne prezentacje


Prezentacja na temat: "Używanie eksploracji danych w systemach IT"— Zapis prezentacji:

1 Używanie eksploracji danych w systemach IT
Rafal Lukawiecki Strategic Consultant, Project Botticelli Ltd

2 Cele Rozwiązywanie typowych scenariuszy biznesowych i IT
Zrozumienie sposobu używania środowiska BIDS Zobaczmy działanie (ok. 70% popołudnia na pokazy) Rozwiązywanie problemów DM przez wybieranie i parametryzację właściwych algorytmów DM To seminarium bazuje na książce „Data Mining” autorstwa ZhaoHui Tang i Jamie MacLennan, oraz na prezentacjach Jamiego. Dziękuję Jamiemu i Donaldowi Farmerowi za pomoc podczas przygotowywania tej sesji. Dziękuję Roni Karassik za slajd. Dziękuję Mike'owi Tsalidisowi, Oldze Londer i Marinowi Bezicowi za wszelką pomoc. Dziękuję Maciejowi Pileckiemu za pomoc przy pokazach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. Niektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Wszelkie prawa zastrzeżone. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia.

3 Program Przegląd technik Scenariusze:
Segmentacja i klasyfikacja klientów Analiza sprzedaży Zyskowność i ryzyko Analiza potrzeb klientów Prognozowanie Inne scenariusze

4 Techniki

5 Algorytmy DM firmy Microsoft
Przeznaczone do szerokiego stosowania Automatyczne dostrajanie i parametryzowanie Po prostu działają przy niewielkim zaangażowaniu użytkownika Spójny i prosty interfejs Dlaczego „Microsoft xxx”? Jak dotąd jest zaledwie kilka prawdziwie standardowych algorytmów Każdy producent DM ma własne odmienne wersje Firma Microsoft wymyśliła kilka technik Np. użycie drzew regresji i zagnieżdżonych przypadków Można łatwo dodać algorytmy innych firm i własne

6 Algorytmy eksploracji danych
Opis Drzewa decyzyjne Określa szanse wyniku na podstawie wartości w zestawie treningowym Reguły asocjacyjne Określa relacje między przypadkami Klastrowanie Klasyfikuje przypadki na odrębne grupy na podst. zbiorów atrybutów Naiwny klasy-fikator Bayesa Wyraźnie przedstawia różnice w konkretnej zmiennej dla różnych elementów danych Klastrowanie sekwencyjne Grupuje lub klastruje dane na podstawie sekwencji poprzednich zdarzeń Szeregi czasowe Analizuje i prognozuje dane czasowe łącząc możliwości rozwiązania ARTXP (opracowanego przez zespół Microsoft Research) do krótkoterminowych przewidywań z metodą ARIMA (w SQL 2008) w celu osiągnięcia precyzji w dłuższej perspektywie. Sieci neuronowe Szuka nieznanych nieintuicyjnych relacji w danych Regresja liniowa Określa relację między kolumnami w celu przewidywania wyniku Regresja logistyczna Określa relację między kolumnami w celu oceny prawdopodobieństwa, że kolumna będzie zawierać konkretny stan

7 Macierz algorytmów Segmentacja Zaawansowana Prognozowanie
ekspl. danych Segmentacja Prognozowanie Klasyfikacja Szacowanie Analiza tekstu Asocjacja Reguły asocjacyjne Klastrowanie Drzewa decyzyjne Regresja liniowa Regresja logistyczna Naiwny klasy- fikator Bayesa Sieci neuronowe Klastrowanie sekwencyjne Szeregi czasowe

8 SCENARIUSZ 1: KLASYFIKAJCA I SEGMENTACJA KLIENTÓW
Kim są nasi klienci? Czy istnieją jakieś relacje między danymi demograficznymi klientów a ich chęcią kupowania u nas? Na kim należy się bardziej skoncentrować? SCENARIUSZ 1: KLASYFIKAJCA I SEGMENTACJA KLIENTÓW

9 Poznajemy środowisko BIDS Business Intelligence Development Studio
Tryby offline i online Wszystko, co robimy, pozostaje na serwerze Wdrożenie trybu offline wymaga uprawnień administratora serwera Proces: Zdefiniowanie źródeł danych i widoków źródeł danych Zdefiniowanie struktury i modeli eksploracji Trenowanie (proces) struktur Weryfikacja dokłdności Eksploracja i wizualizacji Przewidywania Wdrażanie dla innych użytkowników Regularna aktualizacja i ponowna walidacja modelu

10 Używanie środowiska BIDS do przygotowań na potrzeby eksploracji danych
Pokaz Używanie środowiska BIDS do przygotowań na potrzeby eksploracji danych 10

11 Data Mining Designer Budowa struktury eksploracji i jej pierwszy model eksploracji Trenowanie (proces) modelu Walidacja modelu na karcie Accuracy Chart Eksploracja i wizualizacja Przewidywania

12 Drzewa decyzyjne firmy Microsoft
Służą do: Klasyfikacji: analiza odejść i ryzyka Regresji: przewidywanie zysku lub dochodu Analizy asocjacyjnej opartej na wielu przewidywalnych zmiennych Jedno drzewo dla każdego przewidywalnego atrybutu Szybkie

13 Parametry drzewa decyzyjnego
COMPLEXITY_PENALTY FORCE_REGRESSOR MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MINIMUM_SUPPORT SCORE_METHOD SPLIT_METHOD

14 Pokaz Tworzenie modelu eksploracji danych na potrzeby klasyfikacji klientów przy użyciu drzew decyzyjnych firmy Microsoft Eksploracja drzewa decyzyjnego 14

15 Naiwny klasyfikator Bayesa firmy Microsoft
Służy do: Klasyfikacji Asocjacji z wieloma przewidywalnymi atrybutami Zakłada, że wszystkie dane wejściowe są niezależne Prosta technika klasyfikacji na podstawie prawdopodobieństwa warunkowego

16 Parametry naiwnego klasyfikatora Bayesa
MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MAXIMUM_STATES MINIMUM_DEPENDENCY_PROBABILITY

17 Klastrowanie Stosowane do Dyskretne i ciągłe Uwaga:
Segmentacji: grupowanie klientów, kampanie mailingowe Także: do klasyfikacji i regresji Wykrywania anomalii Dyskretne i ciągłe Uwaga: Atrybuty „Predict Only” nie są używane w klastrowaniu

18 Klastrowanie

19 Klastrowanie Wykrywanie anomalii
Wiek Mężczyzna Kobieta Syn Córka Rodzic

20 Parametry klastrowania
CLUSTER_COUNT CLUSTER_SEED CLUSTERING_METHOD MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_STATES MINIMUM_SUPPORT MODELLING_CARDINALITY SAMPLE_SIZE STOPPING_TOLERANCE

21 Sieć neuronowa firmy Microsoft
Stosowana do: Klasyfikacji Regresji Znakomita do znajdowania skomplikowanych relacji między atrybutami Trudne do interpretacji wyniki Metoda spadku gradientu Warstwa wyjścia Lojalność Warstwy ukryte Warstwa wejścia Wiek Wykształcenie Płeć Przychód

22 Parametry sieci neuronowej
HIDDEN_NODE_RATIO HOLDOUT_PERCENTAGE HOLDOUT_SEED MAXIMUM_INPUT_ATTRIBUTES MAXIMUM_OUTPUT_ATTRIBUTES MAXIMUM_STATES SAMPLE_SIZE

23 Pokaz Rozwinięcie klasyfikacji i segmentacji klientów za pomocą rozwiązań klastrowania, naiwnego klasyfikatora Bayesa i sieci neuronowych firmy Microsoft Eksploracja i wizualizacja wykrytych układów za pomocą powyższych metod 23

24 Walidacja wyników Karty Accuracy Viewer umożliwiają wykonanie pełnego przewidywania w oparciu o dane wydzielone Wyniki są porównywane ze znanymi wydzielonymi wartościami i wizualizowane: Macierz klasyfikacji – żmudna, ale dokładna Wykresy wzrostu pokazują porównanie modelu z losowymi pozbawionymi podstaw domysłami Porównanie wyników wielu algorytmów Dwa typy wykresów: rodzajowy i charakterystyczny dla przewidywanej wartości (np. [Całkowita liczba zakupów samochodów] = 2) Wykres zysku to prosta odmiana wykresu wzrostu Nie jest faktyczną prognozą „zysku”. To tylko nazwa

25 Pokaz Weryfikacja wyników przy użyciu macierzy klasyfikacji
Walidacja dokładności modelu przy użyciu dwóch typów wykresów wzrostu 25

26 Poprawianie modeli Podejścia:
Zmiana algorytmu Zmiana parametrów modelu Zmiana wejść/wyjść w celu uniknięcia złych korelacji Czyszczenie zestawu danych Być może dane nie zawierają dobrych układów Weryfikacja statystyk (Data Explorer)

27 Pokaz Poprawa wyników klastrowania przez parametryzację
Ponowna walidacja modeli klasyfikacji klientów 27

28 SCENARIUSZ 2: ANALIZA SPRZEDAŻY
Dlaczego niektóre nasze produkty odnoszą większy sukces? Dlaczego niektóre grupy klientów preferują pewien model lub pewną markę? Czy możemy automatycznie polecić dodatkowe produkty w naszej witrynie sieci Web, nie irytując klientów? SCENARIUSZ 2: ANALIZA SPRZEDAŻY

29 Przede wszystkim zastosować:
Drzewa decyzyjne Zwłaszcza w przypadkach zagnieżdżonych To powoduje subtelną zmianę, umożliwiającą znajdowanie asocjacji Klastrowanie Naiwny klasyfikator Bayesa Sieci neuronowe oraz ...

30 Reguły asocjacyjne firmy Microsoft
Używane do: Analiza koszykowa Sprzedaż krzyżowa i rekomendacje Zaawansowana eksploracja danych Umożliwia wyszukiwanie częstych zestawów elementów i reguł Wrażliwe na parametry

31 Parametry reguł asocjacyjnych
MINIMUM_SUPPORT MINIMUM_PROBABILITY MINIMUM_IMPORTANCE MINIMUM_ITEMSET_SIZE MAXIMUM_ITEMSET_COUNT MAXIMUM_ITEMSET_SIZE MAXIMUM_SUPPORT

32 Pokaz Analiza potrzeb klientów przy użyciu drzew decyzyjnych i bez zagnieżdżania... ... i drzew decyzyjnych z przypadkami zagnieżdżonymi Używanie reguł asocjacyjnych do szukania preferencji zakupowych 32

33 SCENARIUSZ 3: ZYSKOWNOŚĆ I RYZYKO
Kim są klienci zapewniający największe zyski? Czy na podstawie danych demograficznych można przewidywać, kim będą klienci w przyszłości? Czy należy im już dziś przyznać „Platynową kartę”? SCENARIUSZ 3: ZYSKOWNOŚĆ I RYZYKO

34 Zyskowność i ryzyko Kolejny przykład klasyfikacji to wykrywanie, co powoduje, że klient zapewnia zyski Z reguły używane podejścia do rozwiązania problemu: Drzewa decyzyjne (regresja), regresja liniowa i sieci neuronowe lub regresja logistyczna Często używana do przewidywania Ważne w przewidywaniu prawdopodobieństwa przewidywanych lub spodziewanych zysków Ocena ryzyka Regresja logistyczna i sieci neuronowe

35 Funkcje Funkcji DMX można używać do tworzenia bardziej rozbudowanych wyrażeń przewidywań Przewidywanie miar statystycznych: PredictProbability PredictHistogram Użycie ma kluczowe znaczenie podczas przewidywania dowolnych wartości, w szczególności zysku lub ryzyka

36 PredictProbability PredictProbability(LoanStatus)
Prawdopodobieństwo najbardziej prawdopodobnego wyniku PredictProbability(LoanStatus, “Defaulted”) Prawdopodobieństwo, że pożyczka będzie bardzo kłopotliwa Podobnie jak PredictAdjustedProbability itp.

37 Pokaz Analiza i przewidywanie ryzyka pożyczki za pomocą kwerend nazwanych Analiza zyskowności przy użyciu wielu algorytmów Wykonywanie przewidywań w środowisku BIDS Przewidywanie w programie Excel przy użyciu wcześniej wdrożonych modeli i karty „Data Mining” 37

38 Walidacja krzyżowa wyników: wiarygodność SQL Server 2008
X iteracji ponownego treningu i testowania modelu Wyniki poszczególnych testów pogrupowane statystycznie Model jest uznawany za dokładny (i prawdopodobnie wiarygodny), gdy wariancja jest niska, a wyniki zgodne z oczekiwaniami

39 Walidacja krzyżowa wiarygodności modelu
Pokaz Walidacja krzyżowa wiarygodności modelu 39

40 SCENARIUSZ 4: ANALIZA POTRZEB KLIENTÓW
Jak się zachowują? Co najprawdopodobniej zrobią, gdy już naprawdę drogi samochód? Czy mam podjąć jakieś kroki? SCENARIUSZ 4: ANALIZA POTRZEB KLIENTÓW

41 Co to jest sekwencja? Aby wykryć najbardziej prawdopodobne początki, trasy i zakończenia podróży klientów po naszej domenie należy wziąć pod uwagę użycie: Reguł asocjacyjnych Klastrowania sekwencyjnego

42 Klastrowanie sekwencyjne firmy Microsoft
Analiza: Zachowań klientów Układów transakcji Strumieni kliknięć Segmentacji klientów Przewidywanie sekwencji Mieszanka technologii klastrowania i sekwencjonowania Grupowanie osób na podstawie ich profili w tym dane sekwencyjne

43 Dane sekwencyjne ID klienta Wiek Stan cywilny Zakupy samochodów
ID sekw Marka 1 35 Porch-A 2 Bamborgini 3 Kexus 20 W Wagen Voovo 57 T-Yota

44 Parametry klastrowania sekwencyjnego
CLUSTER_COUNT MAXIMUM_SEQUENCE_STATES MAXIMUM_STATES MINIMUM_SUPPORT

45 Pokaz Analiza zachowań transakcyjnych klientów przy użyciu klastrowania sekwencyjnego Analiza zdarzeń prowadzących do utraty klienta przy użyciu klastrowania sekwencyjnego 45

46 SCENARIUSZ 5: PROGNOZOWANIE
Jak będzie się kształtować sprzedaż w ciągu kilku najbliższych miesięcy? Czy wystąpią problemy kredytowe? Czy serwer będzie wymagał uaktualnienia wciągu następnych 3 miesięcy? SCENARIUSZ 5: PROGNOZOWANIE

47 Szacowanie przyszłości Prognozowanie
Ale: dane są bardzo sezonowe Sezonowość wykrywana za pomocą szybkiej transformacji Fouriera Szeregi czasowe W programie SQL Server 2005 jest używany algorytm ARTXP (drzewa autoregresyjne z predykcją krzyżową) Do prognozowania krótkoterminowego W programie SQL Server 2008 jest używana hybryda poprawionego algorytmu ARTXP standardowego algorytmu ARIMA (scałkowana autoregresja i średnia ruchoma) Znakomite do prognozowania krótko- i długoterminowego

48 Szeregi czasowe firmy Microsoft
Zastosowania: Prognozowanie sprzedaży Przewidywanie zapasów Przewidywanie odwiedzin witryny Szacowanie wartości akcji Technologia drzewa regresji do opisywania i przewidywania wartości szeregu Drzewa umożliwiają stosowanie wielu regresorów

49 Autoregresja Miesiąc Mleko Chleb Sty 100 80 Lut 120 90 Mar 110 85 Kwi
115 Maj 125 Cze 123 Lip 140 150 Id Przyp Mleko (t-2) (t-1) (t0) Chleb Chleb (t0) 1 100 120 110 80 90 85 2 115 3 125 4 123 5 140 150

50 Drzewo regresji Wszystko Mleko(t-1) >120 Mleko(t-1) <=120
Chleb(t-2) <=110 Chleb(t-2) >110 Mleko(t-1) >120 Mleko(t-1) <=120 Mleko = 3,02 + 0,72*Chleb(t-1) +0,31*Mleko(t-1)

51 Dane wejściowe Miesiąc Mleko Chleb Sty 100 80 Lut 120 90 Mar 110 85
Kwi 115 Maj 125 Cze 123 Lip 140 150 Miesiąc Produkt Sprzedaż Sty Mleko 100 Chleb 80 Lut 120 90 Mar 110 85 Kwi 115 Format A Format B

52 Parametry szeregów czasowych
AUTO_DETECT_PERIODICITY COMPLEXITY_PENALTY HISTORIC_MODEL_COUNT HISTORIC_MODEL_GAP MAXIMUM_SERIES_VALUE MINIMUM_SERIES_VALUE MINIMUM_SUPPORT MISSING_VALUE_SUBSITUTION PERIODICITY_HINT

53 Pokaz Prognozowanie sprzedaży przy użyciu modelu klienta i środowiska BIDS Prognozowanie sprzedaży przy użyciu narzędzi analizy tabel w programie Excel 53

54 Monitorowanie wydajności
Problem: Co jest przyczyną problemów z serwerami? Czy daje się zaobserwować powtarzający się schemat awarii? Sugerowane rozwiązanie: Szeregi czasowe licznika wydajności z dziennika, uśrednione i znormalizowane Klastrowanie sekwencyjne zdarzeń występujących w dzienniku aplikacji dla każdej transakcji

55 Pokaz Przewidywanie potrzeb dotyczących użycia dysku w serwerze za pomocą szeregów czasowych 55

56 INNE SCENARIUSZE

57 Poprawa danych w procesach ETL
Problem: Niespójne lub brakujące dane w procesie ETL (hurtownie danych). Sugerowane rozwiązanie: Model drzewa decyzyjnego (lub klastrowanie, naiwny klasyfikator Bayesa) do istniejących danych Zastosowanie przewidywania w czasie rzeczywistym, gdy ma miejsce proces ETL Oznaczyć miarą prawdopodobieństwa każdy wiersz zawierający wiersz przewidywanych wartości (to nie jest fakt)

58 Wykrywanie zagrożeń Problem: Sugerowane rozwiązanie:
Wykrywanie podejrzanych transakcji oraz intruzów. Sugerowane rozwiązanie: Klastrowanie (lub sieć neuronowa) do wykrywania małych grup wydzieleń Przewidywanie „tylko jednego wiersza” danych transakcyjnych, w celu stwierdzenia, czy należy do podejrzanego klastra lub Klastrowanie sekwencyjne kliknięć w celu wykrycia znanych schematów ataku

59 Analiza opinii z witryny sieci Web i poczty e-mail
Problem: Jakie są główne problemy wskazywane przez klientów? W jaki sposób można szybko wykryć zgłoszenia problemów wymagających reakcji? Sugerowane rozwiązanie: Wyodrębnianie i atomizacja tekstu za pomocą SSIS Reguły asocjacyjne (lub klastrowanie sekwencyjne) wyodrębnionych tokenów Możliwe przewidzenie wcześniej sugerowanego rozwiązania lub po prostu klasyfikacja zgłoszenia

60 Zasoby Prezentacje i biuletyn: www.sqlserverdatamining.com
AdventureWorksDW: Książka autorstwa Jamiego MacLennana i ZhaoHui Tanga „Data Mining with SQL Server 2005”, Wiley 2005, ISBN A także: blogs.msdn.com/jamiemac forums.microsoft.com/MSDN/ShowForum.aspx?ForumID=81&SiteID=1 Pełna dokumentacja w witrynie SQL Server Books Online Znakomite seminaria

61 Podsumowanie Eksploracja danych to kluczowa technologia analizy predykcyjnej – główny trend Intuicyjna ze znakomitą wizualną prezentacją informacji zwrotnych gwarantującą wysoką jakość Dzięki niej użytkownik może awansować do rangi strażnika wiedzy Pozwala odkrywać i eksplorować ukrytą wiedzę, dzięki której firma może odnosić większe sukcesy

62 Pytania i odpowiedzi Dziękuję!

63 2008 Microsoft Corporation & Project Botticelli Ltd
2008 Microsoft Corporation & Project Botticelli Ltd. Wszelkie prawa zastrzeżone. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. Niektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia.

64 SCENARIUSZ DODATKOWY: WALIDACJA WPROWADZANYCH DANYCH
Jak można wykryć błędny wpis danych bez sztywnego kodowania reguł? Inteligentne aplikacje? SCENARIUSZ DODATKOWY: WALIDACJA WPROWADZANYCH DANYCH

65 Co w tym niezwykłego? Zachowanie aplikacji ewoluuje i jest zgodne z modelem eksploracji danych Mają na nie wpływ zdarzenia powodowane przez aplikacje! Tworzy się sprzężenie zwrotne z aplikacji poprzez efekt i z powrotem do aplikacji „Sztuczka” tego połączenia polega na wykryciu nowo powstających układów i znikających starych – podstawowe zadanie eksploracji danych

66 Inteligentna aplikacja
Dane do przewidzenia Dane treningowe Model eksploracji Dane BD Dane klienta Dziennik apl. “Tylko jeden wiersz” Nowy wpis Nowy Txion Aparat DM Aparat DM Model eksploracji Model eksploracji Przewidziane dane

67 Inteligentna aplikacja – kroki Widok uproszczony
Przygotować bazę danych do eksploracji Utworzyć i trenować model DM na danych składających się zarówno z danych wejściowych, jak i faktycznych wyników Przetestować model. Jeśli OK... Model przewiduje wyniki Opracować logikę aplikacji w zależności od przewidywanych wyników (if, case itp.) Okresowo aktualizować (i wykonywać walidację) model wraz z rozbudową danych

68 Inteligentna część aplikacji
Instrukcja „if” będzie testować wartość zwracaną z przewidywania – na ogół przewidywane prawdopodobieństwo lub przewidywany wynik Kroki: Zbudować przypadek (zbiór atrybutów) reprezentujący aktualnie przetwarzaną transakcję Np. koszyk zakupów klienta plus informacje o wysyłce Wykonać instrukcję „SELECT ... PREDICTION JOIN” na wstępnie załadowanym modelu eksploracji Przeczytać zwrócone atrybuty, zwłaszcza prawdopodobieństwo przypadku dla pewnego wyniku Np. prawdopodobieństwo > 50%, że „WynikTransakcji=NiepowodzenieDostawy” Aplikacja właśnie podjęła inteligentną decyzję! Pamiętać, aby regularnie odświeżać i ponownie testować model – codziennie?

69 Zapraszam do pokazu pod adresem...
Proszę poszukać mojej sesji zatytuowanej „Build More Intelligent Applications Using Data Mining” na konferencji Microsoft TechEd Developers w Barcelonie


Pobierz ppt "Używanie eksploracji danych w systemach IT"

Podobne prezentacje


Reklamy Google