Wstęp do eksploracji danych Rafal Lukawiecki Strategic Consultant, Project Botticelli Ltd rafal@projectbotticelli.co.uk
Cele Omówienie eksploracji danych Wprowadzenie typowych aplikacji i scenariuszy Wyjaśnienie niektórych pojęć z dziedziny eksploracji danych Przegląd szerszej platformy produktów To seminarium bazuje na książce „Data Mining” autorstwa ZhaoHui Tang i Jamie MacLennan, oraz na prezentacjach Jamiego. Dziękuję Jamiemu i Donaldowi Farmerowi za pomoc podczas przygotowywania tej sesji. Dziękuję Roni Karassik za slajd. Dziękuję Mike’owi Tsalidisowi, Oldze Londer i Marinowi Bezicowi za wszelką pomoc. Dziękuję Maciejowi Pileckiemu za pomoc przy pokazach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. Niektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Wszelkie prawa zastrzeżone. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia.
Zanim przejdziemy do rzeczy... Abym mógł dobrać najodpowiedniejsze przykłady i demonstracje, powiedzcie mi Państwo coś o sobie Kto z Państwa jest: specjalistą IT i/lub biznesu, specjalistą w dziedzinie baz danych, programistą/deweloperem systemów?
Istota eksploracji danych jako części analizy biznesowej
Analiza biznesowa Poprawa rozumienia biznesu 3/28/2017 4:53 AM Analiza biznesowa Poprawa rozumienia biznesu „Szeroka kategoria aplikacji i technologii do zbierania, przechowywania, analizowania i współużytkowania danych oraz zapewniania dostępu do nich w celu umożliwienia użytkownikom w przedsiębiorstwach podejmowanie lepszych decyzji biznesowych”. – Gartner © 2005 Microsoft Corporation. All rights reserved. This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.
Relacje I akronimy... Wykrywanie wiedzy w bazach danych (KDD) Ekspl. danych (DM) Wykrywanie wiedzy w bazach danych (KDD) Analiza biznesowa (BI)
Eksploracja danych Technologie do analizowania danych i wykrywania (bardzo) ukrytych układów Dość nowe (<20 lat), ale skuteczne algorytmy opracowane na drodze badań nad bazami danych Połączenie statystyki, analizy prawdopodobieństwa i technologii baz danych
Funkcje eksploracji danych Badanie danych Szukanie układów Sporządzanie prognoz
Eksploracja danych i analiza biznesowa Analiza biznesowa jest zorientowana na końcowego użytkownika, takiego jak właściciel firmy, pracownik opracowujący informacje itp. Eksploracja danych to technologia informatyczna na ogół przeznaczona dla bardziej zaawansowanych użytkowników – dzisiaj Przy okazji: kto ma dziś kwalifikacje do używania eksploracji danych?
Wczoraj i dziś eksploracji danych Tradycyjne podejście konkurentów firmy Microsoft jest przeznaczone dla ekspertów z dziedziny eksploracji danych: „Statystycy w białych kitlach z tytułem doktora” Narzędzia eksploracji danych są też dość drogie „Pełne” podejście firmy Microsoft adresowane do osób mających pewne umiejętności w dziedzinie baz danych Narzędzia typu T-SQL oraz Management Studio Eksploracja danych dostępna w programach Microsoft SQL Server 2005 oraz 2008 bez dodatkowych opłat „Łatwa” eksploracja danych jest adresowana do każdego użytkownika programu Excel
DM umożliwia analizę predykcyjną Analiza predykcyjna Rola programu Eksploracja danych Proaktywna Interaktywna OLAP Raportowanie ad-hoc Zdefiniowane raporty Pasywna Rozumienie biznesu Prezentacja Eksploracja Odkrywanie
Aplikacje i scenariusze
Znaczenie analizy predykcyjnej Typowe zastosowania Analiza predykcyjna Szukanie klientów przynoszących zyski Zrozumienie potrzeb klientów Przewidywanie utraty klientów Przewidywanie sprzedaży i zapasów Budowanie skutecznych kampanii marketingowych Wykrywanie oszustw i zapobieganie im Korygowanie danych w procesach ETL
Proces eksploracji danych CRISP-DM „Realizacja eksploracji danych” Rozumienie biznesu Rozumienie danych Przygotowanie danych Dane „Zaprzęganie DM do pracy” Wdrożenie Modelowanie Ocena www.crisp-dm.org
Zyski zapewniane przez klientów Typowe postępowanie: Klasyfikacja klientów w stosowny sposób Klastrowanie Szukanie relacji między zyskiem a cechami klientów Drzewo decyzyjne Rozpoznawanie preferencji klientów Reguły asocjacji Badanie zachowań klientów Klastrowanie sekwencyjne oraz Przewidywanie zysków zapewnianych przez potencjalnych klientów
Przewidywanie sprzedaży i zapasów Można: Określić strukturę danych dotyczących sprzedaży i zapasów jako szeregi czasowe Być może, korzystając z hurtowni danych Przewidywać sprzedaż i potrzeby Szeregi czasowe lub drzewa decyzyjne z regresją
Budowanie skutecznych kampanii marketingowych Postępowanie: Segmentacja istniejących klientów Klastrowanie i drzewa decyzyjne Badanie przyczyn reagowania klientów na kampanie Drzewo decyzyjne, naiwny klasyfikator Bayesa, klastrowanie, sieci neuronowe Eksperymentowanie z kampaniami przez skupianie Wykresy wzrostu Prowadzenie kampanii Przewidywanie odbiorców Przeglądanie strategii w świetle obserwowanej reakcji Aktualizacja modeli
Wykrywanie oszustw i zapobieganie im Można: Budować modele ryzyka do istniejących klientów lub transakcji Drzewo decyzyjne, klastrowanie, sieci neuronowe i często regresja logistyczna Oceniać ryzyko nowej transakcji Przewidywanie ryzyka i jego prawdopod. na podstawie modelu Albo Modelować sekwencje transakcji Klastrowanie sekwencyjne Wykrywać nietypowe zjawiska (outliers) Badanie modelu eksploracji – sieci neuronowe, drzewa, klastrowanie Uzyskiwać dostęp na bieżąco do nowych zdarzeń Przewidywanie za pomocą metamodelu
Nowa możliwość: Inteligentne aplikacje Przykłady Inteligentnych aplikacji: Walidacja wejścia na podstawie już zaakceptowanych danych, a nie sztywnych reguł Walidacja procesu biznesowego – wczesne wykrywanie awarii Adaptacyjny interfejs użytkownika na podstawie jego wcześniejszych zachowań Określane też jako programowanie predykcyjne Więcej informacji znajduje się w dokumencie Build More Intelligent Applications using Data Mining pod adresem www.microsoft.com/technetspotlight
Produkty do eksploracji danych
Konkurencja rozwiązania Microsoft DM SAS, największy udział w rynku DM, specjalistyczne produkty dla tradycyjnych ekspertów SPSS (Clementine), silna pozycja w dziedzinie analizy statystycznej IBM (Intelligent Miner) związany z DB2, współpracuje z rozwiązaniem firmy Microsoft poprzez PMML Oracle (10g), obsługa interfejsów API języka Java Angoss (KnowledgeSTUDIO), wizualizacja wyników, współpraca z programem SQL Server KXEN, obsługa technologii OLAP i programu Excel
SQL Server 2005 i 2008 Potrzeba czegoś więcej niż aparatu BD Integracja Analiza Raport Pozyskiwanie i integracja danych z wielu źródeł Transformacja i synteza danych za pomocą eksploracji danych Wykrywanie wiedzy i układów za pomocą eksploracji danych Rozszerzanie danych za pomocą reguł logiki i widoków hierarchicznych Prezentacja i dystrybucja danych Publikowanie wyników eksploracji danych
Technologie DM w SQL Server 2005 Silne, opatentowane algorytmy z laboratoriów Microsoft Research Współdziałanie PMML (Predictive Model Markup Language) dla rozwiązań SAS, SPSS, IBM i Oracle Liczne narzędzia: Business Intelligence Development Studio (BIDS) Data Mining Extensions for Excel (i inne) DMX oraz OLE DB for Data Mining XML for Analysis (XMLA)
Nowości w SQL Server 2008 Ulepszenia eksploracji danych Ulepszone struktury eksploracji Łatwiejsze przygotowanie i testowanie modeli Modele umożliwiają walidację krzyżową Filtrowanie Aktualizacje algorytmów Ulepszone algorytmy szeregów czasowych łączące najlepsze cechy rozwiązań ARIMA i ARTXP Analiza „co się stanie, jeżeli” Infrastruktura Microsoft Data Mining Uzupełnia metodologię CRISP-DM
Dodatki DM do systemu Microsoft Office 2007 Definicja danych Identyfikacja zadania Rezultaty
Pokaz Używanie dodatku Data Mining Add-in Table Tools dla programu Microsoft Excel 2007 26
Architektura eksploracji serwera Wdrożenie BIDS Excel Visio SSMS Excel/Visio/SSRS/Twoja aplikacja OLE DB/ADOMD/XMLA/AMO Dane apl. Serwer usług Analysis Services Model eksploracji Źródło danych Algorytm eksploracji danych
Wnioski
ABS-CBN Interactive (ABSi) Filia największej na Filipinach firmy z branży medialno-rozrywkowej Firma z branży usług bezprzewodowych podwaja współczynnik odpowiedzi dzięki rozwiązaniu eksploracjii danych w programie SQL Server 2005 Wyzwanie Sprzedaż niestandardowych dzwonków i innej pobieralnej zawartości użytkownikom telefonów komórkowych wymaga dostosowania się do potrzeb rynku. Przeszukiwanie danych transakcyjnych w celu określenia, co należy oferować użytkownikom w sprzedaży wiązanej w ramach usług telefonii komórkowej zajęło wiele dni i nie zaowocowało uzyskaniem konkretnych wskazań. Rozwiązanie Firma ABSi wdrożyła funkcje eksploracji danych w programie Microsoft® SQL Server™ 2005 w celu uzyskania wskazań dotyczących produktów. Korzyść Dokładniejsze i spersonalizowane wskazania dotyczące usług dla klientów Podwojenie współczynnika odpowiedzi kampanii marketingowych Raporty ad hoc uzyskiwane w ciągu kilku minut, a nie dni Ośmiokrotnie szybszy proces eksploracji danych Szybsze przewidywanie eksploracji danych „Nasze kierownictwo było pod ogromnym wrażeniem, że udało nam się podwoić współczynnik odpowiedzi w wyniku zastosowania rozwiązania eksploracji danych w programie SQL Server 2005 … kierownicy innych usług prosili nas o zdradzenie im tajemnicy tego sukcesu — to właśnie zrobimy, realizując pełne wdrożenie projektu” - Grace Cunanan, Specjalista ds technicznych, ABS-CBN Interactive
Clalit Health Services Eksploracja danych służy ochronie zdrowia i życia Firma zapewnia opiekę zdrowotną dla 3,7 milionów ubezpieczonych, co stanowi 60 populacji Izraela Wyzwanie Wskazanie osób, które najbardziej skorzystają na pro aktywnych działaniach mających na celu zapobieżenie pogorszeniu zdrowia Rozwiązanie Wskazanie osób najbardziej narażonych na pogorszenie zdrowia przez wygenerowanie wyniku przewidywań na podstawie danych demograficznych i dokumentacji medycznej Po wskazaniu tych osób lekarze mogli podjąć próby zachęcenia ich do uczestnictwa w planach terapii proaktywnej w celu zapobieżeniu pogorszeniu zdrowia Korzyść Szansa na wydłużenie życia i poprawę jego jakości Obniżenie kosztów opieki zdrowotnej Ściśle zintegrowane rozwiązanie „W następnym roku lekarze będą otrzymywać opracowane przy użyciu modelu eksploracji danych listy pacjentów zagrożonych utratą zdrowia, co umożliwi podjęcie kroków w celu wyeliminowanie przewidywanego zagrożenia”. - Mazal Tuchler, Menedżer hurtowni danych, Clalit Health Services
Inni klienci eksploracji danych .8 TB SS2005, hurt. danych do marketingu dzwonków telefonicznych Relacyjna BD, OLAP i eksploracja danych 3 TB, kompletny system BI wspomagania decyzji pokonane konkurencyjne rozwiązanie firmy Oracle Kompletna hurt. danych z SQL Server, w tym OLAP Szerokie zastosowanie drzew decyzyjnych DM 1.2 TB, 20 miliardów rekordów Wielka sieć sklepów spożywczych w Brazylii .8 TB, hurt. danych w głównej sieci TV we Włoszech Wzrost oglądalności dzięki rozpoznaniu trendów .5 TB, hurt. danych w firmie prod. kable w USA Kompletny system BI, analizy i raportowania
Podsumowanie Eksploracja danych to technologia o ogromnych możliwościach wciąż niedoceniana przez wielu specjalistów IT i BD Przekształca dane w informacje Programy SQL Server 2005 i 2008 Analysis Services stworzono z myślą o Was Poszukajmy skarbów wiedzy w bazach danych!
2008 Microsoft Corporation & Project Botticelli Ltd 2008 Microsoft Corporation & Project Botticelli Ltd. Wszelkie prawa zastrzeżone. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią opinie i poglądy firmy Botticelli i/lub Rafała Lukawieckiego. Zaprezentowane materiały nie są pewne i mogą się zmieniać w zależności od kilku czynników. sFirma Microsoft nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. © 2007 Project Botticelli Ltd & Microsoft Corp. sNiektóre slajdy zawierają cytaty z chronionych prawem autorskim materiałów innych autorów wskazanych za każdym razem. Wszelkie prawa zastrzeżone. Microsoft, Windows, Windows Vista i inne nazwy produktów są lub mogą być zarejestrowanymi znakami handlowymi i/lub znakami handlowymi w Stanach Zjednoczonych i innych krajach. Podane tu informacje mają wyłącznie cel ilustracyjny i stanowią aktualne poglądy firmy Project Botticelli Ltd w dniu tej prezentacji. Ponieważ firmy Project Botticelli & Microsoft muszą reagować na zmiany sytuacji rynkowej, nie można interpretować tych poglądów jako zobowiązanie składane w imieniu firmy Microsoft, a firmy Microsoft i Project Botticelli nie mogą zagwarantować dokładności jakichkolwiek informacji po dacie tej prezentacji. Firma Project Botticelli nie udziela żadnych gwarancji, wyrażonych wprost, dorozumianych ani ustawowych odnośnie do informacji zawartych w tej prezentacji. Możliwe, że prezentacja zawiera błędy i pominięcia..