dr Robert Kowalczyk, PWSZ Płock

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Teoria gry organizacyjnej Każdy człowiek wciąż jest uczestnikiem wielu różnych gier. Teoria gier zajmuje się wyborami podejmowanymi przez ludzi w warunkach.
CO TO SĄ PROJEKTY INNOWACYJNE? PROJEKTY INNOWACYJNE WYTYCZNE EFS NIE WSKAZUJĄ ODRĘBNEJ DEFINICJI INNOWACYJNOŚCI.
Wyszukiwanie informacji w Internecie. Czym jest wyszukiwarka? INTERNET ZASOBY ZAINDEKSOWANE PRZEZ WYSZUKIWARKI Wyszukiwarka to mechanizm, który za pomocą.
POZYCJA – USYTUOWANIE SĘDZIEGO NA POLU GRY. Marek Kowalczyk Przewodniczący Centralnej Komisji Szkoleniowej KS PZPN Luty 2005.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Poczta elektroniczna – e- mail Gmail zakładanie konta. Wysyłanie wiadomości.
Projekt Regulaminu Działania Komitetu Monitorującego Regionalny Program Operacyjny Województwa Pomorskiego na lata
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Bezpieczeństwo i zdrowie w pracy dotyczy każdego. Jest dobre dla ciebie. Dobre dla firmy. Partnerstwo dla prewencji Co badanie ESENER może nam powiedzieć.
KOMUNIKOWANIE W PROCESIE WSPIERANIA ROZWOJU SZKOŁY Jarosław Kordziński NA.
Porównywarki cen leków w Polsce i na świecie. Porównywarki w Polsce.
ZMIANY ZWIĄZANE Z FORMUŁOWANIEM OCEN DLA UCZNIÓW Z NIEPEŁNOSPRAWNOŚCIĄ INTELEKTUALNĄ W STOPNIU UMIARKOWANYM I ZNACZNYM NA WSZYSTKICH ETAPACH EDUKACYJNYCH.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Wieloaspektowa analiza czasowo- kosztowa projektów ze szczególnym uwzględnieniem kryterium jakości rozwiązań projektowych AUTOR: ANNA MARCINKOWSKA PROMOTOR:
Strategia Rozwoju Powiatu Kluczborskiego planowanie strategiczne w JST Małgorzata Ziółkowska tel kom
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Alfabety dla niewidomych:
Definiowanie i planowanie zadań typu P 1.  Planowanie zadań typu P  Zadania typu P to zadania unikalne służące zwykle dokonaniu jednorazowej, konkretnej.
Informacja na temat projektu informatycznego „Centralizacja przetwarzania danych” V Krajowa Konferencja System Informacji Przestrzennej w Lasach Państwowych.
1 Definiowanie i planowanie zadań budżetowych typu B.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Co to Internet? Internet (skrótowiec od ang. inter-network, dosłownie "między- sieć") – ogólnoświatowa sieć komputerowa, określana również jako sieć sieci.
Moduł SDI – zasilanie węzłów IIP oraz wykorzystanie danych. Wprowadzenie. Szkolenie przeprowadzone w ramach projektu „TERYT 3 – Rozbudowa systemów do prowadzenia.
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Moduł II. Obszar formułowania Programów i Projektów.
ANALIZA WYNIKÓW DIAGNOZY WSTĘPNEJ
Szkoła Podstawowa Nr 47 im. Jana Klemensa Branickiego w Białymstoku
Test analizy wariancji dla wielu średnich – klasyfikacja pojedyncza
Systemy wizyjne - kalibracja
Kluczowe elementy skutecznej strategii analizy danych internetowych
Mariusz Maleszak nr albumu 6374
Systemy eksperckie i sztuczna inteligencja
T.15 Wybór narzędzi dla reengineeringu (szczegóły).
Schematy blokowe.
DEFINICJA I ZASTOSOWANIE W JĘZYKU HASKELL
terminologia, skale pomiarowe, przykłady
On-the-Fly Garbage Collection
Nazwa firmy Plan biznesowy.
Moje szczęście.
Metody syntezy logicznej w zadaniach pozyskiwania wiedzy
dr Marzena Żylińska Łódź
Wstęp do Informatyki - Wykład 3
Budowa, typologia, funkcjonalność
Optymalizacja programów Open-Source
Przewodnik Udoskonalanie listy wyników w wyszukiwarce naukowej
Wstęp do Informatyki - Wykład 8
- Krajowe Repozytorium Obiektów Nauki i Kultury
Inżynieria Oprogramowania Laboratorium
Systemy CMS Fabian Szydłowski 3f.
Tworzenie modelu: przeglądanie wyników, redukcja rozmiarów modelu.
Problem Plecakowy (Problem złodzieja okradającego sklep)
Rekrutacja elektroniczna DO SZKÓŁ PONADGIMNAZJALNYCH w roku 2018
Uczeń na progu II etapu edukacyjnego. Cz.2
Badanie rynku Materiał opracowano w ramach projektu "Szkoła praktycznej ekonomii - młodzieżowe miniprzedsiębiorstwo" realizowanego ze środków Unii Europejskiej.
Prezentacja planu biznesowego
Podstawy informatyki Zygfryd Głowacz.
Dokumentacja rysunkowa
Strukturalne wzorce projektowe
Proste obliczenia w arkuszu kalkulacyjnym
FORMUŁOWANIE HIPOTEZ STATYSTYCZNYCH
Implementacja rekurencji w języku Haskell
Znajdowanie liczb pierwszych w zbiorze
Nazwa firmy Biznesplan.
Odsetki naliczane za czas postępowania 30 marca 2017
Czym powinien charakteryzować się innowacyjny projekt?
Program na dziś Wprowadzenie Logika prezentacji i artykułu
dr Robert Kowalczyk, PWSZ Płock
Zapis prezentacji:

dr Robert Kowalczyk, PWSZ Płock Drążenie danych dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Eksploracja danych Eksploracja danych (ang. data mining) jest to proces odkrywania uogólnionych reguł i wiedzy zawartej w bazach danych oparty o metody statystyczne i techniki sztucznej inteligencji. Wiedza ta nie wynika bezpośrednio z samych danych, ale z faktu, iż to właśnie takie, a nie inne dane znalazły się razem w jednej bazie danych. dr Robert Kowalczyk, PWSZ Płock

Dodatkowo eksploracja danych: Jest klasycznym narzędziem, które generuje sprawozdania i analizy. Jest procesem, który jest automatyczny i nie wymaga nadzorowania ze strony człowieka. Odszukuje przyczyny problemów przedsiębiorstw lub biznesowych. Pomimo swojej złożoności jest procesem szybkim. dr Robert Kowalczyk, PWSZ Płock

Tradycyjny model przetwarzania danych Analiza danych sterowana zapytaniami (OLAP - on line transaction processing ) zakłada, że użytkownik, po pierwsze, posiada pełną wiedzę o przedmiocie analizy, i, po drugie, potrafi sterować tym procesem. Eksploracja danych umożliwia analizę danych dla problemów, które, ze względu na swój rozmiar, są trudne do przeprowadzenia przez użytkownika, oraz tych problemów, dla których nie dysponujemy pełną wiedzą o przedmiocie analizy, co uniemożliwia sterowanie procesem analizy danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Techniki OLAP i ED dr Robert Kowalczyk, PWSZ Płock

Model eksploracja danych - CRISP-DM (Cross Industry Process for Data Mining CRISP-DM, 1996) 1. Zrozumienie problemu (Problem Understanding lub Business Understanding) 2. Zrozumienie danych (Data Understanding) 3. Przygotowanie danych (Data Preparation) 4. Modelowanie (Modeling) 5. Ocena (Evaluation) 6. Wdrożenie (Deployment) dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 1. Zrozumienie problemu Zrozumienie celu projektu i wymagań z punktu widzenia danej dziedziny, a następnie przekształcenie tej wiedzy w problem drążenia danych z wstępnym planem mającym na celu osiągnięcie pewnych zamierzeń. Projekty eksploracji danych często skupiają się wokół konkretnych potrzeb pewnego sektora przemysłu, a nawet są tworzone dla jednej organizacji. Udany projekt eksploracji danych rozpoczyna się od dobrze zdefiniowanego pytania lub potrzeby. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 2. Zrozumienie danych Zrozumienie danych wymaga kilku czynności, przede wszystkim musimy zebrać dane (najczęściej z wielu źródeł), trzeba wykonać wstępną analizę danych, której celem jest zaznajomienie się z danymi i odkrycie pierwszych zależności. Trzeba też umieć ocenić jakość danych i ewentualnie wybrać pewne interesujące podzbiory, które mogą zawierać wzorce. Po tym etapie powinniśmy umieć odpowiedzieć na pytania: 1. Skąd pochodzą dane? Czego dotyczą? 2. Jakich metod użyto do zebrania danych? 3. Co oznaczają rekordy, a co pola (kolumny) z danymi? 4. Czy w danych są jakieś niejasne oznaczenia, skróty, puste wartości, itp.? dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 3. Przygotowanie danych Przygotowanie danych polega na budowie zestawu danych z jednego lub więcej źródeł danych, które mają być wykorzystywane do badań i modelowania. Przygotowanie danych jest często procesem czasochłonnym i podatnym na błędy. Stare powiedzenie garbage-in-garbage-out (śmieci na wejściu – śmieci na wyjściu) – przypomina, że wyniki przetwarzania błędnych danych będą błędne. Przygotowanie danych najczęściej wymaga: połączenia kilku zbiorów danych, zredukowania ilości danych tylko do tych zmiennych (redukcja wymiarów), które będą istotne dla dalszej eksploracji, czyszczenia danych (usunięcie anomalii, zmiana formatu, normalizacja, brakujące dane). dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 4. Modelowanie Modelowanie polega na wyborze i zastosowaniu odpowiednich technik modelujących. Często używamy kilku technik na tym etapie, a jeśli trzeba wracamy do poprzedniego kroku, aby dane przybrały postać odpowiadającą danej technice drążnia danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 5. Ocena Ocena procesu eksploracji danych polega na ustaleniu, czy model lub modele spełniają założenia ustalone w pierwszym etapie (jakość i efektywność). Ponadto musi nastąpić weryfikacja, czy są jakieś ważne cele biznesowe lub badawcze, które nie zostały uwzględnione. Podjęcie decyzji co do dalszego wykorzystania wyników eksploracji danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock 6. Wdrożenia Wykorzystanie stworzonych modeli, na ogół nie jest końcem projektu. Wykorzystaniem może być stworzenie raportu, implementacja procesu w innym dziale, zintegrowanie z systemami operacyjnymi firmy. Wdrożenie może wymagać stworzenia pewnego automatu, który będzie stosował nasz model do nowych danych. dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Co eksplorować? Relacyjne i nierelacyjne bazy danych baz danych. Hurtownie danych. Repozytoria danych. Zaawansowane systemy informatyczne. Strony WWW. Streamingi danych. itp. dr Robert Kowalczyk, PWSZ Płock

Techniki eksploracji danych Techniki predykcyjne Techniki deskrypcyjne Techniki uczenia nadzorowanego Techniki uczenia bez nadzoru dr Robert Kowalczyk, PWSZ Płock

dr Robert Kowalczyk, PWSZ Płock Techniki predykcyjne Techniki predykcyjne, inaczej nazywane technikami lub modelami przewidywania (ang. predictive techniques), starają się na podstawie odkrytych wzorców dokonać uogólnienia i przewidywania wartości danej zmiennej. Pozwalają na przewidywanie wartości zmiennej wynikowej na podstawie wartości pozostałych zmiennych (badawczych lub przewidujących). Techniki te w SWD wykorzystywane są do przewidywania i szacowania np. zasobów (sprzętu/ludzi) do rozwiązywania postawionego problemu. dr Robert Kowalczyk, PWSZ Płock

Techniki deskrypcyjne Techniki deskrypcyjne, nazywane także technikami bądź modelami opisowymi (ang. description techniques), służą do formułowania uogólnień na temat badanych danych w celu uchwycenia ogólnych cech opisywanych obiektów oraz ich najważniejszych aspektów. Techniki te w SWD stosuje się do odkrywania grup i podgrup podobnych zdarzeń lub identyfikacji zdarzeń. dr Robert Kowalczyk, PWSZ Płock

Techniki uczenia nadzorowanego Techniki uczenia nadzorowanego (ang. supervised learning) wykorzystują zbiory danych w których każdy obiekt posiada etykietę przypisującą go do jednej z predefiniowanych klas. Na podstawie zbioru uczącego budowany jest model, za pomocą którego można odróżnić obiekty należące do różnych klas. Technikami z zakresu uczenia nadzorowanego są techniki klasyfikacji stosowane od 1984 roku, do których należą drzewa decyzyjne (1984 rok), algorytmy najbliższych sąsiadów (1992 rok), sieci neuronowe (1991 rok), statystyka bayseyowska (klasyfikacja bayseyowska 1992 rok i sieć bayseyowska 1995 rok), algorytmy maszyny wektorów wspierających SVM (ang. support vector machine, 1995 rok) oraz techniki regresji. dr Robert Kowalczyk, PWSZ Płock

Techniki uczenia bez nadzoru W przypadku technik uczenia bez nadzoru (ang. unsupervised learning) brak jest etykiet obiektów, nie ma także zbioru uczącego. Techniki te starają się sformułować model (modele) wiedzy najlepiej pasujące do obserwowanych danych. Technikami z zakresu uczenia bez nadzoru są: techniki analizy skupień, klastrowania (ang. clustering) , samoorganizujące się mapy (ang. self-organization map), algorytmy aproksymacji wartości oczekiwanej (ang. expectation-maximization) czy też zbiory przybliżone. dr Robert Kowalczyk, PWSZ Płock

Metody eksploracji danych Asocjacja Klasyfikacja Grupowanie (klasteryzacja) Przetwarzanie tekstu Przetwarzanie stron WWW dr Robert Kowalczyk, PWSZ Płock

Dziękuję za Uwagę!!! 