Kim jest facet obsługujący rzutnik?

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Projekt start! Wrocław, data Prezentuje: Venture Incubator Kontakt:
Ocena dokładności i trafności prognoz
PODZIAŁ STATYSTYKI STATYSTYKA STATYSTYKA MATEMATYCZNA STATYSTYKA
Metody losowania próby
Aukcja o dolara $$$ P. Jaworska W. Filipowicz.
Analiza wariancji jednoczynnikowa
BUDOWA MODELU EKONOMETRYCZNEGO
SCR 2008/2009 – informatyka rok 5. Agenda Analiza i rozbudowa systemu: Rozmnażanie agentów Kredytowanie transakcji Partnerstwo biznesowe.
Dowody Naukowe - Przeczytamy i ufamy... nie zawsze
Elementy Modelowania Matematycznego
Metody wnioskowania na podstawie podprób
Modelowanie lokowania aktywów
Symulacja cen akcji Modelowanie lokowania aktywów.
Modelowanie lokowania aktywów
Statystyka w doświadczalnictwie
Statystyka w doświadczalnictwie
Teoria równowagi ogólnej (1874)
„Czym jest to co zwiemy nauką”
Prognozowanie na podstawie modelu ekonometrycznego
Zadanie 1.
Program przedmiotu “Metody statystyczne w chemii”
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Statystyka szkolna wskaźniki efektywności nauczania
Średnie i miary zmienności
Analiza wariancji.
Hipotezy statystyczne
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
na podstawie materiału – test z użyciem komputerowo generowanych prób
dla klas gimnazjalnych
Hipotezy statystyczne
Prognozowanie i symulacje
Dane INFORMACYJNE Nazwa szkoły: Zespół Szkół nr 5 w Szczecinku i Zespół Szkół w Opalenicy ID grupy: 97/41_mf_g2 i 97/71_mf_g1 Kompetencja:
Finanse 2009/2010 dr Grzegorz Szafrański pokój B106 Termin konsultacji poniedziałek:
Elementy Rachunku Prawdopodobieństwa i Statystyki
Przekazywanie parametrów do funkcji oraz zmienne globalne i lokalne
Ekonometria stosowana
VI EKSPLORACJA DANYCH Zadania eksploracji danych: klasyfikacja
Zadanie 1.
Seminarium licencjackie Beata Kapuścińska
Rodzaje kart płatniczych w Polsce
Testowanie hipotez statystycznych
Przedmiot: Ekonometria Temat: Szeregi czasowe. Dekompozycja szeregów
Teoria perspektywy Daniela Kahnemana i Amosa Tversky`ego
Sterowanie populacją i eksploatacja populacji
Wnioskowanie statystyczne
Eksploatacja zasobów informatycznych przedsiębiorstwa.
Seminarium magisterskie Zajęcia szóste – sprawdzamy jak to jest z przeżywaniem...
EKSPERYMENTY I OBSERWACJE NA LEKCJACH BIOLOGII I PRZYRODY
Weryfikacja hipotez statystycznych dr hab. Mieczysław Kowerski
STATYSTYKA sposób na opisanie zjawisk masowych Mirosław Sadowski TRANSGRANICZNY UNIWERSYTET TRZECIEGO WIEKU W ZGORZELCU.
Treść dzisiejszego wykładu l Weryfikacja statystyczna modelu ekonometrycznego –błędy szacunku parametrów, –istotność zmiennych objaśniających, –autokorelacja,
STATYSTYKA – kurs podstawowy wykład 5 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Monte Carlo, bootstrap, jacknife. 2 Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej :
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Stosowanie procentów w życiu codziennym. Radosław Hołówko Konsultant: Agnieszka Pożyczka.
STATYSTYKA – kurs podstawowy wykład 13 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Wnioskowanie statystyczne. Próbkowanie (sampling)
Statystyka matematyczna
EKONOMETRIA Wykład 1a prof. UG, dr hab. Tadeusz W. Bołt
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Projekt „Po co. Dlaczego. Jak
Szkolenie dotyczące sprzedaży
Monte Carlo, bootstrap, jacknife
Zapis prezentacji:

Analiza danych w biznesie: problemy i rozwiązania na przykładzie banku detalicznego

Kim jest facet obsługujący rzutnik? Nazywam się Sebastian Ptasznik i pracuję w Alior Banku. Zajmuję się przeprowadzaniem analiz na potrzeby sprawozdawczości zarządczej.

Plan prezentacji (45 minut) Wstęp (5 minut) Czym jest model? Typowe problemy (20 minut) Wnioskowanie Overfitting Przekleństwo wymiaru Organizacja informacji/struktura organizacji/inne Jak zbudować dobry model? (15 minut) Bootstraping Stacking Boosting Podsumowanie (5 minut) Pytania

Wstęp (1) Model jest to mechanizm, który pozwala wnioskować (generować prognozy) opierając się na danej informacji wejściowej. Może odpowiadać na różne pytania: ile wynosi wartość danego samochodu, z jakim prawdopodobieństwem Klient przestanie spłacać kredyt w następnym miesiącu, jaki będzie PKB w kolejnym kwartale, jaka jest zależność między inwestycjami bezpośrednimi a bezrobociem, czy klocek jest w kształcie serduszka, etc.

Wstęp (2): Przykłady modeli Fragment specyfikacji modelu (DSGE) używanego przez NBP do prognozowania zmian w gospodarce. Model zmiennej dla binarnej (drzewo decyzyjne) Czy mam ochotę na piwo? Piję piwo Czekam aż wróci mi ochota TAK NIE

Typowe problemy

Widać wyraźną zależność między… Wnioskowanie (1) Widać wyraźną zależność między… Odkrywanie znanych zależności (Klient posiadający kartę debetową ma konto) (Klienci po 85 roku życia nie biorą kredytów hipotecznych) Wyciąganie nieistotnych statystycznie wniosków (Lewy słupek wyższy od prawego: „mężczyźni biorą wyższe pożyczki”) Wnioskowanie fałszu (Używanie nieodpowiednich narzędzi np. porównywanie jedynie średnich) (Jakiekolwiek wyniki lepsze niż brak wyników) Pojęcie „prawdy” w statystyce W świecie statystyki nie ma pojęcia „prawdy”, można jedynie z danym prawdopodobieństwem nie mieć podstaw do odrzucenia danej hipotezy. Nasza analiza daje fałszywe wnioski gdyż pominięte zostały ważne zmienne lub uchwycone zależności są przypadkowe.

Malutki fragment gdzie wiemy o co chodzi Wnioskowanie (2) Wyciąganie nieistotnych biznesowo wniosków (dotyczące małej grupy, lub bez przełożenia na potencjalne zyski: „Najwięcej żonatych Stefanów jest w Gdyni”) Confidence/Support (Istotność wniosków a wielkość populacji, której dotyczą) (34 letni kawalerowie z Radomia o imieniu Tomek, których nr telefonu zaczyna się od „671” z prawdopodobieństwem 95% wezmą pożyczkę w ciągu następnego kwartału) Malutki fragment gdzie wiemy o co chodzi Badane Zjawisko

Overfitting (1) (przetrenowanie) Czym jest overfitting? Sytuacja gdy model opisuje dane, które posiadamy, nie zjawisko, które je wygenerowało. Konkurencja Gospodarka Przestrzeń Czas Socjologia Psychologia Biologia Doświadczenia Osobowość Przekonania Klient nr 12345 Miasto Dochód Płeć Inne posiadane produkty Historia transakcji Stan cywilny … Wniosek: Każdy Stefan bierze kredyt na frytkownicę Wiązka zależności MODEL

Overfitting (2) Dlaczego się pojawia? Przyczyny techniczne: Używamy za dużo zmiennych, więc łatwiej jest znaleźć nieprawdziwe zależności, które przypadkowo dobrze pasują do tego co obserwujemy. Wybierane są modele najlepiej dopasowane do danych, które „dobrze wyglądają” w chwili analizy, nie koniecznie te dające dobre (stabilne) prognozy. Przyczyny pozatechniczne: Wybieranie wyników, które są zgodne z przekonaniami analityka lub oczekiwaniami przełożonych (szukajcie a znajdziecie). Bardzo łatwo usprawiedliwić złe własności prognostyczne opracowanego rozwiązania.

Przekleństwo Wymiaru (1) (curse of dimensionality) Wraz ze zwiększającą się ilością obserwowanych cech, drastycznie wydłuża się czas potrzebny na dokonanie obliczeń. Istnieje większa skłonność modeli do overfitting’u. Problemy z software’em i sprzętem (350x 16 500 000) Przykład: szukanie reguł asocjacyjnych (jeżeli A to B) dla 250 000 Klientów i 2 zmiennych trwa około 30-60 minut. Dla 5 zmiennych i reguł typu (jeżeli A i B to C) czas wydłuża się ~30 krotnie. Dla 10 zmiennych i reguł typu (jeżeli A i B i C to D) już 2520 krotnie. Dane transakcyjne potrafią zawierać setki zmiennych… Nie wiedząc gdzie szukać, zazwyczaj niczego się nie znajduje. Obliczenia trwające kilka dni nie są niczym niezwykłym (podobnie jak brak wyników). Trudniej jest wybrać cechy istotne w danym badaniu.

Przekleństwo Wymiaru (2) Od czego zależy wynagrodzenie ? Sytuacja nr 1 wersja szowinistyczna ;) Sytuacja nr 2

Organizacja informacji/struktura organizacji/inne Brak odpowiedniego software’u. Potrzebne dane są w 9 różnych martach, 2 plikach csv, 1 excelu, 2 systemach zewnętrznych, maja rożne formaty, różne struktury, są zgodne tylko w ujęciu kwartalnym. Dane są tragicznej jakości (korekty, braki, obciążenia, błędy). Brak danych. Czas przeznaczony na analizę stanowi 10-20% czasu potrzebnego by ją przeprowadzić. Wyniki 3 tygodniowej pracy należy zaprezentować na 2-3 slajdach, najlepiej graficznie. (swoją analizę należy „sprzedać”) Źródło: Dilbert.com

Jak zbudować dobry model?

Bootstraping Metoda polegająca na wielokrotnym losowaniu ze zwracaniem z próby, a następnie wykonywania dla każdej z podprób przeliczeń i obserwacji zmienności otrzymywanych w ten sposób wyników. Przykład 1. Badamy czy nasz model jest wrażliwy na dane na jakich jest budowany. Przykład 2. Badamy czy wnioski/prognozy otrzymywane z naszego modelu są stabilne. Losujemy z naszej próby jakąś część (podpróbę). Można losować zachowując strukturę danych (stratyfikacja) Na podstawie tej podpróby budujemy model Zapisujemy wnioski płynące z modelu Losujemy z naszej próby jakąś część (podpróbę) Na podstawie tej podpróby wnioskujemy przy pomocy modelu zbudowanego wcześniej na pełnej próbie. Zapisujemy wnioski płynące z modelu

Boosting Metoda polegająca na łączeniu kilku słabych modeli w jeden mocny. Każdy słaby model staje się „ekspertem” w wąskim wycinku badanego zjawiska. Modele składowe drogą głosowania decydują jaki jest końcowy wniosek/predykcja ( „ekspert” ma największą wagę głosu gdy obserwacja jest jego „specjalizacją”) . Nie Model 3 Model 2 Model 1 Tak Model 4 „Ekspert” Obserwacje gdzie model się pomylił przyjmują większa wagę niż te gdzie dał prawidłowe prognozy Budujemy nowy model

Meta-modele (1) (Stacked Generalization) W metodzie tej łączy się wnioski/predykcje pochodzące z różnych modeli, w taki sposób by zmaksymalizować korzyści płynące z wykorzystania różnych narzędzi (każde z nich może szukać innego typu zależności między danymi). Może być to proste uśrednianie, jak również zbudowanie modelu, który wnioskuje opierając się na predykcjach innych modeli. Meta-model jest hybrydą. Gdyby przeciętny meta-model byłby zwierzęciem, wyglądałby mniej więcej tak ;-) …

Meta-modele (2) RekinoŚmiornicoDźwiedź

Podsumowanie Model jest mechanizmem wnioskowania Łatwo popełnić błąd podczas analizy Trudno bez wiedzy eksperckiej na temat danego zjawiska je badać Poza technicznymi przeciwnościami istnieje cała gama innych czynników utrudniających pracę Dobry model musi dawać stabilne wyniki, by to osiągnąć warto skorzystać z symulacji i kombinowania prognoz.

Kontakt Sebastian.Ptasznik@gmail.com Sebastian.Ptasznik@alior.pl