Wprowadzenie do analizy regresji

Slides:



Advertisements
Podobne prezentacje
Przykład liczbowy Rozpatrzmy dwuwymiarową zmienną losową (X,Y), gdzie X jest liczbą osób w rodzinie, a Y liczbą izb w mieszkaniu. Niech f.r.p. tej zmiennej.
Advertisements

Klasyfikacja roczna w roku szkolnym 2012/2013
dr Jarosław Poteralski
POWIAT MYŚLENICKI Tytuł Projektu: Poprawa płynności ruchu w centrum Myślenic poprzez przebudowę skrzyżowań dróg powiatowych K 1935 i K 1967na rondo.
Rozdział V - Wycena obligacji
Metody goniometryczne w badaniach materiałów monokrystalicznych
Domy Na Wodzie - metoda na wlasne M
ZNACZENIE ZDROWIA PSYCHICZNEGO DLA EFEKTYWNOŚCI PRACOWNIKA
1 mgr inż. Sylwester Laskowski Opiekun Naukowy: prof. dr hab. inż. Andrzej P. Wierzbicki.
 DOBRE, TAŃSZE, DOSTĘPNE.
klasa3a3b3c3d ang 3d fr.3e3f3k3m3s Zad 13,462,752,623,573,822,762,722,623,322,76 Zad 22,611,51,550,851,761,51,091,062,251,33.
MINISTERSTWO ROZWOJU REGIONALNEGO Przebieg realizacji działań dotyczących MSP w ramach Sektorowego Programu Operacyjnego Wzrost konkurencyjności przedsiębiorstw,
Podatki i opłaty lokalne w 2010 roku
Dane dotyczące sprzedaży wody mineralnej
Wartość empiryczna (obserwowana) zmiennej
NOWE TECHNOLOGIE NA USŁUGACH EDUKACJI Publiczna Szkoła Podstawowa nr 3 w Grodkowie Zajęcia w ramach projektu NTUE.
UŁAMKI DZIESIĘTNE porównywanie, dodawanie i odejmowanie.
Typy zachowań firmy w procesie internacjonalizacji (projekt badawczy)
Prezentacja poziomu rozwoju gmin, które nie korzystały z FS w 2006 roku. Eugeniusz Sobczak Politechnika Warszawska KNS i A Wykorzystanie Funduszy.
Fundusze nieruchomości jako inwestycja z celem zdobycia kapitału emerytalnego Karolina Oleszek.
Ogólne zadanie rachunku wyrównawczego
Wprowadzenie do statystycznej analizy danych (SPSS)
Wzory ułatwiające obliczenia
UKŁADY SZEREGOWO-RÓWNOLEGŁE
Klamki do drzwi Klamki okienne i inne akcesoria
JO16-75 Dane techniczne: Wysokość-130 Płaszczyzna dolna-90
Jak wypadliśmy na maturze z matematyki w 2010 roku?
Matura 2005 Wyniki Jarosław Drzeżdżon Matura 2005 V LO w Gdańsku
Studenckie Poradnie Prawne Podsumowanie działalności październik 2008 – – styczeń 2009.
WYNIKI SPRAWDZIANU SZÓSTOKLASISTY 2010 DLA SZKOŁY.
Urząd Statystyczny w Lublinie Liczy się każdy ul. Leszczyńskiego Lublin tel.: (81)
Ogólnopolski Konkurs Wiedzy Biblijnej Analiza wyników IV i V edycji Michał M. Stępień
STAN WDRAŻANIA LOKALNEJ STRATEGII ROZWOJU LGD QWSI NA DZIEŃ
Agnieszka Jankowicz-Szymańska1, Wiesław Wojtanowski1,2
Rozkłady wywodzące się z rozkładu normalnego standardowego
RADA PROGRAMOWA RSIP WŁ Łódź, r. Małgorzata Krawczyk
AKASA Bank Sebastian Marchel Anna Karpińska Anna Matusiewicz
VI przegląd plastyczny z rysunku, malarstwa i rzeźby
EGZAMIN GIMNAZJALNY W SUWAŁKACH 2009 Liczba uczniów przystępująca do egzaminu gimnazjalnego w 2009r. Lp.GimnazjumLiczba uczniów 1Gimnazjum Nr 1 w Zespole.
Ze szczególnym uwzględnieniem stosowanych ćwiczeń specjalnych OPRACOWAŁ Z.LIPIŃSKI.
A-priori Partition Mateusz Mor, Kasper Rzepecki, Daniel Mendalka, Michał Samsonowski.
Poznań, 16 maja Charakterystyka populacji Liczba szkół Uczniowie, którzy przystąpili do egzaminu Łącznie A1+A4+A5A6A7A8 lubuskie
1. Pomyśl sobie liczbę dwucyfrową (Na przykład: 62)
Analiza matury 2013 Opracowała Bernardeta Wójtowicz.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VII Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat.
Analiza wskaźnikowa.
Spływ należności w Branży Elektrycznej
1. Dziennikarz Lekarz Listonosz 2 3 Lekarz  bada ludzi i określa ich stan zdrowia  bada podstawowe obszary życia i określa ich stan w liczbach 4.
w wyborach do parlamentu RP
Wstępna analiza egzaminu gimnazjalnego.
EGZAMINU GIMNAZJALNEGO 2013
EcoCondens Kompakt BBK 7-22 E.
EcoCondens BBS 2,9-28 E.
Projekt Badawczo- Rozwojowy realizowany na rzecz bezpieczeństwa i obronności Państwa współfinansowany ze środków Narodowego Centrum Badań i Rozwoju „MODEL.
User experience studio Użyteczna biblioteka Teraźniejszość i przyszłość informacji naukowej.
WYNIKI EGZAMINU MATURALNEGO W ZESPOLE SZKÓŁ TECHNICZNYCH
Odzyskać obywatelstwo perspektywa makroekonomiczna Anna Zachorowska-Mazurkiewicz Feministyczny Think Tank.
Regresja wieloraka.
EGZAMIN GIMNAZJALNY Charakterystyka wyników osiągniętych przez uczniów.
Testogranie TESTOGRANIE Bogdana Berezy.
Badanie kwartalne BO 2.3 SPO RZL Wybrane wyniki porównawcze edycji I- VI Badanie kwartalne Beneficjentów Ostatecznych Działania 2.3 SPO RZL – schemat a.
Jak Jaś parował skarpetki Andrzej Majkowski 1 informatyka +
© GfK 2014 | GfK Health | Leki homeopatzcyne widziane okiem lekarzy 1 LEKI HOMEOPATYCZNE WIDZIANE OKIEM LEKARZY Czerwiec 2014.
dr Zofia Skrzypczak Wydział Zarządzania UW
Dr hab. Renata Babińska- Górecka
1 Używanie alkoholu i narkotyków przez młodzież szkolną w województwie opolskim w 2007 r. Na podstawie badań przeprowadzonych przez PBS DGA (w pełni porównywalnych.
Współrzędnościowe maszyny pomiarowe
Elementy geometryczne i relacje
Strategia pomiaru.
LO ŁobżenicaWojewództwoPowiat pilski 2011r.75,81%75,29%65,1% 2012r.92,98%80,19%72,26% 2013r.89,29%80,49%74,37% 2014r.76,47%69,89%63,58% ZDAWALNOŚĆ.
Zapis prezentacji:

Wprowadzenie do analizy regresji Wykład 10

Model kategoryczny (categorical model) W 1993 r. inwestor zastanawia się jak sklasyfikować Amazon: Część ekonomii informacji Dostawca książek W zależności od sklasyfikowania, podejmie różne decyzje Stąd sposób klasyfikacji jest istotny

Kategorie NIEZIELONE ZIELONE

Zmienność Kalorie Odchylenie Zmienność Gruszka 100 100-180 6400 Ciasto 250 250-180 4900 Jabłko 90 90-180 8100 Banan 110 110-180 Tort 350 350-180 28900 Średnia: 900/5=180 Suma: 0 Cała zmienność : 53200 Owoce Kalorie Gruszka 100 Jabłko 90 Banan 110 Średnia Zmienność 200 Desery Kalorie Ciasto 250 Tort 350 Średnia 300 Zmienność 5000 R2 = (53200-5200)/53200 = 90,2%

Poprzez sklasyfikowanie na deser i owoce wyjaśniliśmy ponad 90% zmienności liczby kalorii obiektów

Regresja Korelacja vs przyczynowość Obecność sekcji golfa i prestiż szkoły W modelu regresji zakładamy, że Y zależy od X Y = F(X) W modelu regresji liniowej zakładamy, że zależność jest liniowa Y = mX +b Na przykład X – długość przekątnej odbiornika, Y cena telewizora: Cena = 15X + $100 30 calowy: Cena = 15(30)+100 = 550? 100 calowy: Cena = 15(100)+100 = 1600?

Intuicja X Y 1 2 5 4 9

Zmienność jeśli Y = E(Y) Zmienność jeśli Y = mX + b Regresja liniowa X Y Zmienność jeśli Y = E(Y) Zmienność jeśli Y = 2X Zmienność jeśli Y = mX + b 1 (5-1)2 = 16 (2*1-1) 2 = 1 (m+b-1) 2 = m2 + 2m(b-1) + (b-1) 2 2 5 (5-5) 2 = 0 (2*2-5) 2 = 1 (2m+b-5) 2 = 4m2 + 4m(b-5) + (b-5) 2 4 9 (5-9) 2 = 16 (2*4-9) 2 = 1 (4m+b-9) 2 = 16m2 + 8m(b-9) + (b-9) 2 =(1+5+9)/3=5 SUMA = 32 SUMA = 3 SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107 Minimalizujemy: Warunki pierwszego rzędu: 42m + 14b -94 = 0 14m + 6b -30 = 0 |*3 (42m + 14b -94 = 0) +(42m + 18b -90 = 0) ---------------------------- 4b + 4 = 0 b = -1 m = 18/7 SUMA = 21m2 + 14mb + 3b2 – 94m – 30b + 107 = 8/7 R2 = (32-8/7)/32 = 96,4%

Ilustracja X Y Y’ = E(Y) Y’ = 2X Y’ = 18/7*X - 1 1 5 2 1,6 4 4,1 9 8 9,3 Y’ = 18/7*X-1 Y’ = 2X Y’ = E(Y)

Liczba obserwacji 1 2 5 4 9 3 10

Dopasowanie vs przeuczenie 1 2 5 4 9 3 5,1 1,5 2,5 3,5 8 R2=0,7942

Przykład – wzrost i waga 1 162 57 2 179 69 3 180 74 4 192 85 5 70 6 167 7 170 65 8 176 68 9 64 10 78 11 158 53 12 156 62 13 183 77 14 175 71 15 66 16 190 17 164 18 61 19 187 79 20 76 21 185 22 23 24 178 80 25 153 26 172 27 171 Średnia 68,7037 +8,1 +11,3 -6,7 +6,1

H W E(W) Y=0,73H-57,58 W-E(W) W-Y [W-E(W)]2 [W-Y]2 1 162 57 68,7 60,24 -11,70 -3,24 136,89 10,53 2 179 69 72,61 0,30 -3,61 0,09 13,02 3 180 74 73,34 5,30 0,66 28,09 0,44 4 192 85 82,06 16,30 2,94 265,69 8,62 5 70 1,30 -2,61 1,69 6,81 6 167 63,88 5,12 26,20 7 170 65 66,06 -3,70 -1,06 13,69 1,13 8 176 68 70,43 -0,70 -2,43 0,49 5,89 9 64 -4,70 -6,43 22,09 41,30 10 78 9,30 5,39 86,49 29,07 11 158 53 57,34 -15,70 -4,34 246,49 18,80 12 156 62 55,88 -6,70 6,12 44,89 37,44 13 183 77 75,52 8,30 1,48 68,89 2,20 14 175 71 69,70 2,30 5,29 15 66 -2,70 2,12 7,29 4,49 16 190 80,61 -9,61 92,33 17 164 61,70 22,08 18 61 -7,70 -2,88 59,29 19 187 79 78,43 10,30 0,57 106,09 0,33 20 76 7,30 2,66 53,29 7,10 21 185 76,97 0,03 0,00 22 4,66 21,75 23 1,76 3,08 24 178 80 71,88 11,30 8,12 127,69 65,91 25 153 53,70 26 172 67,52 3,48 12,13 27 171 66,79 -4,79 22,95 Średnia 68,7037 Zmienność 1913,63 464,08 R2 0,76

Studium przypadku – Łorsoł Flaj Firmy lotnicza, która obsługuje trasę Warszawa-Kraków Na razie interesuje nas tylko klasa ekonomiczna Sprzedajemy miejsca w klasie biznes, ale mało Funkcja popytu wynosi Q = f (P, Pk, Y) Liczba sprzedanych biletów na jeden przelot w zależy od ceny biletu (P), ceny biletu konkurenta (Pk), oraz poziomu dochodu w danym regionie Dział prognoz udostępnił nam równanie: Q = 25 + 3Y + Pk – 2P Łorsoł FLAJ

Łorsoł Flaj Łorsoł FLAJ Załóżmy, że P = Pk = 240 PLN. Obecny wskaźnik zagregowanego dochodu* jest równy 105. Zatem Q = 25 + 3(105) + 1(240) – 2(240) = 100 miejsc I rzeczywiście w ciągu ostatnich 3 miesięcy przeciętna liczba sprzedanych biletów była w przedziale (90,105) Całkowita liczba miejsc wynosi 180, czyli obłożenie wynosiło 55,5% Łorsoł FLAJ * zysków z działalności gospodarczej oraz dochodów osobistych w Warszawie oraz Krakowie w ujęciu realnym, rok bazowy 2010 = 100

Łorsoł Flaj – krzywa popytu Załóżmy, że w najbliższej przyszłości Y i Pk pozostaną niezmienione. Wówczas Q = 25 + 3(105) + 1(240) – 2P = 580 - 2P, czyli P = 290 – Q/2 Gdy Y lub Pk się zmieni, ta krzywa popytu się przesunie, np. załóżmy, że Y=105  Y=119 Wtedy Q = 622 – 2P, czyli P = 311 – Q/2 Łorsoł FLAJ

Łorsoł Flaj (max zysku) Jeśli pominiemy dodatkowy koszt dodatkowego pasażera (bardzo mały), to firma będzie chciała zmaksymalizować utarg P = 290 – Q/2 R = P*Q = 290Q – Q2/2 MR = 290 – Q Czyli nawet przy pełnym obłożeniu utarg krańcowy jest dodatni MR = 290 – 180 = 110 Czyli firma powinna zmniejszyć cenę z 240 na 200, co spowoduje wzrost utargu za jeden rejs z 24000 (240*100) na 36000 (200*180) Łorsoł FLAJ

Zróżnicowanie cenowe Łorsoł FLAJ Załóżmy, że są dwie grupy pasażerów Biznesmeni Turyści Popyt dla nich się różni Biznesmeni QB = 330 – PB Turyści QT = 250 – PT Zatem Q = QB + QT = 580 – 2P Aby utarg był zmaksymalizowany, krańcowy utarg z miejsc biznesowych i krańcowy utarg z miejsc ekonomicznych musi się równać 330 – 2QB = 250 – 2QT Po uproszczeniu: QB = 40 + QT. Dodatkowo jesteśmy ograniczeni równaniem QB + QT = 180 Zatem optymalne wielkości to: QB = 110, QT = 70, PB = 220 zł, PT = 180 zł Utarg z jednego lotu wynosi 220*110 + 180*70 = 36800 zł, czyli więcej o 800 zł niż bez zróżnicowania cen. Łorsoł FLAJ

Ocena popytu Aby dokonywać analiz takich, jak na poprzednich slajdach, trzeba wyznaczyć krzywą popytu Źródła informacji: Wywiady i badania ankietowe Kontrolowane badania rynku Wytypowanie kilku podobnych rynków i sprzedawanie na nich danego wyrobu przy różnych wartościach kluczowych zmiennych Badania porównawcze różnych rynków dostarczają danych przekrojowych Badania w czasie jednego rynku dostarczają szeregu czasowego Połączenie obu rodzajów danych daje dane panelowe Nie kontrolowane dane rynkowe Techniki drążenia danych

Łorsoł flaj Łorsoł FLAJ Rok Kwartał Przeciętna liczba sprzedanych biletów na jeden lot Przeciętna cena (w PLN) Rok 1 Kw. I 64,8 250 Kw. II 33,6 265 Kw. III 37,8 Kw. IV 83,3 240 Rok 2 111,7 230 137,5 225 109,5 96,8 220 Rok 3 59,5 83,2 235 90,5 245 105,5 Rok 4 75,7 91,6 112,7 102,2 Średnia 87,2 239,7 Odchylenie standardowe 27,0 12,7 Łorsoł FLAJ

Sprzedaż rzeczywista (Q) Zmienność sprzedaży Rok Kwartał Średnia sprzedaż (Qs) Sprzedaż rzeczywista (Q) Qs-Q (Qs-Q)2 Rok 1 Kw. I 87,2 64,8 22,44375 503,7219 Kw. II 33,6 53,64375 2877,652 Kw. III 37,8 49,44375 2444,684 Kw. IV 83,3 3,94375 15,55316 Rok 2 111,7 -24,4563 598,1082 137,5 -50,2563 2525,691 109,5 -22,2563 495,3407 96,8 -9,55625 91,32191 Rok 3 59,5 27,74375 769,7157 83,2 4,04375 16,35191 90,5 -3,25625 10,60316 105,5 -18,2563 333,2907 Rok 4 75,7 11,54375 133,2582 91,6 -4,35625 18,97691 112,7 -25,4563 648,0207 102,2 -14,9563 223,6894 Średnia 731,6 Suma kwadratów odchyleń   11706,0

Wykresy

Krzywa popytu Q = 330 - P Rok Kwartał Sprzedaż prognozowana (Q*) Sprzedaż rzeczywista (Q) Q*-Q (Q*-Q)2 Rok 1 Kw. I 80 64,8 15,2 231,04 Kw. II 65 33,6 31,4 985,96 Kw. III 37,8 27,2 739,84 Kw. IV 90 83,3 6,7 44,89 Rok 2 100 111,7 -11,7 136,89 105 137,5 -32,5 1056,25 109,5 -4,5 20,25 110 96,8 13,2 174,24 Rok 3 59,5 40,5 1640,25 95 83,2 11,8 139,24 85 90,5 -5,5 30,25 105,5 -15,5 240,25 Rok 4 75,7 4,3 18,49 91,6 -1,6 2,56 112,7 -22,7 515,29 102,2 -7,2 51,84 Średnia 90,3 87,2 3,1 376,7 Suma kwadratów odchyleń   6027,5

Metoda najmniejszych kwadratów Tworzymy macierz X złożonej z: Wektora jedynek Wektora przeciętnych cen Wektor y to wektor przeciętnej liczby sprzedanych biletów Liczymy współczynniki równania Y = a + bX

Krzywa popytu Q = 478,6 - 1,63 P Rok Kwartał Sprzedaż prognozowana (Q*) Sprzedaż rzeczywista (Q) Q*-Q (Q*-Q)2 Rok 1 Kw. I 70,4 64,8 5,6 31,4 Kw. II 45,9 33,6 12,3 151,8 Kw. III 37,8 8,1 65,9 Kw. IV 86,7 83,3 3,4 11,8 Rok 2 103,1 111,7 -8,6 74,7 111,2 137,5 -26,3 690,5 109,5 1,7 3,0 119,4 96,8 22,6 510,1 Rok 3 59,5 43,6 1897,4 94,9 83,2 11,7 136,8 78,6 90,5 -11,9 142,3 105,5 -18,8 352,2 Rok 4 75,7 -5,3 28,0 91,6 -4,9 23,7 112,7 -26,0 674,3 102,2 -7,3 53,3 Średnia 87,2 0,0 302,9 Suma kwadratów odchyleń   4847,2

Krzywe popytu porównanie Suma kwadratów odchyleń dla Q = 330 – P równa się 6027,5 Suma kwadratów odchyleń dla Q = 478,6 – 1,63P równa się 4847,2 Krzywa popytu Q = 478,6 – 1,63P R2=0,586 Krzywa popytu Q = 330 – P R2=0,485

Regresja wieloraka Cena nie jest jedynym czynnikiem określającym wielkość sprzedaży Przypuśćmy, że mamy również dane o przeciętnej cenie biletów linii konkurencyjnej oraz o wysokości dochodu w danym regionie Należy wykorzystać te dane do oszacowania równania regresji wielorakiej o postaci Q = a + bP +cPk + dY

Dane Rok Kwartał Przeciętna liczba sprzedanych biletów na jeden lot Przeciętna cena (w PLN) Przeciętna cena konkurenta Przeciętny dochód (wskaźnik) Rok 1 Kw. I 64,8 250 104,0 Kw. II 33,6 265 101,5 Kw. III 37,8 240 103,0 Kw. IV 83,3 105,0 Rok 2 111,7 230 100,0 137,5 225 260 96,5 109,5 93,3 96,8 220 95,0 Rok 3 59,5 97,0 83,2 235 99,0 90,5 245 102,5 105,5 Rok 4 75,7 108,5 91,6 112,7 108,0   102,2 109,0

Obliczanie współczynników Tworzymy macierz X oraz wektor y 1 250 104,0 265 101,5 240 103,0 105,0 230 100,0 225 260 96,5 93,3 220 95,0 97,0 235 99,0 245 102,5 108,5 108,0 109,0 64,8 33,6 37,8 83,3 111,7 137,5 109,5 96,8 59,5 83,2 90,5 105,5 75,7 91,6 112,7 102,2 Q = 28,84 - 2,12P + 1,03Pk + 3,09Y 28,84 3,089 1,035 -2,12 I otrzymujemy wektor współczynników regresji

Rok Kwartał Sprzedaż prognozowana (Q*) Sprzedaż rzcezywista (Q) Q*-Q (Q*-Q)2 Rok 1 Kw. I 77,9 64,8 13,1 171,6 Kw. II 38,3 33,6 4,7 22,3 Kw. III 32,6 37,8 -5,2 26,9 Kw. IV 91,9 83,3 8,6 73,6 Rok 2 97,7 111,7 -14,0 196,8 118,2 137,5 -19,3 373,9 97,9 109,5 -11,6 133,7 103,5 96,8 6,7 44,4 Rok 3 88,4 59,5 28,9 835,6 94,3 83,2 11,1 123,4 83,9 90,5 -6,6 43,8 105,5 -13,6 185,5 Rok 4 60,8 75,7 -14,9 222,8 92,3 91,6 0,7 0,6 111,5 112,7 -1,2 1,5 114,9 102,2 12,7 160,1 Suma kwadratów odchyleń   2616,4 R2 = (11706-2616,4)/11706 = 0,7764