Prognozowanie stochastyczne Wykład w ramach kursu „Modele i Prognozy Demograficzne” Anna Matysiak Instytut Statystyki i Demografii SGH amatys@sgh.waw.pl Warszawa, 31.05.2007
Plan wykładu Wprowadzenie Prognoza stochastyczna versus prognoza deterministyczna Etapy w prognozowaniu stochastycznym Przedziały predykcji Prognoza stochastyczna ludności Polski Konstrukcja założeń Wyniki prognozy 5. Linki i publikacje o prognozowaniu stochastycznym
Zapotrzebowanie na precyzyjne prognozy Szybkie zmiany demograficzne Brak pełnego zrozumienia procesów demograficznych Potrzeba posiadania wiarygodnych prognoz ludności w celu tworzenia odpowiednich polityk Wysoka niepewność dot. liczby i struktury ludności Konieczność ilościowego ujęcia niepewności dot. płodności, umieralności i migracji
Tymczasem… Prognozy przygotowane po 1960 w Europie Zachodniej: przeszacowały współczynniki urodzeń: o 0,3 urodzeń na kobietę (prognozy na 15 lat) o 0,4 urodzeń na kobietę (prognozy na 25 lat) niedoszacowały przeciętne trwanie życia: o ok. 1-1,3 roku (prognozy na 10 lat wprzód) 3,2-3,4 roku (prognozy na 20 lat wprzód) niedoszacowały migracje netto o ok. 3/1000 osób (prognozy na 20 lat wprzód)
Prognoza deterministyczna vs. stochastyczna Prognozy deterministyczne nie ujmują niepewności w sposób ilościowy. Warianty: niski, średni, wysoki, ale nie wiadomo jakie jest prawdopodobieństwo realizacji poszczególnych wariantów! Prognoza stochastyczna (probabilistyczna) Zmienne wykorzystywane w konstrukcji prognozy oraz wyniki prognoz są traktowane jako zmienne losowe => wyniki prognoz stochastycznych są przedstawione w formie przedziałów ufności; oznacza to, że znane jest prawdopodobieństwo realizacji określonego scenariusza. Inne zalety prognoz stochastycznych nad deterministycznymi: Uzyskane liczby ludności niekoniecznie są wynikiem odgórnie narzuconych założeń o płodności, umieralności i migracjach netto; są wynikiem wielu losowych kombinacji poziomów płodności, umieralności i migracji Ponadto w prognozach stochastycznych możliwe są nagłe zmiany w poziomie płodności, umieralności czy migracji netto; w prognozach deterministycznych prawdopodobieństwo nagłych zmian jest zazwyczaj równe zeru.
Prognoza deterministyczna Prognoza Eurostatu EUROPOP2004 3 warianty rozwoju ludności Polski: niski, średni i wysoki Nie wiadomo, jakie jest prawdopodobieństwo realizacji tych wariantów ani wariantów pośrednich. Źródło: prognoza Eurostatu EUROPOP2004
Prognoza stochastyczna Liczba ludności Polski w 2050r. będzie: 25.7-36.5 mln z prawdo-podobieństwem 50%, wyższa niż 41.6 mln z prawdopodobieństwem 10%, niższa niż 21.0 mln z prawdopodobieństwem 10%, wyższa niż w 2004r. z prawdopodobieństwem 18,2%. Uwaga: Założenia prognozy Eurostatu oraz prezentowanej prognozy stochastycznej są różne Źródło: Matysiak, Nowok (w druku)
Prognoza stochastyczna Rozkład prognozowanej liczby ludności w 2050r. Mediana, średnia, dominanta; także prognoza punktowa mln 50% przedział ufności 80% przedział ufności
Konstrukcja prognozy deterministycznej Dane wejściowe: Wyjściowa struktura ludności wg płci i wieku L(x,s,t=0) Zakładane cząstkowe współczynniki płodności w okresie prognozy f(x,t), t=1,…,T Zakładane cząstkowe współczynniki umieralności wg płci m(x,s,t) dla t=1,…,T Zakładane strumienie migracji netto wg płci i wieku n(x,s,t) dla t=1,…,T Procedura: Ustalenie liczby urodzeń, zgonów oraz migracji netto w kolejnych latach prognozy oraz wyznaczenie liczby ludności przy wykorzystaniu równania ruchu ludności (metoda składnikowa). Różne warianty prognozy: Zmieniając założenia dot. płodności, umieralności i/lub migracji otrzymujemy alternatywne scenariusze prognozy (warianty).
Konstrukcja prognozy stochastycznej Dane wejściowe: Wyjściowa struktura ludności wg płci i wieku Założenia o najbardziej prawdopodobnym przebiegu płodności f(x,t) dla t=1,…,T (punktowa prognoza f(x,t)) Założenia o najbardziej prawdopodobnym przebiegu umieralności m(x,s,t) dla t=1,…,T (punktowa prognoza m(x,s,t)) Założenia o najbardziej prawdopodobnym przebiegu migracji netto n(x,s,t) dla t=1,…,T (punktowa prognoza n(x,s,t)) + założenia o niepewności f(x,t), m(x,s,t) i n(x,s,t). Procedura: 1. Ustanowienie przedziałów predykcji dla f(x,t), m(x,s,t), n(x,s,t) 2. Losowy dobór f(x,t), m(x,s,t) i n(x,s,t) z ustanowionych przedziałów 3. Obliczenie liczby ludności na podstawie wylosowanych f(x,t), m(x,s,t) i n(x,s,t) za pomocą metody składnikowej 4. Wielokrotne powtórzenie kroków 2 i 3 (kilka tysięcy razy) -> rozkład liczby ludności L(x,s,t).
Przykład symulacji 60 50 40 30 20 10
Przedział predykcji Ustalić typ rozkładu prawdopodobieństwa dla f(x,t), m(x,s,t), n(x,t) – najczęściej rozkład normalny na skali logarytmicznej Jeśli przyjmiemy rozkład normalny to wartość oczekiwana rozkładu daje prognozę punktową. Jest to jednocześnie dominanta rozkładu – wartość, wokół której skupia się duża część masy rozkładu. Jest to zatem wartość najbardziej prawdopodobna (ang. best guess). 2. Ustalić wariancję rozkładu - określa dyspersję rozkładu, jest zatem miarą niepewności) prognoza punktowa (ang. point forecast)
Szacowanie wariancji rozkładu Analiza szeregów czasowych Analiza błędów przeszłych prognoz lub prognoz naiwnych Opinia ekspertów Przeważnie używa się kombinacji co najmniej dwóch z tych metod
Analiza szeregów czasowych Pozwala wyznaczyć: prognozę punktową wariancję rozkładu Wady: Wymaga długich szeregów czasowych (min 50 obserwacji), dla wielu krajów dane takie są niedostępne lub niskiej jakości, Z drugiej strony korzystanie z danych z odległej przeszłości budzi zastrzeżenia, gdyż natura procesów demograficznych silnie się zmieniła, Wariancje oszacowane na podstawie analizy szeregów czasowych są zazwyczaj relatywnie duże
Analiza szeregów czasowych Płodność – Auroregressive Conditional Heteroscedastic (ARCH) model Umieralność – Generalized Autoregressive Conditional Heteroscedasticity (GARCH) model Migracje – próby analiz za pomocą Random walk with drift (RWD) i Autoregressive AR(1) Process (AR(1) daje znacznie szersze przedziały niż RWD)
Analiza błędów przeszłych prognoz Źródło: European Commission (2005). Changing Population of Europe: Uncertain Future, UPE (final project report). Luxembourg: Office for Official Publications of the EC.
Analiza błędów przeszłych prognoz Źródło: European Commission (2005). Changing Population of Europe: Uncertain Future, UPE (final project report). Luxembourg: Office for Official Publications of the EC.
Analiza błędów prognoz naiwnych Często prognozy z odległej przeszłości są niedostępne, źle udokumentowane lub w ogóle ich nie ma, Wówczas można skorzystać z prognoz naiwnych (np. płodność pozostanie na obecnym poziomie, współczynniki umieralności będą spadać w takim samym tempie jak w ostatnich kilkudziesięciu latach), Prognozy naiwne z założenia generują najwyższe z możliwych błędów.
Analiza błędów prognoz naiwnych Błędy relatywne w naiwnych prognozach płodności Składnik losowy w random walk o wariancji 0,062 Mediana błędów relatywnych Analiza dla 6 krajów europejskich (Dania, Finlandia, Islandia, Holandia, Norwegia, Szwecja) w okresie 1751/1900-2000. Źródło: Alho J., Spencer B., 2005, str. 254
Analiza błędów prognoz naiwnych Błędy relatywne w naiwnych prognozach umieralności Składnik losowy w random walk o wariancji 0,062 Lepsze dopaso-wanie: random walk with drift Mediana błędów relatywnych Analiza dla 9 krajów europejskich (Austria, Dania, Francja, Włochy, Holandia, Norwegia, Szwecja, Szwajcaria, Wielka Brytania) w okresie do 2000 (początek okresu różny w zależności od kraju, najwcześniej dla Wielkiej Brytanii – 1841r.). Źródło: Alho J., Spencer B., 2005, str. 255
Opinia ekspertów Przydatna w celu skorygowania wariancji rozkładu (a także prognoz punktowych) oszacowanych za pomocą analizy szeregów czasowych oraz analizy błędów przeszłych / naiwnych prognoz, Eksperci są proszeni o ocenę prawdopodobieństwa, że określona miara (np. TFR, e0) znajdzie się w określonym przedziale.
Przykład prognozy stochastycznej Prognoza ludności Polski 2005-2050 Na podstawie Matysiak A., Nowok B. Stochastic forecast of the population of Poland, 2005-2050 (w druku)
Założenia dot. płodności Prognoza punktowa: Współczynnik płodności ogólnej (TFR) wzrasta do 1.35 do 2030 a następnie pozostaje na tym poziomie, Wariancja rozkładu: wykorzystano oszacowania na podstawie prognoz naiwnych Alho & Spencer (2005) (patrz slajd nr 20) Interpretacja przedziału predykcji: Współczynnik płodności ogólnej w 2050 znajdzie się w przedziale 0,9-2,2 z prawdopodobieństwem 80%. Prawdopodobieństwo, że współczynnik płodności ogólnej będzie niższy niż w 2004r. wynosi 38%. Prawdopodobieństwa, że warianty średnie prognoz GUSu (w 2030), Eurostatu i ONZ (w 2050) przeszacowują współczynnik płodności ogólnej wynoszą: 31%, 71% i 81%.
Założenia dot. umieralności Prognoza punktowa: Cząstkowe współczynniki umieralności będą spadać liniowo do 2030r. do poziomu przeciętnych stóp spadku współczynników umieralności zaobserwowanych w najbardziej rozwiniętych krajach europejskich w ostatnich 30 latach W okresie 2030-2050 cząstkowe współczynniki umieralności będą się obniżać w tempie ww. krajów europejskich, korekta w celu zmniejszenia różnic w umieralności pomiędzy kobietami a mężczyznami Wariancja rozkładu: Wykorzystano oszacowania na podstawie prognoz naiwnych Alho & Spencer (2005) (patrz slajd nr 21) Zdaniem ekspertów uzyskane przedziały predykcji były stosunkowo wąskie -> korekta na podstawie wyników prognoz dla innych krajów europejskich (projekt UPE)
Założenia dot. umieralności e0 - mężczyźni e0 - kobiety 79.6 79.2 86.7 70.7 Interpretacja przedziału predykcji: Z prawdopodobieństwem 80% e0 w 2050r. będzie mieścić się w przedziale 74.8-84.5 (mężczyźni) oraz 82.7-91.0 (kobiety) e0 dla mężczyzn w 2050r jest niedoszacowanie z prawdopodobieństwem 55,4% (Eurostat) i 73,6% (ONZ) e0 dla kobiet w 2050r jest niedoszacowanie z prawdopodobieństwem 77,2% (Eurostat) i 80,7% (ONZ)
Założenia dot. migracji Prognoza punktowa: Założenia dot. zmian w poziomie migracji netto zbudowano na podstawie przewidywań odnośnie dat otwarcia rynków pracy dla Polaków przez kraje UE Do 2012 Polska będzie doświadczać odpływu ludności W wyniku rozwoju gospodarczego po 2010 Polska zacznie coraz silniej doświadczać napływu imigrantów ze Wschodu; stopniowo emigranci polscy zaczną powracać do kraju Od 2025 r. Polska będzie krajem o dodatnim saldzie migracji, w 2050r. wyniesie ono 30 000 osób Wariancja rozkładu: Odchylenie standardowe migracji netto w 2050r. zostało ustalone na poziomie 6‰ ludności w 2004r. Odchylenie to jest stosunkowo wysokie ze względu na słabe zrozumienie procesów migracyjnych (-> trudności w przewidzeniu kierunku i skali zmian) oraz niską jakość danych migracyjnych w Polsce.
Założenia dot. migracji Interpretacja przedziału predykcji: z prawdopodobieństwem 80% migracje netto w 2050r. będą w przedziale [-263 530; 323 530] a skumulowane migracje netto będą w przedziale [-8 304 000; 6 286 000], prawdopodobieństwo, że migracje netto w 2050 będą dodatnie wynosi 57%
Wyniki – liczba ludności Liczba ludności Polski w 2050r. będzie: 25.7-36.5 mln z prawdopodobień-stwem 50%, 21.0-41.6 mln z prawdopodobień-stwem 80%, wyższa niż w 2004r. z prawdopodo-bieństwem 18,2%. Prawdopodobieństwo, że liczba ludności w 2050r. będzie niższa niż przewiduje: Eurostat wynosi 61%, ONZ wynosi 53%, Prawdopodobieństwo że GUS przeszacowuje liczbę ludności w 2030r. wynosi 57%.
Wyniki - struktura wieku 2030 2050 2004 tys.
Wyniki – współczynniki obciążeń Demograficzny współczynnik obciążeń osobami w wieku 65+ (old-age dependency ratio – OADR): najprawdopodobniej wzrośnie z 21% do 64% w 2050r., z prawdopodobieństwem 10% przekroczy 94%
Relatywne błędy - analiza wrażliwości Prognoza liczby ludności, analiza wrażliwości na skutek zmian w wysokości relatywnych błędów dla płodności dla umieralności
Relatywne błędy - analiza wrażliwości Prognoza liczby ludności, analiza wrażliwości na skutek zmian w wysokości relatywnych błędów dla migracji
Publikacje i linki Projekt „Changing Population of Europe: Uncertain Future” (UPE) http://www.stat.fi/tup/euupe/ - bogate materiały na temat prognozowania stochastycznego oraz wyniki prognoz dla 18 krajów europejskich, Oprogramowanie do prognozowania stochastycznego PEP (Program for Error Propagation) http://joyx.joensuu.fi/~ek/pep/userpep.htm Alho J., Spencer B. 2005, Statistical Demography and Forecasting, New York: Springer Science + Business Media Przykładowe prognozy: Australia: Wilson T., Bell M., 2005, Australia’s uncertain demographic future, Demographic Research Vol. 11, Article 8, 195-234: www.demographic-research.org Finlandia: Alho J. (2002), The population of Finalnd in 2050 and beyond, ETLA Disussion Paper No 826, http://www.etla.fi/eng/julkaisuhaku.php?type=details&id=853 Litwa: Alho, J. (1998). Stochastic Forecast of the Lithuanian Population 2001-2050. Research Report P98-1023-R. Joensuu: University of Joensuu, Department of Statistics, www.etla.fi/lithuania/dokut/chapter2.pdf Polska: Matysiak A., Nowok B.,2006, Stochastic forecast of the population of Poland, MPIDR Working Paper Nr 26, http://www.demogr.mpg.de/papers/working/wp-2006-026.pdf