Alfred Stach Instytut Paleogeografii i Geoekologii UAM

Slides:



Advertisements
Podobne prezentacje
Układy eksperymentalne analizy wariancji. Analiza wariancji Planowanie eksperymentu Analiza jednoczynnikowa, p poziomów czynnika, dla każdego obiektu.
Advertisements

Wykład 5 Standardowy błąd a odchylenie standardowe
Analiza współzależności zjawisk
Analiza wariancji jednoczynnikowa
Skale pomiarowe – BARDZO WAŻNE
BUDOWA MODELU EKONOMETRYCZNEGO
Badania operacyjne. Wykład 1
Opracowanie zasad tworzenia programów ochrony przed hałasem mieszkańców terenów przygranicznych związanych z funkcjonowaniem dużych przejść granicznych.
ANALIZA STRUKTURY SZEREGU NA PODSTAWIE MIAR STATYSTYCZNYCH
Krzysztof Jurek Statystyka Spotkanie 4. Miary zmienności m ó wią na ile wyniki są rozproszone na konkretne jednostki, pokazują na ile wyniki odbiegają
SKALA 2 :1 1 : 1 1 : 2 OBRAZ DWUKROTNIE POWIĘKSZONY 8 cm 6 cm
Statystyka w doświadczalnictwie
Podstawowe pojęcia prognozowania i symulacji na podstawie modeli ekonometrycznych Przewidywaniem nazywać będziemy wnioskowanie o zdarzeniach nieznanych.
Niepewności przypadkowe
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Prognozowanie na podstawie modelu ekonometrycznego
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Estymacja na podstawie danych jednej zmiennej I Alfred Stach Instytut Paleogeografii.
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Estymacja na podstawie danych jednej zmiennej II Alfred Stach Instytut Paleogeografii.
Alfred Stach Instytut Geoekologii i Geoinformacji
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Kriging wartości kodowanych (Indicator Kriging) Alfred Stach Instytut Paleogeografii.
Instytut Badań Czwartorzędu i Geoekologii UAM
Alfred Stach Instytut Geoekologii i Geoinformacji
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział
Rozkład normalny Cecha posiada rozkład normalny jeśli na jej wielkość ma wpływ wiele niezależnych czynników, a wpływ każdego z nich nie jest zbyt duży.
Wykład 4. Rozkłady teoretyczne
Metody Symulacyjne w Telekomunikacji (MEST) Wykład 6/7: Analiza statystyczna wyników symulacyjnych  Dr inż. Halina Tarasiuk
Średnie i miary zmienności
Co to są rozkłady normalne?
Metody ilościowe w biznesie Wykład 1
Konstrukcja, estymacja parametrów
Analiza współzależności cech statystycznych
i jak odczytywać prognozę?
Ekonometria. Co wynika z podejścia stochastycznego?
Elementy Rachunku Prawdopodobieństwa i Statystyki
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Analiza wariancji jednoczynnikowa.
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Prognozowanie z wykorzystaniem modeli ekonometrycznych
Hipotezy statystyczne
Elementy Rachunku Prawdopodobieństwa i Statystyki
Podstawy statystyki, cz. II
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Dopasowanie rozkładów
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
Dr Ewelina Sokołowska, UG prof. dr hab. Jerzy Witold Wiśniewski, UMK
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Testowanie hipotez Jacek Szanduła.
Statystyczna analiza danych
Statystyczna analiza danych
Model trendu liniowego
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
STATYSTYKA – kurs podstawowy wykład 6 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Estymacja parametryczna dr Marta Marszałek Zakład Statystyki Stosowanej Instytut Statystyki i Demografii Kolegium Analiz.
Dokładność NMT modelowanie dokładności NMT oszacowanie a priori badanie a posteriori.
Statystyka matematyczna
Analiza współzależności zjawisk
Korelacja i regresja liniowa
Alfred Stach Instytut Paleogeografii i Geoekologii UAM
Zapis prezentacji:

Alfred Stach Instytut Paleogeografii i Geoekologii UAM Baza danych prawdopodobieństwa maksymalnych miesięcznych i rocznych sum dobowych opadów z terenu Polski – wersja 1 Alfred Stach Instytut Paleogeografii i Geoekologii UAM

Prawdopodobieństwo maksymalnych okresowych sum dobowych opadów Atlas hydrologiczny … 1986 Wykorzystano dane z 301 stacji i posterunków z lat 1951 – 1975 Do określenia prawdopodobieństwa maksymalnych sum dobowych zastosowano rozkład Pearsona III typu i metodę kwantyli do szacowania jego parametrów „Zmienność maksymalnych sum dobowych w skali kraju jest niewielka, natomiast rozrzut wyników obliczeń dla jednakowych prawdopodobieństw występowania jest znaczny na obszarach o zbliżonych warunkach fizyczno-geograficznych” (Ciepielowski, Dąbkowski 2006) „W związku z rozwojem metod empirycznych oceny maksymalnych przepływów prawdopodobnych pochodzenia deszczowego w zlewniach niekontrolowanych hydrologicznie, przydatność tej charakterystyki (tj. maksymalnych sum dobowych) jest duża, …” (Ciepielowski, Dąbkowski 2006)

Atlas hydrologiczny … 1986

Metodyka opracowania nowej bazy Użyto wszystkie dostępne dane MSDO z okresu 1956 – 1980 (opublikowane w Rocznikach Opadowych i pozyskane z przygranicznej strefy na terenie Niemiec). Zastosowano metodę przestrzenną – uwzględniającą autokorelację MSDO Z dostępnych metod - kriging multigaussowski (ang. multigaussian kriging), kriging dysjunktywny (ang. disjunctive kriging) oraz kriging wartości kodowanych (ang. indicator kriging – IK) – wybrano ostatni z wymienionych Metodykę IK przedstawiono 2 lata temu; kompletne opisy znajdują się w szeregu podręczników (między innymi Chilès, Delfiner 1999, Deutsch, Journel 1998, Goovaerts 1997, Webster, Oliver 2001)

Kryteria wyboru metody krigingu wartości kodowanych (IK) Wady: utrata części informacji ze względu dyskredytyzację ciągłej dystrybuanty empirycznej, pracochłonność – konieczność czasochłonnego budowania modelu semiwariancji dla każdej wartości progowej; często występujące trudności w określeniu modeli dla wartości bardzo niskich i bardzo wysokich zmuszają do subiektywnych decyzji, a te rodzą wątpliwości co do optymalności uzyskanych estymacji, wykraczanie estymowanych prawdopodobieństw poza dopuszczalny zakres (0, 1), oraz błędy w ich relacjach porządkowych, arbitralnie przyjmowana metoda interpolacji/ekstrapolacji uzyskanej warunkowej dystrybuanty. Zalety: potwierdzona w dziesiątkach zastosowań i testów metodycznych skuteczność, brak trudnych do weryfikacji założeń dotyczących rozkładu statystycznego populacji (metoda nieparametryczna), żadna z alternatywnych metod nie jest wyraźnie lepsza, alternatywne metody są bardziej skomplikowane = bardziej „podatne” na błędy metodyczne, łatwa możliwość uwzględnienia danych uzupełniających („twardych” i „miękkich”). powszechna dostępność oprogramowania (Deutsch, Journel 1998, Mao, Journel 1998, Pardo-Igúzquiza, Dowd 2005, Richmond 2002.

Problem rozdzielczości rastrowej bazy danych Analizy GIS których efektem są rastrowe modele zmienności przestrzennej wymagają na etapie planowania metodyki podjęcia decyzji o ich rozdzielczości, czyli inaczej mówiąc o wymiarach oczka siatki. Najważniejsze kryteria brane pod uwagę dotyczą zbioru danych na podstawie którego budowany jest model: typ próbkowania (punktowe bądź obszarowe; losowe, regularne, preferencyjne, profilowe itp.), zagęszczenie danych (ilość na jednostkę powierzchni), charakterystyki zmienności przestrzennej analizowanej cechy: statystyki lokalne, parametry autokorelacji, rozkład statystyczny błędów zarówno samych pomiarów, jak i określenia lokalizacji stanowisk pomiarowych. Kryteria uzupełniające: docelowa skala modelu (mapy), przeznaczenie modelu, ograniczenia odnośnie mocy obliczeniowej i pamięci komputera.

Problem rozdzielczości rastrowej bazy danych Wykorzystano zalecenia Hengla (2006) Kryteria: docelowa skala modelu (ok. 1 : 6 000 000): zakres rozdzielczości optymalnych od 600 do 15 000 m; rozdzielczość optymalna – 3 000 m, ilość (zagęszczenie danych): zakres rozdzielczości optymalnych - od 567 do 1134 m; rozdzielczość optymalna – 900 m, typ rozkładu przestrzennego danych źródłowych: zakres rozdzielczości optymalnych - od 1300 m do 3900 m; rozdzielczość optymalna – 2 800 m, zasięg autokorelacji danych: zakres rozdzielczości optymalnych - od 1560 do 7750 m; rozdzielczość optymalna – 750 m, Błąd określenia położenia stanowiska pomiarowego: od 600 do 900 m Przyjęta ostatecznie rozdzielczość modelu: 1000 m

Problem zmian ilości i rozkładu przestrzennego danych

Problem zmian ilości i rozkładu przestrzennego danych Zestawienie ilości pomiarów MSDO w Polsce i w Niemczech, które wykorzystano w niniejszym opracowaniu: a – dane miesięczne z Roczników Opadowych PIHM/IMGW, b – dane roczne z Roczników Opadowych PIHM/IMGW, c – miesięczne dane z przygranicznej strefy na obszarze Niemiec, d – roczne dane z przygranicznej strefy na obszarze Niemiec Statystyki odległości najbliższego sąsiada i losowości rozkładu przestrzennego punktów pomiarowych, dla których analizowano MSDO opadów, w kolejnych miesiącach (A) i latach (B) wielolecia 1956-80. Objaśnienia: (a) – średnia odległość do najbliższego sąsiada, (b) – odchylenie standardowe odległości do najbliższego sąsiada, (c) – skośność odległości do najbliższego sąsiada, (d) – wskaźnik Clarka i Evansa losowości rozkładu przestrzennego.

Problem zmian ilości i rozkładu przestrzennego danych – ocena za pomocą kroswalidacji

Problem zmian ilości i rozkładu przestrzennego danych – ocena za pomocą kroswalidacji

Problem optymalizacji parametrów obliczeń Ilość punktów danych używanych do estymacji wartości każdego węzła siatki – optymalizacja za pomocą kroswalidacji

Problem optymalizacji parametrów obliczeń: Ilość punktów danych używanych do estymacji wartości każdego węzła siatki – optymalizacja za pomocą kroswalidacji

Wybrane przykłady z opracowanej wieloletniej bazy danych Średnia oczekiwana wartość MSDO (mm) Styczeń Lipiec

Wybrane przykłady z opracowanej wieloletniej bazy danych Odchylenie standardowe wartości oczekiwanej (mm) Styczeń Lipiec

Wybrane przykłady z opracowanej wieloletniej bazy danych Oczekiwana suma opadu o prawdopodobieństwie 0,1 (mm) Styczeń Lipiec

Wybrane przykłady z opracowanej wieloletniej bazy danych Oczekiwana suma opadu o prawdopodobieństwie 0,01 (mm) Styczeń Lipiec

Wybrane przykłady z opracowanej wieloletniej bazy danych Pole prawdopodobieństwa rocznych MSDO Wartość oczekiwana (mm) Odchylenie standardowe wartości oczekiwanej (mm)

Stare i nowe: podobieństwa i różnice

Podsumowanie - metodyka Źródłem na podstawie którego wykonano opracowanie było 747 486 wartości maksymalnych opadów dobowych w poszczególnych miesiącach wielolecia 1956-80 (średnio ok. 2492) i 61 940 sum maksymalnych rocznych opadów dobowych (średnio ok. 2478) Do opracowania rastrowej bazy danych prawdopodobieństwa MSDO wykorzystano metodę krigingu wartości kodowanych dla 13 wartości progowych (1, 5, 10, 20 …, 90, 95 i 99% percentyl). Przed wykonaniem obliczeń przygotowano 4225 modeli struktury przestrzennej (325 zbiorów danych  13 wartości progowych). Parametry obliczeń optymalizowano za pomocą kroswalidacji. Na podstawie nieprzestrzennych i przestrzennych cech źródłowego zbioru danych stwierdzono, że optymalna rozdzielczość tworzonych modeli rastrowych powinna wynosić 1  1 km. Stwierdzono, że zmiany ilości i rozkładu przestrzennego punktów pomiarowych zachodzące w analizowanym wieloleciu nie miały wpływu na jakość uzyskanych wyników Docelowa siatka interpolacyjna miała 319 114 węzłów obejmując całe terytorium lądowe Polski, Zalew Szczeciński, część polską Zalewu Wiślanego, Zatokę Pucką, a także strefę o szerokości 2 km poza granicami

Podsumowanie - efekty Etapowym wynikiem obliczeń są rastrowe modele prawdopodobieństwa MSDO dla każdego z 325 źródłowych zbiorów danych (325  319 114 węzłów  13 progów = 1 348 256 650 wartości) Końcowym efektem są średnie wieloletnie pola prawdopodobieństwa MSDO dla poszczególnych miesięcy i całego roku (13  319 114 węzłów  13 progów = 53 930 266 wartości) Z uzyskanych rozkładów prawdopodobieństwa MSDO dla każdego węzła siatki interpolacyjnej można prosto obliczyć: wartość oczekiwaną opadu (średnią rozkładu), odchylenie standardowe (wariancję warunkową), sumę opadu dobowego o zadanym prawdopodobieństwie wystąpienia, prawdopodobieństwo opadu o podanej sumie dobowej, inne statystyki, na przykład przedziałowe. Baza jest przeznaczona przede wszystkim do ocen punktowych. Do analiz obszarowych bardziej nadają się dane symulowane. Wersja 2 bazy – w przygotowaniu - będzie miała taki charakter

Podsumowanie – stare/nowe Stwierdzono, że uzyskane modele wieloletnie, oprócz znacznie większej rozdzielczości przestrzennej, od poprzednich „analogowych” danych różnią się istotnie wielkością prognozowanych rocznych MSDO o prawdopodobieństwie 1% na Niżu nie ma obszarów o opadach poniżej 80 mm dla większość obszaru niżowego maksymalny opad dobowy o prawdopodobieństwie 0,01 wynosi od 120 do 150 mm (poprzednio 80 – 100 mm) najwyższe „stuletnie” opady dobowe są prognozowane w tych samych lokalizacjach, lecz ich sumy są znacząco niższe – około 175 mm, zamiast jak poprzednio ponad 200 mm

DZIĘKUJĘ ZA UWAGĘ