GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział

Slides:



Advertisements
Podobne prezentacje
Excel Narzędzia do analizy regresji
Advertisements

Modele oświetlenia Punktowe źródła światła Inne
BUDOWA MODELU EKONOMETRYCZNEGO
Metody numeryczne wykład no 2.
Metody Numeryczne Wykład no 3.
Statystyka w doświadczalnictwie
Niepewności przypadkowe
Wykład 6 Standardowy błąd średniej a odchylenie standardowe z próby
Wykład 14 Liniowa regresja
Prognozowanie na podstawie modelu ekonometrycznego
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Estymacja na podstawie danych jednej zmiennej I Alfred Stach Instytut Paleogeografii.
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Estymacja na podstawie danych jednej zmiennej II Alfred Stach Instytut Paleogeografii.
Alfred Stach Instytut Geoekologii i Geoinformacji
Alfred Stach Instytut Geoekologii i Geoinformacji
GEOSTATYSTYKA Wykłady dla III roku Geografii specjalność – geoinformacja Kriging wartości kodowanych (Indicator Kriging) Alfred Stach Instytut Paleogeografii.
Postęp modelowania zmienności przestrzennej gleb na stokach II
Modelowanie zmienności przestrzennej barwy gleb na stokach morenowych
Instytut Badań Czwartorzędu i Geoekologii UAM
Alfred Stach Instytut Geoekologii i Geoinformacji
Alfred Stach Instytut Paleogeografii i Geoekologii
GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział
Alfred Stach Instytut Paleogeografii i Geoekologii
Alfred Stach Instytut Paleogeografii i Geoekologii UAM
Średnie i miary zmienności
Jednoczynnikowa analiza wariancji (ANOVA)
Fraktale i chaos w naukach o Ziemi
Hipotezy statystyczne
Testy nieparametryczne
Konstrukcja, estymacja parametrów
Elementy Rachunku Prawdopodobieństwa i Statystyki
Rozkłady wywodzące się z rozkładu normalnego standardowego
BADANIE STATYSTYCZNE Badanie statystyczne to proces pozyskiwania danych na temat rozkładu cechy statystycznej w populacji. Badanie może mieć charakter:
Testy nieparametryczne
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Irena Woroniecka EKONOMIA MENEDŻERSKA - dodatek do W2
Elementy Rachunku Prawdopodobieństwa i Statystyki
Elementy Rachunku Prawdopodobieństwa i Statystyki
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Akademia Górniczo-Hutnicza, Kraków
Hipotezy statystyczne
Sterowanie – metody alokacji biegunów II
Podstawy statystyki, cz. II
Regresja wieloraka.
Seminarium licencjackie Beata Kapuścińska
Co to jest dystrybuanta?
Dopasowanie rozkładów
Wnioskowanie statystyczne
Statystyka medyczna Piotr Kozłowski
MODELOWANIE ZMIENNOŚCI CEN AKCJI
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
Podstawowe pojęcia i terminy stosowane w statystyce
Statystyczna analiza danych w praktyce
Statystyczna analiza danych
Statystyczna analiza danych
Przeprowadzenie badań niewyczerpujących, (częściowych – prowadzonych na podstawie próby losowej), nie daje podstaw do formułowania stanowczych stwierdzeń.
Ekonometria stosowana Heteroskedastyczność składnika losowego Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Weryfikacja hipotez statystycznych „Człowiek – najlepsza inwestycja”
Fundamentals of Data Analysis Lecture 12 Approximation, interpolation and extrapolation.
STATYSTYKA – kurs podstawowy wykład 8 dr Dorota Węziak-Białowolska Instytut Statystyki i Demografii.
Modele nieliniowe sprowadzane do liniowych
STATYSTYKA – kurs podstawowy wykład 11
Regresja wieloraka – bada wpływ wielu zmiennych objaśniających (niezależnych) na jedną zmienną objaśnianą (zależą)
Jednorównaniowy model regresji liniowej
Alfred Stach Instytut Paleogeografii i Geoekologii UAM
Zapis prezentacji:

GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział Nauk Geograficznych i Geologicznych UAM

Kriging wartości kodowanych (Indicator Kriging)

Lokalizacja stanowisk pomiarowych opadów atmosferycznych na profilu

Maksymalne sumy dobowe opadów zarejestrowane w maju 1980 roku na posterunkach usytuowanych na profilu

Skumulowany rozkład prawdopodobieństwa maksymalnych dobowych sum opadów zarejestrowanych w posterunkach opadowych na terenie Polski w maju 1980 roku Na wykresie zaznaczono wysokości sum dobowych o prawdopodobieństwie przewyższenia 0,2, 0,4, 0,6, 0,8, 0,9 i 0,95 (percentyle 20, 40, …., 95%)

Wartości progowe maksymalnych sum dobowych opadów w maju 1980 roku o prawdopodobieństwie 0,2, 0,4, 0,6, 0,8, 0,9 i 0,95 (percentyle 20, 40, 60, 80, 90 i 95%) naniesione na dane profilowe

Maksymalne sumy dobowe opadów zarejestrowane w maju 1980 roku na analizowanym profilu przekodowane na wektory danych binarnych w zależności od przekroczenia wartości progowych wyznaczonych z globalnej krzywej skumulowanego rozkładu prawdopodobieństwa (precentyle 20, 40, 60, 80, 90 i 95%)

Semiwariogramy empiryczne i ich modele dla wartości kodowanych (percentyle 20, 40, 60, 80, 90 i 95%) maksymalnych sum dobowych opadów na terenie Polski w maju 1980 roku

Estymowany metodą IK profil prawdopodobieństwa maksymalnych opadów dobowych w maju Pionowymi liniami przerywanymi zaznaczono lokalizację punktów pomiarowych

Wartość oczekiwana ( E-mean ) maksymalnego opadu dobowego na analizowanym profilu w maju 1980 wyliczona z ccdf estymowanych metodą IK. Zacieniowany pas oznacza zakres odchylenia standardowego estymacji ( Conditional Variance ). Zaznaczono lokalizację punktów pomiarowych i wysokości rzeczywiście zmierzonych maksymalnych opadów dobowych

Maksymalny opad dobowy na analizowanym profilu w maju 1980 o prawdopodobieństwie wystąpienia 0,9 (A) oraz prawdopodobieństwo wystąpienia opadu dobowego większego lub równego 25 mm (B). Zaznaczono lokalizację punktów pomiarowych i wysokości rzeczywiście zmierzonych maksymalnych opadów dobowych

Estymowane metodą IK warunkowe skumulowane rozkłady prawdopodobieństwa (ccdf) maksymalnych opadów dobowych w maju 1980 roku w trzech lokalizacjach (u 1, u 2 i u 3 ) na analizowanym profilu. Zaznaczono globalne cdf (V-80) obliczone dla wszystkich danych pomiarowych z całej Polski, a także wartości sum opadów dla cdf odpowiadające prawdopodobieństwu 0,9 Błędy relacji porządkowych ccdf dla lokalizacji u 2 i u 3 (odpowiednio 0, i 0, )

Błędy relacji porządkowych Podstawową wadą krigingu wartości kodowanych (IK) jest występowanie błędów relacji porządkowych. W dowolnej lokalizacji u, każde estymowane posteriori prawdopodobieństwo [ F ( u ; z k ( n ))]* musi należeć do przedziału [0,1], a seria K takich szacunków musi być niemalejącą funkcją wielkości wartości progowej z k :

Błędy relacji porządkowych I Występowanie błędów relacji porządkowych pierwszego rodzaju wynika z samej natury algorytmu krigingu, który jest liniową, nie wypukłą, kombinacją danych pomiarowych. Pociąga to za sobą możliwość obliczenia ujemnych wag dla poszczególnych danych pomiarowych znajdujących się w zasięgu sąsiedztwa szukania. Sytuacja taka ma miejsce jeśli zachodzi zjawisko ekranowania, tj. zlokalizowany bliżej punktu estymacji u 0 punkt danych u 2 częściowo niweluje wpływ leżącego dalej na tym samym kierunku punktu u 1. Ta cecha algorytmu ma zarówno zalety, jak i wady. Z jednej strony umożliwia uzyskanie estymacji, które wykraczają poza zakres danych pomiarowych, z drugiej mogą być to czasami wyniki nierealistyczne, takie jak ujemne stężenia, czy proporcje większe od 1. Błędy tego rodzaju występują częściej, i ich rozmiary są większe, w zwykłym krigingu (OK) niż w prostym krigingu (SK), oraz w wielozmiennym kokrigingu niż w krigingu. Jest to efektem występujących w owych algorytmach (OK, SCK, OCK) ograniczeń wielkości wag (wymuszających ich sumowanie do 1 lub do 0)

Ekranowanie danych w krigingu Ilustracja sytuacji występowania ujemnych wag w algorytmie zwykłego krigingu (OK). A – wykres i wzór sferycznego modelu semiwariogramu użytego w obliczeniach: wariancja nuggetowa (C 0 ) = 10, wariancja progowa (C 1 ) = 90, zasięg (a) = 100 jednostek. B – układ przestrzenny estymowanej lokalizacji (0) i punktów danych (1-5) oraz wartości wyliczonych dla tej konfiguracji wag OK. Sytuacja bez ekranowania. C – układ przestrzenny estymowanej lokalizacji (0) i punktów danych (1-5) oraz wartości wyliczonych dla tej konfiguracji wag OK. Sytuacja z ekranowaniem punktu 1 przez punkt 2. Cieniowany okrąg (B i C) wskazuje na zasięg autokorelacji.

Błędy relacji porządkowych II Występowanie błędów drugiego rodzaju wynika dodatkowo z faktu, że każde z K prawdopodobieństw jest estymowane osobno, oraz że często w konkretnych klasach z (przedziałach wartości analizowanej cechy) w lokalnym sąsiedztwie brak jest danych pomiarowych. Jakie ma to konsekwencje zaprezentowano w poniższym przykładzie. Zakładamy że w klasie ( z 7, z 8 ] nie ma danych pomiarowych. Obie estymacje IK dla wartości progowych z 7 i z 8 oparte są zatem na tym samym zbiorze danych kodowanych ponieważ: Różnice między tymi dwoma estymacjami IK są wówczas jedynie efektem liniowej kombinacji różnic pomiędzy wagami IK dla obu wartości progowych z 7 i z 8 :

Błędy relacji porządkowych II Wartość ujemna różnicy pociąga za sobą naruszenie relacji porządkowej. W sytuacji kiedy oba modele semiwariogramów I (h, z 7 ) i I (h, z 8 ) są identyczne, także oba zbiory wag IK będą takie same, ponieważ dla obu wartości progowych w obliczeniach zostaną wykorzystane te same lokalizacje danych pomiarowych: Różnica wynosi wówczas zero, stąd nie ma naruszenia relacji porządkowej. W przeciwnym wypadku, istotnej różnicy dwóch kolejnych modeli semiwariogramów wartości kodowanych, w tym przypadku między progami z 7 i z 8, powstają dwa odmienne zbiory wag IK pociągając za sobą ryzyko wystąpienia błędów relacji porządkowych.

Sposoby eliminacji błędów relacji porządkowych Błędy relacji porządkowych są w estymacjach IK stosunkowo częste, ale ich rozmiar jest zazwyczaj niewielki – około 0,01. Aby ograniczyć ich ilość i rozmiar stosuje się dwie strategie: Błędy drugiego rodzaju w zasadzie są łatwe do wyeliminowania jeśli dla wszystkich wartości progowych użyje się tego samego modelu struktury przestrzennej – semiwariogramu. To dość radykalne podejście jest często stosowane pod nazwą median Indicator Kriging (mIK). Nazwa sugeruje, i rzeczywiście tak bywa najczęściej, że w algorytmie tym stosuje się model struktury przestrzennej danych kodowanych w stosunku do wartości mediany (50 percentyla). Nie jest jednakże jakaś ścisła reguła. Zalety mIK związane są nie tylko z eliminacją większości naruszeń relacji porządkowych. Jest to przede wszystkim metoda mniej pracochłonna – modelowanie jednego semiwariogramu zamiast kilku, czy kilkunastu, ale przede wszystkim znacznie szybsza w obliczeniach. Dla każdej lokalizacji (węzła siatki interpolacyjnej) obliczany jest bowiem tylko jeden układ równań krigingu. Popularność mIK wynika również z faktu, że mimo tak znacznego uproszczenia procedury, uzyskiwane wyniki są zazwyczaj tylko nieznacznie gorsze od uzyskanych za pomocą pełnego krigingu wartości kodowanych.

Sposoby eliminacji błędów relacji porządkowych W sytuacji kiedy nie można zastosować metody mIK zaleca się takie modelowanie struktury przestrzennej dla kolejnych wartości progowych, aby unikać gwałtownych zmian parametrów modeli. Można to osiągnąć na przykład poprzez użycie dla wszystkich wartości progowych różnych kombinacji liniowych tych samych elementarnych struktur. Parametry modeli semiwariogramów danych kodowanych (wariancja progowa, zasięg, kierunek i proporcja anizotropii) powinny zmieniać się stopniowo od jednej wartości progowej do następnej. Nie jest to zazwyczaj żadne istotne ograniczenie, ponieważ w naturze zmiany struktury przestrzennej dla różnych klas wielkości analizowanego parametru zazwyczaj zachodzą w sposób stopniowy – płynny. Zupełnie inne podejście do problemu redukcji błędów relacji porządkowych zakłada nie sztywne ustalenie jednej serii wartości progowych z k, ale ich dynamiczną modyfikację osobno dla każdego sąsiedztwa szukania w zależności od zakresu wartości tam występujących. Unika się w ten sposób, często w tradycyjnym IK występującej sytuacji, że w pewnych klasach wielkości nie ma danych pomiarowych. Potrzebne odpowiednie modele semiwariogramów dla zmiennych wartości progowych są interpolowane z podanych wcześniej przez operatora.

Usuwanie błędów relacji porządkowych Wymienione procedury redukują, ale całkowicie nie eliminują problemu naruszeń relacji porządkowych. Dlatego też konieczna jest dodatkowa, finalna operacja korekty uzyskanych za pomocą algorytmu IK wartości ccdf. Najczęściej stosuje się prostą procedurę uśredniana korekt wartości rosnących i malejących: Błędy relacji porządkowych uzyskanych z obliczeń IK wartości ccdf i ich korekta. Objaśnienia: a – niezależne wartości ccdf wyliczone algorytmem IK, b – korekta wartości rosnących (upward correction), c – korekta wartości malejących (downward correction), d – wynikowe ccdf uzyskane z uśrednienia obu wartości skorygowanych.

Przykład korekty relacji porządkowych Przykłady raportów dotyczące ilości i rozmiarów korekt relacji porządkowych warunkowych kumulacyjnych funkcji rozkładu maksymalnych sum dobowych opadów: A – jednowymiarowy przykład (profil) z maja 1980, B – maksymalne sumy dobowe opadów w roku 1974 na całym obszarze Polski.

Przykład korekty relacji porządkowych

Estymowane metodą IK warunkowe skumulowane rozkłady prawdopodobieństwa (ccdf) maksymalnych opadów dobowych w maju 1980 roku w trzech lokalizacjach (u 1, u 2 i u 3 ) na analizowanym profilu. Zaznaczono globalne cdf (V-80) obliczone dla wszystkich danych pomiarowych z całej Polski, a także wartości sum opadów dla cdf odpowiadające prawdopodobieństwu 0,9 Błędy relacji porządkowych ccdf dla lokalizacji u 2 i u 3 (odpowiednio 0, i 0, )

Interpolacja i ekstrapolacja wynikowej ccdf Działanie algorytmu IK można porównać do korekty, czy też modyfikacji, na podstawie informacji lokalnych, globalnego dyskretnego cdf. Otrzymujemy w efekcie punktową, dyskretną, warunkową funkcję rozkładu prawdopodobieństwa ( ccdf ). Aby móc ją w pełni wykorzystać do różnorodnych zastosowań, musimy w ostatnim etapie obliczeń dokonać operacji odwrotnej do tej która rozpoczynała całą procedurę – z dyskretnej, nieciągłej ccdf uzyskać z powrotem rozkład ciągły. Praktycznie rzecz biorąc pociąga to za sobą konieczność ustalenia sposobu za pomocą którego można oszacować dowolną wartość ccdf, a nie tylko dla K wybranych progów.

Interpolacja i ekstrapolacja wynikowej ccdf Problem ten zazwyczaj rozbija się na dwa cząstkowe: (1) interpolację ccdf w obrębie klas wyznaczonych przez kolejne wartości progowe, (2) ekstrapolację poza progami skrajnymi, tj. minimalnym i maksymalnym Budowa ciągłego ccdf dla lokalizacji u 1 z jednowymiarowego przykładu obliczeń krigingu wartości kodowanych. Objaśnienia: A – ciągły cdf dla całego zbioru danych (a) i dyskretny ccdf uzyskany z obliczeń IK dla lokalizacji u 1, B – to samo co w A plus: d – ekstrapolacja potęgowa dolnego ogona rozkładu ( = 4,0), c – interpolacja liniowa pomiędzy granicami klas i, b – ekstrapolacja hiperboliczna górnego ogona rozkładu ( = 2,5).

Interpolacja i ekstrapolacja wynikowej ccdf Do interpolacji ccd f pomiędzy wartościami progowymi ( z k-1, z k ) wykorzystywany jest zazwyczaj model liniowy. Używając tego modelu zakładamy istnienie w klasach rozkładu równomiernego Do ekstrapolacji dolnego ogona rozkładu używany jest najczęściej model potęgowy Do ekstrapolacji górnego ogona używany jest model potęgowy lub hiperboliczny Potęgowa (a) i hiperboliczna (b) interpolacja / ekstrapolacja skumulowanego rozkładu zmiennej

Estymowane metodą IK warunkowe skumulowane rozkłady prawdopodobieństwa (ccdf) maksymalnych opadów dobowych w maju 1980 roku w trzech lokalizacjach (u 1, u 2 i u 3 ) na analizowanym profilu. Zaznaczono globalne cdf (V-80) obliczone dla wszystkich danych pomiarowych z całej Polski, a także wartości sum opadów dla cdf odpowiadające prawdopodobieństwu 0,9 Błędy relacji porządkowych ccdf dla lokalizacji u 2 i u 3 (odpowiednio 0, i 0, )

Zestawienie wad i zalet IK WADY: utrata części informacji ze względu dyskredytyzację ciągłej dystrybuanty empirycznej, pracochłonność – konieczność czasochłonnego budowania modelu semiwariancji dla każdej wartości progowej; często występujące trudności w określeniu modeli dla wartości bardzo niskich i bardzo wysokich zmuszają do subiektywnych decyzji, a te rodzą wątpliwości co do optymalności uzyskanych estymacji, wykraczanie estymowanych prawdopodobieństw poza dopuszczalny zakres (0, 1), oraz błędy w ich relacjach porządkowych, arbitralnie przyjmowana metoda interpolacji/ekstrapolacji uzyskanej warunkowej dystrybuanty. ZALETY: potwierdzona w dziesiątkach zastosowań i testów metodycznych skuteczność, brak trudnych do weryfikacji założeń dotyczących rozkładu statystycznego populacji (metoda nieparametryczna), żadna z alternatywnych metod nie jest wyraźnie lepsza, alternatywne metody są bardziej skomplikowane = bardziej podatne na błędy metodyczne, łatwa możliwość uwzględnienia danych uzupełniających (twardych i miękkich). powszechna dostępność oprogramowania

Analizowane dane Fragment doliny lodowca Ebba na Spitsbergenie Zachodnim ok N i 16 44E

Analizowane dane Dolina Ebby – analizowany obszar:

Analizowane dane Zdjęcie satelitarne Aster – Terra z 13 lipca 2002 roku Światło widzialne i bliska podczerwień. Rozdzielczość – 15 m

Obrazy satelitarne powierzchni testowej: kompozycje RGB kanałów spektralnych VNIR 3 VIII VIII VII VII VII VII 2004

Korekcja zacienienia – 13 lipca 2002 roku Azymut słońca = 205,24°, wysokość słońca = 31,98° Oryginalny obrazObraz skorygowany Względne oświetlenie (niezacieniona powierzchnia płaska = 1)

Klasyfikacja danych VNIR dla 6 obrazów (18 zmiennych) Dane kanału 3n dla obrazu wykonanego 5 sierpnia 2001 roku

Rzeczywisty obraz klas VNIR i uzyskany z 250 próbek metodą najbliższego sąsiada

Rzeczywisty obraz klas VNIR i uzyskany z 250 próbek metodą krigingu kategorii

Analizowane dane: Zdjęcie z 13.VII r. Zdjęcie z 5.VIII r. Oryginał i klasyfikacja Fragment mapy geomorfologicznej obszar m = 2,925 km 2 ( pikseli = danych) kanał 3n – bliska podczerwień 250 podstawowych losowych próbek 100 dodatkowych losowych próbek

Interpolacja danych jakościowych – semiwariogramy kategorii Obraz rzeczywisty

Interpolacja danych jakościowych – kriging kategorii (IK) Interpolacja IK Prawdo- podobieństwo przynależności do regionu (klasy) Statystyki klasyfikacji przestrzennej Obraz rzeczywisty

SCHEMAT OPRÓBOWANIA STOKU. POBÓR RDZENI GLEBOWYCH.

POBÓR RDZENI GLEBOWYCH I OPIS BARWY GLEB

System MUNSELLA opisu barw jakościowy opis barwy: hue (rodzaj), value (natężenie), chroma (czystość) np.: 7.5YR 3/4 wprowadzony w 1913 roku, standard w gleboznawstwie, brak możliwości analiz ilościowych

Konwersja barw do systemu RGB

Empiryczne semiwariogramy wskaźnikowe (indicator semivariogram) dla poszczególnych klas barw poziomu akumulacyjno-próchnicznego na stoku A

Prawdopodobieństwo przynależności do klas barw poziomu akumulacyjno-próchnicznego na stoku A

Błędy starej klasyfikacji barw poziomu akumulacyjnego na stoku A P pojedynczej klasy > 1 P sumy klas 1

Stara i nowa klasyfikacja barw poziomu akumulacyjnego na stoku A: korekta prawdopodobieństw i anizotropia

Możliwości jakie daje kriging wartości kodo- wanych