GEOSTATYSTYKA I ANALIZA PRZESTRZENNA Wykład dla III roku Geografii specjalność - geoinformacja Alfred Stach Instytut Geoekologii i Geoinformacji Wydział Nauk Geograficznych i Geologicznych UAM
Notacja i terminologia 1 Cecha – fizyczna właściwość (parametr) oznaczana kursywą małą literą np. z lub s. Cechy ciągłe takie jak np. stężenia, są oznaczane na skali ilościowej, cechy kategoryzowane mogą przybierać określoną, limitowaną ilość wartości, zazwyczaj nie mających charakteru porządkowego np. typ skał czy kategoria użytkowania terenu Zmienna – jest oznaczana kursywą i duża literą np. Z lub S i oznacza zbiór wartości lub stanów cechy z lub s, które mogą występować na analizowanym obszarze lub w punkcie o wektorze współrzędnych u. W tym wypadku oznaczane zmienna jest oznaczana Z (u) lub S (u).
Notacja i terminologia 1 Obiekt – Cecha jest określana (mierzona) na fizycznej próbce, jak na przykład okruch skały, czy rdzeń glebowy itp. W przypadku analizy eksploracyjnej nieprzestrzennej (bez uwzględniania lokalizacji) o próbce mówimy obiekt. We wszystkich innych sytuacjach każda próbka jest związana ze ścisłą lokalizacją miejsca jej poboru, które określamy u Populacja – jest zdefiniowana jako zbiór wszystkich pomiarów interesującej nas cechy, które mogą być dokonane w obrębie obszaru badań. Skończona ilość pomiarów, która dysponujemy to próbka lub podzbiór.
Notacja i terminologia 1 Parametr – to stała wartość (nie losowa) charakteryzująca model, na przykład wariancja nuggetowa semiwariogramu, lub średnia rozkładu funkcji prawdopodobieństwa na podstawie której modelujemy teoretyczny histogram Statystyka – jest to wielkość charakteryzująca rozkład, która może dotyczyć jednej lub większej ilości cech, i/lub jednej lub większej ilości lokalizacji w przestrzeni. Jednozmienna, dwuzmienna lub wielozmienna statystyka jest związana z charakterystyką jednej, dwóch lub wielu cech. Terminy statystyka jednopunktowa, dwupunktowa lub wielopunktowa są stosowane są stosowane kiedy odnosi się ona do tej samej cechy w jednej, dwóch lub wielu lokalizacjach. Na przykład współczynnik korelacji jest statystyka dwuzmienną, podczas gdy semiwariogram – dwupunktową. Krossemiwariogram jest statystyką dwuzmienną i dwupunktową, ponieważ uwzględnia dwie różne cechy zarejestrowane w dwóch odmiennych lokalizacjach.
Przestrzenna eksploracyjna analiza danych Wykresy rozrzutu jednej zmiennej z przesunięciem (h- scattergram) Miary ciągłości i zmienności przestrzennej zmiennych ilościowych –Funkcja kowariancji –Korelogram –Semiwariogram –Anizotropia miar ciągłości i zmienności przestrzennej Miary ciągłości i zmienności przestrzennej zastosowane do zmiennych kategoryzowanych Struktura przestrzenna analizowanych danych satelitarnych –Anizotropia przestrzenna –Wpływ wartości ekstremalnych –Interpretacja struktury zmienności przestrzennej
Statystyczne miary zmienności jednej zmiennej: wariancja i odchylenie standardowe
Statystyczne miary zmienności dwóch zmiennych: kowariancja i współczynnik korelacji
Wykres rozrzutu XY i miary relacji dwóch zmiennych w tych samych lokalizacjach
A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 100 m Regularny układ punktów Porównywanie wartości cechy punktów odległych np. od 200 m
A co uzyskamy jeśli zbadamy relację między wartościami tej samej cechy w różnych lokalizacjach? Idea porównania wartości cechy tej samej cechy w różnych lokalizacjach dla nieregularnego układu punktów pomiarowych – przedział odległości u u +h ogon tail głowa head h
Wykresy rozrzutu jednej zmiennej z przesunięciem (h-scattergram) Dane z punktów odległych od siebie o 45 22,5m Średnia odległość 17,645m Ilość par punktów: 74 Kowariancja: 81,715 Korelacja: 0,66685 Statystyki podzbiorów: Średnia dla z( ): 326,12 Wariancja dla z( ): Średnia dla z( +45): 326,12 Wariancja dla z( +45): Dane cechy b1_03b ze zbioru Horbye3.dat
Dane z punktów odległych od siebie o 45-90m Średnia odległość 51,381m Ilość par punktów: 640 Kowariancja: 63,037 Korelacja: 0,4354 Statystyki podzbiorów: Średnia dla z( ): 326,26 Wariancja dla z( ): Średnia dla z( +45): 326,26 Wariancja dla z( +45):
Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o m Średnia odległość 92,41m Ilość par punktów: 1048 Kowariancja: 51,472 Korelacja: 0,31496 Statystyki podzbiorów: Średnia dla z( ): 327,75 Wariancja dla z( ): Średnia dla z( +45): 327,75 Wariancja dla z( +45):
Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o m Średnia odległość 136,27m Ilość par punktów: 1472 Kowariancja: 33,667 Korelacja: 0,20181 Statystyki podzbiorów: Średnia dla z( ): 327,91 Wariancja dla z( ): Średnia dla z( +45): 327,91 Wariancja dla z( +45):
Dane cechy b1_03b ze zbioru Horbye3.dat Dane z punktów odległych od siebie o m Średnia odległość 226,47m Ilość par punktów: 2304 Kowariancja: 12,211 Korelacja: 0, Statystyki podzbiorów: Średnia dla z( ): 327,71 Wariancja dla z( ): Średnia dla z( +45): 327,71 Wariancja dla z( +45):
Dane cechy b1_03b ze zbioru Horbye3.dat 17,6m0,667 51,4m0,435 92,4m0, ,3m0, ,3m0, ,5m0, ,4m0,075
Funkcja kowariancji Autokowariancja przestrzenna Średnia wartości podzbioru ogona (tail values) Średnia wartości podzbioru głowy (head values) Eksperymentalna funkcja autokowariancji = eksperymentalna funkcja kowariancji
Funkcja kowariancji
Korelogram Autokorelacja przestrzenna Wariancja wartości podzbioru ogona Wariancja wartości podzbioru głowy Eksperymentalna funkcja autokorelacji = korelogram
Korelogram
Semiwariogram Semiwariancja empiryczna: połowa średniej kwadratu różnic wartości cechy w lokalizacjach odległych o wektor h. Miara średniego niepodobieństwa (różnicy) Interpretacja geometryczna: moment bezwładności wokół pierwszego bisektora wykresu rozrzutu z przesunięciem (h-scaterplot) Wariancja wartości podzbioru ogona Eksperymentalna funkcja semiwariancji = semiwariogram
Semiwariogram
Właściwości semiwariogramu – chmura semiwariogramu ( variogram cloud )
Właściwości semiwariogramu semiwariancja nuggetowa = nugget wariancja próby zasięg autokorelacji = range semiwariancja progowa = sill
Właściwości semi- wariogramu Gringarten, Deutsch 2001
Właściwości semiwariogramu Tak jak inne statystyki typu wariancji, wartości kowariancji i semiwariogramu są bardzo czułe na występowanie danych ekstremalnych – potencjalnie błędnych. Stosuje się trzy sposoby aby ten problem rozwiązać: Transformację matematyczną danych (logarytmowanie, pierwiastkowanie itp.), aby zredukować skośność ich histogramu, Usuwanie par danych, które zaburzają wartość semiwariancji dla określonych odstępów h. Procedura ta zwana jest czyszczeniem wykresu rozrzutu z przesunięciem (h- scattergram cleansing). Używanie innych statystyk h-scattergramu, które są mniej czułe na występowanie danych ekstremalnych.
Mapa lokalizacyjna
Czyszczenie wykresu rozrzutu z przesunięciem
Semiwariogram zmodyfikowany Semiwariogram do potęgi : = 2 – tradycyjny semiwariogram = 1 – madogram = ½ – rodogram
Semiwariogram zmodyfikowany - madogram
Anizotropia struktury przestrzennej W rzeczywistych układach przestrzennych różnica wartości cechy zależy nie tylko od odległości, ale także od kierunku Teoria + pomiar = precyzyjna prognoza
Anizotropia struktury przestrzennej Dwa sposoby obliczania kierunkowych miar ciągłości/zmienności przestrzennej
Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu) Anizotropia geometryczna i Anizotropia strefowa
Geometryczna interpretacja powierzchni wariogramu (mapy wariogramu)
Wariogramy kierunkowe zmiennej b1_03b Wykres czerwony – kierunek maksymalnej ciągłości: kąt 320° Wykres czarny – kierunek minimalnej ciągłości: kąt 60°
Anizotropia struktury przestrzennej – powierzchnia wariogramu zmienna b1_03b Dwuwymiarowy obraz powierzchni wariogramu próbki i populacji
Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b Trójwymiarowy obraz powierzchni wariogramu populacji i próbki
Anizotropia struktury przestrzennej – powierzchnia wariogramu - zmienna b1_03b
Anizotropia pola maksymalnych opadów dobowych na terenie Polski