Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Komputerowe wspomaganie podejmowania decyzji Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii.

Podobne prezentacje


Prezentacja na temat: "Komputerowe wspomaganie podejmowania decyzji Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii."— Zapis prezentacji:

1 Komputerowe wspomaganie podejmowania decyzji Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii UAM

2 Niepewność procesu decyzyjnego Niepewność jest nieodłączną częścią procesu decyzyjnego; jej efektem jest ryzyko decyzji Niepewność jest nieodłączną częścią procesu decyzyjnego; jej efektem jest ryzyko decyzji Lepsze zrozumienie poszczególnych źródeł niepewności i ich końcowego wpływu na ryzyko decyzji powoduje odchodzenie od ostrych rozwiązań typowych w tradycyjnym GIS (gdzie zakłada się, że zarówno baza danych jest dokładna i kompletna, jak i wykorzystywane modele są optymalne) do procedur dających wyniki miękkie. Lepsze zrozumienie poszczególnych źródeł niepewności i ich końcowego wpływu na ryzyko decyzji powoduje odchodzenie od ostrych rozwiązań typowych w tradycyjnym GIS (gdzie zakłada się, że zarówno baza danych jest dokładna i kompletna, jak i wykorzystywane modele są optymalne) do procedur dających wyniki miękkie. Zamiast stanowczych stwierdzeń typu coś jest lub czegoś nie ma uzyskuje się nieprecyzyjne stwierdzenia o stopniu prawdopodobieństwa, czy też natężeniu możliwości Zamiast stanowczych stwierdzeń typu coś jest lub czegoś nie ma uzyskuje się nieprecyzyjne stwierdzenia o stopniu prawdopodobieństwa, czy też natężeniu możliwości Przejście do miękkich zasad podejmowania decyzji wymaga rozwoju zdolności systemów GID do przetwarzania niepewnych danych przy pomocy niepewnych reguł i metod, i zachowywania informacji co jest źródłem niepewności i jakim zmianom ona podlega w trakcie całego procesu decyzyjnego Przejście do miękkich zasad podejmowania decyzji wymaga rozwoju zdolności systemów GID do przetwarzania niepewnych danych przy pomocy niepewnych reguł i metod, i zachowywania informacji co jest źródłem niepewności i jakim zmianom ona podlega w trakcie całego procesu decyzyjnego

3 Typologia źródeł niepewności Niepewność związana jest ze wszystkimi znanymi i nieznanymi błędami w danych i w regułach ich przetwarzania i interpretacji; wynika też z ich niejednoznaczności i zróżnicowania Niepewność związana jest ze wszystkimi znanymi i nieznanymi błędami w danych i w regułach ich przetwarzania i interpretacji; wynika też z ich niejednoznaczności i zróżnicowania Może zatem wynikać z błędów pomiarowych, wewnętrznej zmienności, niestabilności czasowej, niejednoznaczności pojęć, nadmiernego uproszczenia modelu lub zwykłej niewiedzy dotyczącej istotnych jego parametrów Może zatem wynikać z błędów pomiarowych, wewnętrznej zmienności, niestabilności czasowej, niejednoznaczności pojęć, nadmiernego uproszczenia modelu lub zwykłej niewiedzy dotyczącej istotnych jego parametrów

4 Typologia źródeł niepewności Traktując proces decyzyjny jak zbiór problemów przynależności / braku przynależności możemy dokonać klasyfikacji źródeł i roli niepewności występujących w jego ramach. Traktując proces decyzyjny jak zbiór problemów przynależności / braku przynależności możemy dokonać klasyfikacji źródeł i roli niepewności występujących w jego ramach. Zakres decyzyjny ( decision frame ) zawiera wszystkie uwzględniane alternatywy (lub hipotezy), natomiast dowody ( evidence ) to taka informacja na podstawie której można dokonać oceny szeregu funkcji przynależności określonych lokalizacji do zbioru decyzyjnego ( decision set ) Zakres decyzyjny ( decision frame ) zawiera wszystkie uwzględniane alternatywy (lub hipotezy), natomiast dowody ( evidence ) to taka informacja na podstawie której można dokonać oceny szeregu funkcji przynależności określonych lokalizacji do zbioru decyzyjnego ( decision set ) Proces decyzyjny zawiera zatem trzy podstawowe elementy które są źródłem niepewności – dowody, sam zbiór decyzyjny i relacje pomiędzy nimi Proces decyzyjny zawiera zatem trzy podstawowe elementy które są źródłem niepewności – dowody, sam zbiór decyzyjny i relacje pomiędzy nimi

5 Niepewność dowodów ( evidence ) Dowody to wszelkie informacje (ilościowe i jakościowe) o obiektach zbioru kandydackiego które poddawane są ocenie przydatności w świetle zakresu decyzyjnego (analizowanych alternatyw lub hipotez) Dowody to wszelkie informacje (ilościowe i jakościowe) o obiektach zbioru kandydackiego które poddawane są ocenie przydatności w świetle zakresu decyzyjnego (analizowanych alternatyw lub hipotez) Niepewność wynika w tym przypadku z błędów pomiarowych i/lub obserwacyjnych Niepewność wynika w tym przypadku z błędów pomiarowych i/lub obserwacyjnych Ten rodzaj niepewności przedstawiany jest zazwyczaj w postaci RMSE (pierwiastka średniego błędu kwadratowego – root mean square error ) w przypadku danych ilościowych, i błędu proporcji ( proportional error ) – danych jakościowych Ten rodzaj niepewności przedstawiany jest zazwyczaj w postaci RMSE (pierwiastka średniego błędu kwadratowego – root mean square error ) w przypadku danych ilościowych, i błędu proporcji ( proportional error ) – danych jakościowych Ocena tych źródeł błędu dokonywana jest na podstawie klasycznej teorii pomiaru oraz teorii prawdopodobieństwa i wnioskowania matematyczno- statystycznego do ich szacowania i propagacji w trakcie analizy Ocena tych źródeł błędu dokonywana jest na podstawie klasycznej teorii pomiaru oraz teorii prawdopodobieństwa i wnioskowania matematyczno- statystycznego do ich szacowania i propagacji w trakcie analizy

6 Niepewność relacji I Drugim podstawowym elementem procesu decyzyjnego jest specyfikacja relacji zachodzących pomiędzy dowodami a zbiorem decyzyjnym. Na tym etapie niepewność może pochodzić z trzech źródeł: Niepewność związana z definicją kryteriów: jeśli wyznaczoną granicą dużego spadku terenu jest 10% i więcej, to czy spadek 9,99999% nie jest duży?. Ten problem związany jest z częstych występowaniem kryteriów o charakterze nieostrym, stopniowym. Przy takich problemach zastosowanie znajduje teoria zbiorów rozmytych Niepewność związana z definicją kryteriów: jeśli wyznaczoną granicą dużego spadku terenu jest 10% i więcej, to czy spadek 9,99999% nie jest duży?. Ten problem związany jest z częstych występowaniem kryteriów o charakterze nieostrym, stopniowym. Przy takich problemach zastosowanie znajduje teoria zbiorów rozmytych Niepewność wynikająca z pośredniej i niejednoznacznej relacji między dowodami, a zbiorem decyzyjnym, na przykład określanie użytkowania terenu na podstawie obrazów satelitarnych, a nie bezpośredniego kartowania terenowego. Dysponujemy wówczas nie pewnością, ale przekonaniem ( belief ) że dowody sugerują istnienie określonego zbioru (kategorii użytkowania terenu). Do analizy takich problemów wykorzystuje się teorię prawdopodobieństwa Bayesa i/lub Dempstera-Shafera. Niepewność wynikająca z pośredniej i niejednoznacznej relacji między dowodami, a zbiorem decyzyjnym, na przykład określanie użytkowania terenu na podstawie obrazów satelitarnych, a nie bezpośredniego kartowania terenowego. Dysponujemy wówczas nie pewnością, ale przekonaniem ( belief ) że dowody sugerują istnienie określonego zbioru (kategorii użytkowania terenu). Do analizy takich problemów wykorzystuje się teorię prawdopodobieństwa Bayesa i/lub Dempstera-Shafera.

7 Niepewność relacji II Niepewność związana z błędem specyfikacji modelu wynikająca najczęściej z konieczności agregacji wielu kryteriów aby określić zbiór decyzyjny: czy kryteria są adekwatne do problemu i w jaki sposób je zagregować aby uzyskać syntetyczny wskaźnik. Niepewność związana z błędem specyfikacji modelu wynikająca najczęściej z konieczności agregacji wielu kryteriów aby określić zbiór decyzyjny: czy kryteria są adekwatne do problemu i w jaki sposób je zagregować aby uzyskać syntetyczny wskaźnik. W metodzie WLC stosujemy średnią ważoną, ale czy jest ona w każdej sytuacji najlepsza i jedyna? Jeśli musimy zagregować dwa kryteria o takiej samej ważności (wadze): jedno o przydatności 0,6, a drugie 0,7 to WLC daje końcowy wynik przydatności 0,65. Zastosowanie do tych samych danych klasycznej teorii prawdopodobieństwa daje 0,42, teorii zbiorów rozmytych – 0,6, teorii Bayesa 0,78, a teorii Dempstera-Shafera – 0,88. Która wartość jest bardziej prawidłowa? W metodzie WLC stosujemy średnią ważoną, ale czy jest ona w każdej sytuacji najlepsza i jedyna? Jeśli musimy zagregować dwa kryteria o takiej samej ważności (wadze): jedno o przydatności 0,6, a drugie 0,7 to WLC daje końcowy wynik przydatności 0,65. Zastosowanie do tych samych danych klasycznej teorii prawdopodobieństwa daje 0,42, teorii zbiorów rozmytych – 0,6, teorii Bayesa 0,78, a teorii Dempstera-Shafera – 0,88. Która wartość jest bardziej prawidłowa?

8 Niepewność zbioru decyzyjnego Niepewność końcowa – zbioru decyzyjnego jest rodzajem agregacji niepewności dowodów i niepewności specyfikacji relacji pomiędzy nimi a zbiorem decyzyjnym Niepewność końcowa – zbioru decyzyjnego jest rodzajem agregacji niepewności dowodów i niepewności specyfikacji relacji pomiędzy nimi a zbiorem decyzyjnym Jeśli zatem istnieje niepewność co do stopnia przynależności obiektu kandydackiego do zbioru decyzyjnego to do podjęcia końcowej decyzji potrzebna jest dodatkowa operacja – określenie progu niepewności który jesteśmy w stanie zaakceptować. Jeśli zatem istnieje niepewność co do stopnia przynależności obiektu kandydackiego do zbioru decyzyjnego to do podjęcia końcowej decyzji potrzebna jest dodatkowa operacja – określenie progu niepewności który jesteśmy w stanie zaakceptować. Należy zatem ocenić możliwość podjęcia złej decyzji, czyli jej ryzyko Należy zatem ocenić możliwość podjęcia złej decyzji, czyli jej ryzyko

9 Niepewność danych a ryzyko decyzji: ocena błędów Niezbędnym aspektem oceny niepewności decyzji jest znajomość błędów pomiarowych i ich propagacji w trakcie przetwarzania danych i łączenia poszczególnych ich zbiorów (warstw) Niezbędnym aspektem oceny niepewności decyzji jest znajomość błędów pomiarowych i ich propagacji w trakcie przetwarzania danych i łączenia poszczególnych ich zbiorów (warstw) Szacowanie błędów pomiarowych jest zazwyczaj wykonywane poprzez selekcję próby lokalizacji terenowych, i wykonanie w ich miejscu ponownego pomiaru analizowanej cechy (parametru). Wyniki tych pomiarów testowych są następnie porównywane z wcześniej posiadanymi danymi z bazy. Szacowanie błędów pomiarowych jest zazwyczaj wykonywane poprzez selekcję próby lokalizacji terenowych, i wykonanie w ich miejscu ponownego pomiaru analizowanej cechy (parametru). Wyniki tych pomiarów testowych są następnie porównywane z wcześniej posiadanymi danymi z bazy. W oparciu o zbiór pomiarów testowych i posiadanych poprzednio, możliwe jest dokonanie szacunku błędów. W przypadku danych ilościowych posługujemy się pierwiastkiem średniego błędu kwadratowego ( Root Mean Square Error: RMSE ) obliczanym według następującej formuły: W oparciu o zbiór pomiarów testowych i posiadanych poprzednio, możliwe jest dokonanie szacunku błędów. W przypadku danych ilościowych posługujemy się pierwiastkiem średniego błędu kwadratowego ( Root Mean Square Error: RMSE ) obliczanym według następującej formuły: Gdzie: x i – to wynik pomiaru dotychczasowego t i – wynik pomiaru testowego (sprawdzającego)

10 Niepewność danych a ryzyko decyzji: ocena błędów W przypadku danych jakościowych konstruuje się macierz błędów zawierającą ilość zidentyfikowanych punktów (lokalizacji) dla każdej możliwej kombinacji wartości istniejących w bazie danych z uzyskanymi z pomiarów testowych W przypadku danych jakościowych konstruuje się macierz błędów zawierającą ilość zidentyfikowanych punktów (lokalizacji) dla każdej możliwej kombinacji wartości istniejących w bazie danych z uzyskanymi z pomiarów testowych Las iglasty Las mieszany Las liściasty WodySumaBłąd Las iglasty ,11 Las mieszany ,35 Las liściasty ,00 Wody ,12 Suma Błąd0,170,000,360,180,19 Błędy pominięcia – Errors of omission Błędy nadmiaru – Errors of commission Dane testowe (weryfikujące) Dane posiadane

11 Niepewność danych a ryzyko decyzji: ocena błędów Wartości ułożone na przekątnej reprezentują przypadki kiedy pomiary testowe są zgodne z posiadanymi już danymi. Wartości umieszczone w tabeli poza przekątnymi podają ilość błędów i są podsumowane na marginesach. Są one podawane także jako błędy względne określeń każdej kategorii. Całkowity błąd względny (proporcjonalny) jest umieszczony w prawym dolnym rogu tabeli. Wartości ułożone na przekątnej reprezentują przypadki kiedy pomiary testowe są zgodne z posiadanymi już danymi. Wartości umieszczone w tabeli poza przekątnymi podają ilość błędów i są podsumowane na marginesach. Są one podawane także jako błędy względne określeń każdej kategorii. Całkowity błąd względny (proporcjonalny) jest umieszczony w prawym dolnym rogu tabeli. Las iglasty Las mieszany Las liściasty WodySumaBłąd Las iglasty ,11 Las mieszany ,35 Las liściasty ,00 Wody ,12 Suma Błąd0,170,000,360,180,19 Błędy pominięcia – Errors of omission Błędy nadmiaru – Errors of commission Dane testowe (weryfikujące) Dane posiadane

12 Niepewność danych a ryzyko decyzji: ocena błędów Błędy względne znajdujące się w dolnej części tabeli nazywa się błędami pominięcia, a po prawej – błędami nadmiaru. Pierwsze określają przypadki kiedy lokalizacje konkretnej kategorii stwierdzone w badaniach testowych były w istniejącej bazie danych zaklasyfikowane inaczej, drugie zaś kiedy lokalizacje należące w bazie do określonej kategorii zostały w badaniach testowych zakwalifikowane inaczej. Błędy względne znajdujące się w dolnej części tabeli nazywa się błędami pominięcia, a po prawej – błędami nadmiaru. Pierwsze określają przypadki kiedy lokalizacje konkretnej kategorii stwierdzone w badaniach testowych były w istniejącej bazie danych zaklasyfikowane inaczej, drugie zaś kiedy lokalizacje należące w bazie do określonej kategorii zostały w badaniach testowych zakwalifikowane inaczej. Las iglasty Las mieszany Las liściasty WodySumaBłąd Las iglasty ,11 Las mieszany ,35 Las liściasty ,00 Wody ,12 Suma Błąd0,170,000,360,180,19 Błędy pominięcia – Errors of omission Błędy nadmiaru – Errors of commission Dane testowe (weryfikujące) Dane posiadane

13 Propagacja błędów w trakcie analizy Jeśli w wartości zapisane w warstwach danych są niepewne, to wtedy ich błąd jest przenoszony (ulega propagacji) w trakcie każdego kroku analizy i łączy się z błędami pochodzącymi z innych źródeł Jeśli w wartości zapisane w warstwach danych są niepewne, to wtedy ich błąd jest przenoszony (ulega propagacji) w trakcie każdego kroku analizy i łączy się z błędami pochodzącymi z innych źródeł W pakietach rastrowego GIS istnieją specjalne wzory propagacji błędów powstających w trakcie typowych operacji matematycznych (takich jakie na przykład można wykonać za pomocą modułów SCALAR i OVERLAY w Idrisi). Ich użyteczność jest jednak ograniczona ze względu: W pakietach rastrowego GIS istnieją specjalne wzory propagacji błędów powstających w trakcie typowych operacji matematycznych (takich jakie na przykład można wykonać za pomocą modułów SCALAR i OVERLAY w Idrisi). Ich użyteczność jest jednak ograniczona ze względu: Propagacja błędów jest silnie uzależniona od istnienia korelacji pomiędzy zmiennymi, a siła takiej korelacji często nie jest znana na początku analizy Propagacja błędów jest silnie uzależniona od istnienia korelacji pomiędzy zmiennymi, a siła takiej korelacji często nie jest znana na początku analizy Dla wielu operacji GIS nie poznano do tej pory charakterystyk propagacji błędów i nie opracowano formuł umożliwiających ich obliczenie. Dla wielu operacji GIS nie poznano do tej pory charakterystyk propagacji błędów i nie opracowano formuł umożliwiających ich obliczenie.

14 Typowe formuły propagacji błędów: operacje arytmetyczne S oznacza błąd RMSE; S x – błąd RMSE mapy (warstwy) X; S y – błąd mapy Y; S z – błąd wynikowej mapy Z; K – stała podana przez operatora S oznacza błąd RMSE; S x – błąd RMSE mapy (warstwy) X; S y – błąd mapy Y; S z – błąd wynikowej mapy Z; K – stała podana przez operatora Zazwyczaj obliczony błąd wynikowy jest stały w obrębie całej mapy. W niektórych jednak przypadkach jest on jednak uzależniony od wartości odpowiadających komórek na mapach składowych. Są one wówczas wyrażone jako X i Y. W takich sytuacjach błąd jest zróżnicowany w obrębie mapy wynikowej, i musi być obliczany oddzielnie dla każdego piksela. Zazwyczaj obliczony błąd wynikowy jest stały w obrębie całej mapy. W niektórych jednak przypadkach jest on jednak uzależniony od wartości odpowiadających komórek na mapach składowych. Są one wówczas wyrażone jako X i Y. W takich sytuacjach błąd jest zróżnicowany w obrębie mapy wynikowej, i musi być obliczany oddzielnie dla każdego piksela. Podane formuły znajdują zastosowanie przy założeniu, że mapy składowe nie są ze sobą skorelowane Podane formuły znajdują zastosowanie przy założeniu, że mapy składowe nie są ze sobą skorelowane

15 Typowe formuły propagacji błędów: operacje arytmetyczne Dodawania / odejmowanie map Dodawania / odejmowanie map to znaczy Z = X + Y lub Z = X – Y: Mnożenie / dzielenie map Mnożenie / dzielenie map to znaczy Z = X * Y lub Z = X / Y:

16 Typowe formuły propagacji błędów: operacje arytmetyczne Skalarne dodawanie i odejmowanie Skalarne dodawanie i odejmowanie to znaczy Z = X + k lub Z = X – k: Mnożenie skalarne Mnożenie skalarne to znaczy Z = X * k

17 Typowe formuły propagacji błędów: operacje arytmetyczne Skalarne dzielenie Skalarne dzielenie to znaczy Z = X / k: Potęgowanie skalarne Potęgowanie skalarne to znaczy Z = X k :

18 Typowe formuły propagacji błędów: operacje logiczne W trakcie działań logicznych, błędy mogą być wyrażone w postaci oczekiwanej wartości proporcji komórek (pikseli) błędnych w kategorii która jest przetwarzana. W trakcie działań logicznych, błędy mogą być wyrażone w postaci oczekiwanej wartości proporcji komórek (pikseli) błędnych w kategorii która jest przetwarzana. Jeśli na przykład wartość logiczna 1 na mapie oznacza przynależność do kategorii lasy, a 0 – przynależność do wszystkich innych kategorii, to wartość błędu 0,05 oznacza ocenę, że 5% pikseli należących do kategorii lasy zostało źle zaklasyfikowane. Ponieważ operacje logiczne wykonuje się na dwóch mapach, błąd na mapie wynikowej jest funkcją błędów obu map wyjściowych i typu wykonywanej operacji Ponieważ operacje logiczne wykonuje się na dwóch mapach, błąd na mapie wynikowej jest funkcją błędów obu map wyjściowych i typu wykonywanej operacji

19 Typowe formuły propagacji błędów: operacje logiczne Logiczne AND: Logiczne AND: Logiczne OR: Logiczne OR: lub równoważne:

20 Ocena wielkości próby potrzebnej do obliczenia RMSE o zadanym poziomie ufności Jeśli wartość RMSE lub błędu proporcjonalnego nie jest znana z góry to konieczne jest zaplanowanie dodatkowych badań. Aby były optymalne konieczne jest zbilansowanie dwóch sprzecznych celów: Jeśli wartość RMSE lub błędu proporcjonalnego nie jest znana z góry to konieczne jest zaplanowanie dodatkowych badań. Aby były optymalne konieczne jest zbilansowanie dwóch sprzecznych celów: minimalizacji kosztów dodatkowych badań, minimalizacji kosztów dodatkowych badań, uzyskanie oceny RMSE / błędu proporcjonalnego o zadawalającej dokładności uzyskanie oceny RMSE / błędu proporcjonalnego o zadawalającej dokładności Do takiej optymalizacji dodatkowego próbkowania wykorzystuje się następujące formuły: Do takiej optymalizacji dodatkowego próbkowania wykorzystuje się następujące formuły: n – liczebność próby, z – stała zależna od pożądanego ufności (np. dla 95% przedziału ufności z = 1,96), s – szacowana wartość błędu standardowego potrzebnej charakterystyki statystycznej, e – pożądany przedział ufności (np. dla przedziału ufności 10% e = 0,01), p – szacowany błąd względny, q = (1 – p)

21 Ocena propagacji błędów przy pomocy symulacji Monte Carlo Analiza wykonywana jest dwukrotnie: Analiza wykonywana jest dwukrotnie: Pierwszy raz w sposób zwykły Pierwszy raz w sposób zwykły Za drugim razem przy użyciu warstw (map cyfrowych) zawierających symulowane błędy Za drugim razem przy użyciu warstw (map cyfrowych) zawierających symulowane błędy Porównanie obu wyników umożliwia ocenę wpływu błędów – ponieważ jedyną przyczyną różnic jest wprowadzony sztucznie błąd Porównanie obu wyników umożliwia ocenę wpływu błędów – ponieważ jedyną przyczyną różnic jest wprowadzony sztucznie błąd Badany jest rozkład statystyczny błędów dla wszystkich pikseli wynikowej mapy. Jeśli jest to rozkład normalny, to odchylenie standardowe błędów może być uznane za dobre przybliżenie RMSE mapy wynikowej Badany jest rozkład statystyczny błędów dla wszystkich pikseli wynikowej mapy. Jeśli jest to rozkład normalny, to odchylenie standardowe błędów może być uznane za dobre przybliżenie RMSE mapy wynikowej Na przykład jeśli jedną ze składowych analizy jest model DEM o RMSE równym 3, to w procedurze Monte Carlo generowana jest losowo powierzchnia wartości o rozkładzie normalnym, średniej równej 0 i odchyleniu standardowym równym 3. Powierzchnia ta (symulowany błąd) dodawana jest do oryginalnego DEM i używana w dalszym toku analizy Na przykład jeśli jedną ze składowych analizy jest model DEM o RMSE równym 3, to w procedurze Monte Carlo generowana jest losowo powierzchnia wartości o rozkładzie normalnym, średniej równej 0 i odchyleniu standardowym równym 3. Powierzchnia ta (symulowany błąd) dodawana jest do oryginalnego DEM i używana w dalszym toku analizy Rezultaty analizy Monte Carlo mogą dać bardziej wiarygodne rezultaty jeśli zostaną powtórzone wiele razy, a wyniki uśrednione Rezultaty analizy Monte Carlo mogą dać bardziej wiarygodne rezultaty jeśli zostaną powtórzone wiele razy, a wyniki uśrednione Należy jednakże pamiętać, że jakość wyników metody MC zależy od prawidłowego wyboru typu rozkładu statystycznego który zastosujemy jako model częstości i wielkości błędów Należy jednakże pamiętać, że jakość wyników metody MC zależy od prawidłowego wyboru typu rozkładu statystycznego który zastosujemy jako model częstości i wielkości błędów

22 Niepewność bazy danych a ryzyko decyzji – finalna ocena Posiadając ocenę błędu pomiaru i wyniki obliczeń jego propagacji w trakcie analizy decyzyjnej można w pełni ocenić związane z nimi ryzyko decyzji. Posiadając ocenę błędu pomiaru i wyniki obliczeń jego propagacji w trakcie analizy decyzyjnej można w pełni ocenić związane z nimi ryzyko decyzji. Zazwyczaj polega to obliczeniu prawdopodobieństwa przekroczenia / nie przekroczenia wartości poszczególnych pikseli mapy wynikowej określonej wartości granicznej (progowej) Zazwyczaj polega to obliczeniu prawdopodobieństwa przekroczenia / nie przekroczenia wartości poszczególnych pikseli mapy wynikowej określonej wartości granicznej (progowej) Procedura opiera się na założeniu losowości błędów i używa obliczonej wartości RMSE do wygenerowania ich rozkładu statystycznego (SD = RMSE). Dzięki temu otrzymujemy mapę prawdopodobieństwa przynależności każdego piksela mapy wynikowej do zbioru decyzyjnego. Jest to miekki odpowiednik zwykłego przeklasyfikowania danych. Procedura opiera się na założeniu losowości błędów i używa obliczonej wartości RMSE do wygenerowania ich rozkładu statystycznego (SD = RMSE). Dzięki temu otrzymujemy mapę prawdopodobieństwa przynależności każdego piksela mapy wynikowej do zbioru decyzyjnego. Jest to miekki odpowiednik zwykłego przeklasyfikowania danych.

23 Niepewność bazy danych a ryzyko decyzji – finalna ocena (przykład) Ocena zasięgu obszarów zagrożonych zalaniem w rejonie portu bostońskiego w wyniku prognozowanego wzrostu poziomu oceanu światowego (pod wpływem globalnego ocieplenia) Ocena zasięgu obszarów zagrożonych zalaniem w rejonie portu bostońskiego w wyniku prognozowanego wzrostu poziomu oceanu światowego (pod wpływem globalnego ocieplenia) Prognoza wzrostu poziomu o 1,9 m do końca obecnego stulecia Prognoza wzrostu poziomu o 1,9 m do końca obecnego stulecia Model DEM zawiera znany błąd – można zatem ocenić niepewność zasięgu obszarów zagrożonych zalaniem. Model DEM zawiera znany błąd – można zatem ocenić niepewność zasięgu obszarów zagrożonych zalaniem. Prawdopodobieństwo zalaniaObszar o 5% ryzyka zalaniaObszar o 25% ryzyka zalania

24 Niepewność relacji (zasady decyzyjnej) Drugim podstawowym elementem procesu decyzyjnego jest specyfikacja relacji zachodzących pomiędzy dowodami a zbiorem decyzyjnym Niepewność zawarta jest w ocenie kiedy obiekt należy do finalnego zbioru decyzyjnego i jako taka stanowi ogólną kategorię niepewnej przynależności, nazywaną miarami rozmytymi Niepewność zawarta jest w ocenie kiedy obiekt należy do finalnego zbioru decyzyjnego i jako taka stanowi ogólną kategorię niepewnej przynależności, nazywaną miarami rozmytymi Miary rozmyte to jakiekolwiek funkcje przynależności do zbiorów, które są monotoniczne Miary rozmyte to jakiekolwiek funkcje przynależności do zbiorów, które są monotoniczne Najważniejszymi przykładami miar rozmytych są prawdopodobieństwo Bayesa, przekonanie ( belief ) i wiarygodność ( plausibility ) Dempstera-Shafera i możliwość ( possibility ) zbiorów rozmytych Najważniejszymi przykładami miar rozmytych są prawdopodobieństwo Bayesa, przekonanie ( belief ) i wiarygodność ( plausibility ) Dempstera-Shafera i możliwość ( possibility ) zbiorów rozmytych

25 Niepewność relacji: Reguły agregacji danych rozmytych Zazwyczaj uznaje się, że rozmyte cechy stosują się do praw DeMorgana dotyczących tworzenie operatorów iloczynu and sumy zbiorów, a poprzez to podstawowych reguł propagacji niepewności w trakcie agregacji danych. Prawo DeMorgana zakłada relację trójkątną pomiędzy operatorami iloczynu, sumy i negacji w postaci: Zazwyczaj uznaje się, że rozmyte cechy stosują się do praw DeMorgana dotyczących tworzenie operatorów iloczynu and sumy zbiorów, a poprzez to podstawowych reguł propagacji niepewności w trakcie agregacji danych. Prawo DeMorgana zakłada relację trójkątną pomiędzy operatorami iloczynu, sumy i negacji w postaci: Gdzie: T = Iloczyn (AND) = T-norma S = Suma (OR) = T-CoNorma = Negacja (NOT) = Negacja (NOT)

26 Niepewność relacji: Reguły agregacji danych rozmytych Operatory iloczynu są w tym kontekście nazywane normami trójkątnymi ( triangular norms ), lub prosto T-Norms, natomast operatory sumowania – ko-normami trójkątnymi ( triangular co-norms ) lub T- CoNorms. Operatory iloczynu są w tym kontekście nazywane normami trójkątnymi ( triangular norms ), lub prosto T-Norms, natomast operatory sumowania – ko-normami trójkątnymi ( triangular co-norms ) lub T- CoNorms. T-Normy można definiować następująco: T-Normy można definiować następująco: odwzorowanie T: [0,1] * [0,1] -> [0,1] takie że: T(a,b) = T(b,a) przemienne T(a,b) >= T(c,d) jeśli a >= c i b >= d monotoniczne T(a,T(b,c)) = T(T(a,b),c) łączne T(1,a) = a Wybrane przykłady T-Norm: min(a,b) operator iloczynów zbiorów rozmytych a * b operator iloczynów prawdopodobieństw

27 Niepewność relacji: Reguły agregacji danych rozmytych Wybrane przykłady T-norm (kontynuacja): Wybrane przykłady T-norm (kontynuacja): 1 - min(1,((1-a) p + (1-b) p ) (1/p) ) dla p>=1 max(0,a+b-1) T-CoNormy można definiować następująco: T-CoNormy można definiować następująco: odwzorowanie S: [0,1] * [0,1] -> [0,1] S(a,b) = S(b,a) przemienne S(a,b) >= S(c,d) jeśli a >= c i b >= d monotoniczne S(a,S(b,c)) = S(S(a,b),c) łączne S(0,a) = a

28 Niepewność relacji: Reguły agregacji danych rozmytych Wybrane przykłady T-CoNorm: Wybrane przykłady T-CoNorm: max(a,b) operator sum zbiorów rozmytych a + b - a*b operator sum prawdopodobieństw min(1,(a p + b p ) (1/p) ) (dla p1) min(1,a+b) Przedstawione przykłady pokazują że agregacja cech rozmytych może być dokonywana przy użyciu bardzo szerokiego zestawu operatorów, stwarzając duże możliwości przy zestawianiu kryteriów w procesie decyzyjnym. Wśród różnych dostępnych operatorów najbardziej skrajnymi (to jest dającymi najbardziej zróżnicowane wyniki numeryczne) są operator minimalnej T-Normy i maksymalnej T- CoNormy. Mają one specjalne znaczenie również z powodu że stosowane są najczęściej wśród tych, które mają zastosowanie do zbiorów rozmytych. Poza tym wykazano, że stanowią one ekstremalne przypadki kontinuum pokrewnych operatorów agregacji które można generować w trakcie procedury średniej ważonej porządkowej (OWA). Przedstawione przykłady pokazują że agregacja cech rozmytych może być dokonywana przy użyciu bardzo szerokiego zestawu operatorów, stwarzając duże możliwości przy zestawianiu kryteriów w procesie decyzyjnym. Wśród różnych dostępnych operatorów najbardziej skrajnymi (to jest dającymi najbardziej zróżnicowane wyniki numeryczne) są operator minimalnej T-Normy i maksymalnej T- CoNormy. Mają one specjalne znaczenie również z powodu że stosowane są najczęściej wśród tych, które mają zastosowanie do zbiorów rozmytych. Poza tym wykazano, że stanowią one ekstremalne przypadki kontinuum pokrewnych operatorów agregacji które można generować w trakcie procedury średniej ważonej porządkowej (OWA).

29 Niepewność relacji (zasady decyzyjnej) Aktualnie do wyrażania niepewności zasady decyzyjnej stosowane są trzy główne reguły logiczne: teoria zbiorów rozmytych, teoria prawdopodobieństwa Bayesa i jej modyfikacja w postaci teorii Dempstera-Shafera. Każda z nich jest odmienna i charakteryzuje się własnym, specyficznym zestawem operatorów T-Norm/T-CoNorm. Aktualnie do wyrażania niepewności zasady decyzyjnej stosowane są trzy główne reguły logiczne: teoria zbiorów rozmytych, teoria prawdopodobieństwa Bayesa i jej modyfikacja w postaci teorii Dempstera-Shafera. Każda z nich jest odmienna i charakteryzuje się własnym, specyficznym zestawem operatorów T-Norm/T-CoNorm. Stwierdzono, że nie ma określonej grupy operatorów agregacji, która byłaby poprawna lub lepsza od innych. Różne sposoby wyrażania niepewności zasady decyzyjnej wymagają odmiennych procedur agregacji. Stwierdzono, że nie ma określonej grupy operatorów agregacji, która byłaby poprawna lub lepsza od innych. Różne sposoby wyrażania niepewności zasady decyzyjnej wymagają odmiennych procedur agregacji. Kontekst w którym jedna z nich powinna być użyta zamiast innej nie zawsze jest jasny. Jest to częściowo efektem faktu iż zasady decyzyjne mogą obejmować więcej niż jedną formę niepewności. Kontekst w którym jedna z nich powinna być użyta zamiast innej nie zawsze jest jasny. Jest to częściowo efektem faktu iż zasady decyzyjne mogą obejmować więcej niż jedną formę niepewności.

30 Niepewność relacji (zasady decyzyjnej) Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące: Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące: Problemy decyzyjne znajdujące się w zakresie kartowania przydatności do określonego celu można efektywnie rozwiązywać używając logiki zbiorów rozmytych. Jeśli definiujemy przydatność za pomocą czynników ciągłych (odległość od dróg, nachylenie terenu itp.), również sama przydatność jest ciągła. Nie ma wówczas sposobu wyraźnego odróżnienia obszarów które są jeszcze przydatne, o tych, które już są nieprzydatne. Wiele problemów alokacji zasobów w ramach GIS należy do tej kategorii, a zatem konsekwentnie do sfery zastosowań teorii zbiorów rozmytych. Problemy decyzyjne znajdujące się w zakresie kartowania przydatności do określonego celu można efektywnie rozwiązywać używając logiki zbiorów rozmytych. Jeśli definiujemy przydatność za pomocą czynników ciągłych (odległość od dróg, nachylenie terenu itp.), również sama przydatność jest ciągła. Nie ma wówczas sposobu wyraźnego odróżnienia obszarów które są jeszcze przydatne, o tych, które już są nieprzydatne. Wiele problemów alokacji zasobów w ramach GIS należy do tej kategorii, a zatem konsekwentnie do sfery zastosowań teorii zbiorów rozmytych.

31 Niepewność relacji (zasady decyzyjnej) Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Obecność problemów nieostrych w znaczeniu niejednoznacznych, nie zawsze oznacza, że należą one do zakresu stosowalności teorii zbiorów rozmytych. Niedokładność pomiarów na przykład, dotyczących obiektu (zbioru) o charakterze ostrym może spowodować konieczność użycia funkcji przynależności o identycznym charakterze jak te używane w przypadku zbiorów rozmytych. Decydującym kryterium użycia teorii zbiorów rozmytych powinno być stwierdzenie, że analizowany zbiór jest sam w sobie niejednoznaczny (nieostry: gorąco/ciepło/chłodno/zimno itp.). Obecność problemów nieostrych w znaczeniu niejednoznacznych, nie zawsze oznacza, że należą one do zakresu stosowalności teorii zbiorów rozmytych. Niedokładność pomiarów na przykład, dotyczących obiektu (zbioru) o charakterze ostrym może spowodować konieczność użycia funkcji przynależności o identycznym charakterze jak te używane w przypadku zbiorów rozmytych. Decydującym kryterium użycia teorii zbiorów rozmytych powinno być stwierdzenie, że analizowany zbiór jest sam w sobie niejednoznaczny (nieostry: gorąco/ciepło/chłodno/zimno itp.).

32 Niepewność relacji (zasady decyzyjnej) Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Rozmyta charakterystyka mająca postać braku przekonania to w zasadzie dziedzina teorii prawdopodobieństwa Bayesa i jej wariantu zwanego teorią Dempstera-Shafera. Problem stanowi tutaj pośredni charakter posiadanych informacji (danych). Posiadane dane nie dają możliwości bezpośredniego określenia przynależności do zbioru, lecz jedynie stanowią podstawę do przypuszczania o tej przynależności, a więc obarczone w pewnym stopniu niepewnością. Rozmyta charakterystyka mająca postać braku przekonania to w zasadzie dziedzina teorii prawdopodobieństwa Bayesa i jej wariantu zwanego teorią Dempstera-Shafera. Problem stanowi tutaj pośredni charakter posiadanych informacji (danych). Posiadane dane nie dają możliwości bezpośredniego określenia przynależności do zbioru, lecz jedynie stanowią podstawę do przypuszczania o tej przynależności, a więc obarczone w pewnym stopniu niepewnością. W swojej pierwotnej formie jednakże obie owe metody logiczne dotyczą potwierdzenia istnienia zbiorów ostrych – budzi wątpliwości jedynie siła relacji między posiadanymi danymi a zbiorem decyzyjnym. W swojej pierwotnej formie jednakże obie owe metody logiczne dotyczą potwierdzenia istnienia zbiorów ostrych – budzi wątpliwości jedynie siła relacji między posiadanymi danymi a zbiorem decyzyjnym. Najbardziej typowym przykładem jest procedura klasyfikacji nadzorowanej obrazów teledetekcyjnych. Na podstawie powierzchni testowych (tzw. training site ) metoda bayesowska klasyfikacji prowadzi do uzyskania relacji statystycznej pomiędzy danymi testowymi a wyznaczonymi klasami (zbiorem decyzyjnym), która ma postać warunkowej funkcji gęstości prawdopodobieństwa. W taki sposób uzyskujemy relację (nie w pełni precyzyjną, a więc niepewną), która umożliwia ocenę przynależności poszczególnych pikseli obrazu teledetekcyjnego do wyróżnionych klas (kategorii). Najbardziej typowym przykładem jest procedura klasyfikacji nadzorowanej obrazów teledetekcyjnych. Na podstawie powierzchni testowych (tzw. training site ) metoda bayesowska klasyfikacji prowadzi do uzyskania relacji statystycznej pomiędzy danymi testowymi a wyznaczonymi klasami (zbiorem decyzyjnym), która ma postać warunkowej funkcji gęstości prawdopodobieństwa. W taki sposób uzyskujemy relację (nie w pełni precyzyjną, a więc niepewną), która umożliwia ocenę przynależności poszczególnych pikseli obrazu teledetekcyjnego do wyróżnionych klas (kategorii).

33 Niepewność relacji (zasady decyzyjnej) Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Ogólne zalecenia dotyczące wyboru metody dla wyrażenia niepewności zasady decyzyjnej są następujące (kontynuacja): Niezależnie od ich wspólnej genezy agregacja danych przy użyciu narzędzi teorii Bayesa i Dempstera-Shafera może dawać znacząco różne wyniki. Niezależnie od ich wspólnej genezy agregacja danych przy użyciu narzędzi teorii Bayesa i Dempstera-Shafera może dawać znacząco różne wyniki. Podstawowa różnica dotyczy znaczenia braku informacji (danych). W teorii B. brak danych popierających konkretną hipotezę stanowi poparcie hipotezy alternatywnej. W teorii D.-S. takiego założenia nie ma. Podstawowa różnica dotyczy znaczenia braku informacji (danych). W teorii B. brak danych popierających konkretną hipotezę stanowi poparcie hipotezy alternatywnej. W teorii D.-S. takiego założenia nie ma. Z tego powodu mimo, że obie teorie zakładają że hipotezy rozważane w ramach analizy decyzyjnej są kompletne (to znaczy wyczerpują wszystkie istniejące możliwości) to teoria D.-S. uwzględnia możliwość braku wiedzy (ignorancji); a teoria B. tego nie dopuszcza. Z tego powodu mimo, że obie teorie zakładają że hipotezy rozważane w ramach analizy decyzyjnej są kompletne (to znaczy wyczerpują wszystkie istniejące możliwości) to teoria D.-S. uwzględnia możliwość braku wiedzy (ignorancji); a teoria B. tego nie dopuszcza. Inne różnica wiąże się z w podejściu bayesowskim łączone są informacje które są warunkowane hipotezami zbioru decyzyjnego (czyli oparte o bezpośrednie pomiary testowe), podczas gdy w ramach teorii D.-S. agregowane są informacje (dane) pochodzące z niezależnych źródeł (dane pośrednie). Inne różnica wiąże się z w podejściu bayesowskim łączone są informacje które są warunkowane hipotezami zbioru decyzyjnego (czyli oparte o bezpośrednie pomiary testowe), podczas gdy w ramach teorii D.-S. agregowane są informacje (dane) pochodzące z niezależnych źródeł (dane pośrednie).

34 Niepewność relacji: logika zbiorów rozmytych Iloczyn Rozmyte T-norm Suma Rozmyte T-conorm Zaprzeczenie log. Rozmyte dopełnienie

35 Niepewność relacji: logika zbiorów rozmytych

36 Niepewność relacji teoria prawdopodobieństwa Bayesa Kiedy zakładamy, że dostępna informacja jest kompletna, lub kiedy rzeczywiście mamy do czynienia z takim faktem wówczas zasadniczym narzędziem służącym do oceny relacji między pośrednimi dowodami a zbiorem decyzyjnym jest teoria prawdopodobieństwa Bayesa. Jest ona rozszerzeniem klasycznej teorii prawdopodobieństwa które pozwala na połączenie nowych danych dotyczących analizowanej hipotezy z wiedzą uprzednią aby uzyskać ocenę prawdopodobieństwa że hipoteza jest prawdziwa. Kiedy zakładamy, że dostępna informacja jest kompletna, lub kiedy rzeczywiście mamy do czynienia z takim faktem wówczas zasadniczym narzędziem służącym do oceny relacji między pośrednimi dowodami a zbiorem decyzyjnym jest teoria prawdopodobieństwa Bayesa. Jest ona rozszerzeniem klasycznej teorii prawdopodobieństwa które pozwala na połączenie nowych danych dotyczących analizowanej hipotezy z wiedzą uprzednią aby uzyskać ocenę prawdopodobieństwa że hipoteza jest prawdziwa. Podstawą tej teorii jest twierdzenie Bayesa które określa że: Podstawą tej teorii jest twierdzenie Bayesa które określa że: p(h|e) = prawdopodobieństwo prawdziwości hipotezy uwzględniające istniejące dowody (prawdopodobieństwo posteriori) p(e|h) = prawdopodobieństwo znalezienia dowodów prawdziwości hipotezy p(h) = prawdopodobieństwo prawdziwości hipotezy niezależne od dowodów (p. uprzednie = a priori)

37 Niepewność relacji teoria prawdopodobieństwa Bayesa Najprostszy przypadek obejmuje jedynie dwie hipotezy do wyboru: hipotezę h i jej dopełnienie ~h (nieprawda że h), prawdopodobieństwa których określane są odpowiednio jako p(h) i p(~h). Przykładem może niepewność czy dany obszar zostanie zalany w trakcie corocznej powodzi. Najprostszy przypadek obejmuje jedynie dwie hipotezy do wyboru: hipotezę h i jej dopełnienie ~h (nieprawda że h), prawdopodobieństwa których określane są odpowiednio jako p(h) i p(~h). Przykładem może niepewność czy dany obszar zostanie zalany w trakcie corocznej powodzi. Pierwszy problem który musimy rozważyć dotyczy istnienia jakiejś wiedzy uprzedniej o możliwości że jedna, lub druga hipoteza jest prawdziwa. Nazywana ona jest prawdopodobieństwem a priori. Jeśli takiej wiedzy nie mamy wtedy zakładamy, że obydwie hipotezy są jednakowo prawdopodobne. Na przykład jeśli w ciągu ostatnich stu lat analizowany obszar był zalany 65 razy to możemy przyjąć że prawdopodobieństwo a priori hipotezy h wynosi 0,65. Pierwszy problem który musimy rozważyć dotyczy istnienia jakiejś wiedzy uprzedniej o możliwości że jedna, lub druga hipoteza jest prawdziwa. Nazywana ona jest prawdopodobieństwem a priori. Jeśli takiej wiedzy nie mamy wtedy zakładamy, że obydwie hipotezy są jednakowo prawdopodobne. Na przykład jeśli w ciągu ostatnich stu lat analizowany obszar był zalany 65 razy to możemy przyjąć że prawdopodobieństwo a priori hipotezy h wynosi 0,65.

38 Niepewność relacji teoria prawdopodobieństwa Bayesa Wyrażenie p(e|h) oznacza prawdopodobieństwo, że posiadane dowody (dane) popierają możliwość, że oceniana hipoteza jest prawdziwa. Nazywane jest ono prawdopodobieństwem warunkowym i uzyskiwane jest na podstawie znanych faktów z obszarów pokrewnych wskazujących na prawdziwość hipotezy i zbierania danych do oceny, że dowody którymi dysponujemy są zgodne z hipotezą. Nazywamy je danymi twardymi mimo że często uzyskiwane są one na podstawie teoretycznej lub przy pomocy symulacji. Na przykład dysponujemy wynikami pomiarów stanów wody, które mają bardzo silny związek z prawdopodobieństwem wylewu wody. Wyrażenie p(e|h) oznacza prawdopodobieństwo, że posiadane dowody (dane) popierają możliwość, że oceniana hipoteza jest prawdziwa. Nazywane jest ono prawdopodobieństwem warunkowym i uzyskiwane jest na podstawie znanych faktów z obszarów pokrewnych wskazujących na prawdziwość hipotezy i zbierania danych do oceny, że dowody którymi dysponujemy są zgodne z hipotezą. Nazywamy je danymi twardymi mimo że często uzyskiwane są one na podstawie teoretycznej lub przy pomocy symulacji. Na przykład dysponujemy wynikami pomiarów stanów wody, które mają bardzo silny związek z prawdopodobieństwem wylewu wody. Wyrażenie p(h|e) jest prawdopodobieństwem posteriori tworzonym z połączenia wiedzy uprzedniej (a priori) i danych potwierdzających hipotezę. Dzięki uwzględnieniu dodatkowych informacji dotyczących hipotez prawdopodobieństwo każdej z nich jest modyfikowane aby uwzględnić nowe dane. Opiera się to na założeniu Teorii Bayesa że dostęp do pełnej informacji jest możliwy, a jedynym powodem braku dokładnej oceny prawdopodobieństwa jest niedostatek danych. Poprzez dodawanie kolejnych faktów do wiedzy uprzedniej teoretycznie można osiągnąć prawdziwą ocenę prawdopodobieństwa każdej z analizowanych hipotez. Wyrażenie p(h|e) jest prawdopodobieństwem posteriori tworzonym z połączenia wiedzy uprzedniej (a priori) i danych potwierdzających hipotezę. Dzięki uwzględnieniu dodatkowych informacji dotyczących hipotez prawdopodobieństwo każdej z nich jest modyfikowane aby uwzględnić nowe dane. Opiera się to na założeniu Teorii Bayesa że dostęp do pełnej informacji jest możliwy, a jedynym powodem braku dokładnej oceny prawdopodobieństwa jest niedostatek danych. Poprzez dodawanie kolejnych faktów do wiedzy uprzedniej teoretycznie można osiągnąć prawdziwą ocenę prawdopodobieństwa każdej z analizowanych hipotez.

39 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Teoria Dempstera – Shafera, rozszerzenie teorii prawdopodobieństwa Bayesa, pozwala w ramach oceny niepewności na wyrażenie niewiedzy. Podstawowym założeniem tej teorii jest istnienie w zakresie wiedzy obszarów ignorancji, oraz że przekonanie o prawdziwości danej hipotezy nie musi być koniecznie uzupełnieniem przekonania o jej negacji. Teoria Dempstera – Shafera, rozszerzenie teorii prawdopodobieństwa Bayesa, pozwala w ramach oceny niepewności na wyrażenie niewiedzy. Podstawowym założeniem tej teorii jest istnienie w zakresie wiedzy obszarów ignorancji, oraz że przekonanie o prawdziwości danej hipotezy nie musi być koniecznie uzupełnieniem przekonania o jej negacji. W ramach teorii D-S hipotezy są zdefiniowane w postaci hierarchicznej struktury wywodzącej się z podstawowego zbioru hipotez tworzących zakres domysłu. W ramach teorii D-S hipotezy są zdefiniowane w postaci hierarchicznej struktury wywodzącej się z podstawowego zbioru hipotez tworzących zakres domysłu. Jeśli na przykład zakres domysłu składa się z trzech podstawowych hipotez: {A, B, C}, to wówczas struktura hipotez dla których w ramach teorii D-S akceptowane są dowody, zawiera wszystkie możliwe kombinacje: [A], [B], [C], [A, B], [A, C], [B, C], i [A, B, C]. Pierwsze trzy z nich są nazywane hipotezami pojedynczymi (singleton) ponieważ zawierają tylko jeden podstawowy element. Pozostałe to hipotezy zbiorcze (non- singleton) składające się z więcej niż jednego elementu podstawowego. Jeśli na przykład zakres domysłu składa się z trzech podstawowych hipotez: {A, B, C}, to wówczas struktura hipotez dla których w ramach teorii D-S akceptowane są dowody, zawiera wszystkie możliwe kombinacje: [A], [B], [C], [A, B], [A, C], [B, C], i [A, B, C]. Pierwsze trzy z nich są nazywane hipotezami pojedynczymi (singleton) ponieważ zawierają tylko jeden podstawowy element. Pozostałe to hipotezy zbiorcze (non- singleton) składające się z więcej niż jednego elementu podstawowego.

40 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Przykładem może być decyzja o wydzielaniu klas [las liściasty] i [las iglasty] dla potrzeb kartowania pokrycia terenu. Dane pochodzące z panchromatycznego zdjęcia lotniczego umożliwiają jednak jedynie odróżnienie lasu od terenu bezleśnego, ale nie typu lasu. W tym właśnie przypadku możemy użyć takiego źródła danych do uzasadnienia hierarchicznej kombinacji [las liściasty, las iglasty]. Jasne jest, że wyraża to niepewność naszej wiedzy. Mimo to jest to jednak wartościowa informacja, która może być wykorzystana z dużą korzyścią przez procedurę D-S wraz innymi dowodami świadczącymi za tymi hipotezami. Przykładem może być decyzja o wydzielaniu klas [las liściasty] i [las iglasty] dla potrzeb kartowania pokrycia terenu. Dane pochodzące z panchromatycznego zdjęcia lotniczego umożliwiają jednak jedynie odróżnienie lasu od terenu bezleśnego, ale nie typu lasu. W tym właśnie przypadku możemy użyć takiego źródła danych do uzasadnienia hierarchicznej kombinacji [las liściasty, las iglasty]. Jasne jest, że wyraża to niepewność naszej wiedzy. Mimo to jest to jednak wartościowa informacja, która może być wykorzystana z dużą korzyścią przez procedurę D-S wraz innymi dowodami świadczącymi za tymi hipotezami. Hierarchiczna struktura hipotez w ramach teorii prawdopodobieństwa Dempstera - Shafera W ramach teorii D-S rozróżnia się te hierarchiczne zestawienia ponieważ często bywa tak, iż dowody którymi dysponujemy potwierdzają jakąś z kombinacji hipotez bez możliwości ich pojedynczego rozróżnienia. W ramach teorii D-S rozróżnia się te hierarchiczne zestawienia ponieważ często bywa tak, iż dowody którymi dysponujemy potwierdzają jakąś z kombinacji hipotez bez możliwości ich pojedynczego rozróżnienia.

41 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Do wyrażania stopnia zaangażowania w odniesieniu do jakiejkolwiek z tych hipotez w ramach teorii D-S używane jest sześć podstawowych pojęć: podstawowy przydział prawdopodobieństwa (basic probability assignment: BPA), niewiedza (ignorance), przekonanie (belief), brak przekonania (disbelief), wiarygodność (plausibility), i zakres przekonań (belief interval). Do wyrażania stopnia zaangażowania w odniesieniu do jakiejkolwiek z tych hipotez w ramach teorii D-S używane jest sześć podstawowych pojęć: podstawowy przydział prawdopodobieństwa (basic probability assignment: BPA), niewiedza (ignorance), przekonanie (belief), brak przekonania (disbelief), wiarygodność (plausibility), i zakres przekonań (belief interval). Podstawowy przydział prawdopodobieństwa (BPA) stanowi potwierdzenie, że posiadana porcja informacji popiera jedną z tych hipotez lecz nie ich podzbiory. Tak więc BPA dla [A,B] stanowi całość dowodów za [A,B], ale nie [A] lub [B] – to jest potwierdzeniem pewnej nierozróżnialnej kombinacji [A] i [B]. Jest to zazwyczaj zapisywane literą m (od masy) to jest: Podstawowy przydział prawdopodobieństwa (BPA) stanowi potwierdzenie, że posiadana porcja informacji popiera jedną z tych hipotez lecz nie ich podzbiory. Tak więc BPA dla [A,B] stanowi całość dowodów za [A,B], ale nie [A] lub [B] – to jest potwierdzeniem pewnej nierozróżnialnej kombinacji [A] i [B]. Jest to zazwyczaj zapisywane literą m (od masy) to jest: m(A,B) = podstawowy przydział prawdopodobieństwa dla [A, B]. Podstawowy przydział prawdopodobieństwa dla danej hipotezy może pochodzić z subiektywnych opinii lub danych empirycznych. Podstawowy przydział prawdopodobieństwa dla danej hipotezy może pochodzić z subiektywnych opinii lub danych empirycznych.

42 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Suma wszystkich BPA równa się zawsze 1. Tym samym BPA dla najwyższego super-zbioru (w podanym przykładzie [A, B, C]) będzie się równać dopełnieniu sumy wszystkich pozostałych BPA. Ten element zatem reprezentuje niewiedzę – niezdolność do dopuszczenia jakiegokolwiek zróżnicowania między elementami zakresu domysłu. Suma wszystkich BPA równa się zawsze 1. Tym samym BPA dla najwyższego super-zbioru (w podanym przykładzie [A, B, C]) będzie się równać dopełnieniu sumy wszystkich pozostałych BPA. Ten element zatem reprezentuje niewiedzę – niezdolność do dopuszczenia jakiegokolwiek zróżnicowania między elementami zakresu domysłu. Przekonanie (belief) stanowi sumę dowodów za daną hipotezą, i uzyskiwane może być z BPA wszystkich podzbiorów hipotezy, to jest: Przekonanie (belief) stanowi sumę dowodów za daną hipotezą, i uzyskiwane może być z BPA wszystkich podzbiorów hipotezy, to jest: Stąd wynika, że przekonanie o [A, B] może być obliczane jako suma BPA dla [A, B], [A], i [B]. W tym przykładzie przekonanie reprezentuje prawdopodobieństwo że obiekt jest A lub B. W przypadku hipotezy pojedynczej (singleton) podstawowy przydział prawdopodobieństwa (BPA) i przekonanie (belief) są takie same. Stąd wynika, że przekonanie o [A, B] może być obliczane jako suma BPA dla [A, B], [A], i [B]. W tym przykładzie przekonanie reprezentuje prawdopodobieństwo że obiekt jest A lub B. W przypadku hipotezy pojedynczej (singleton) podstawowy przydział prawdopodobieństwa (BPA) i przekonanie (belief) są takie same.

43 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera W przeciwieństwie do przekonania, wiarygodność reprezentuje stopień do jakiego hipoteza nie może być kwestionowana. W odróżnieniu od teorii prawdopodobieństwa Bayesa brak przekonania nie jest automatycznie dopełnieniem przekonania, lecz reprezentuje raczej poziom poparcia dla wszystkich hipotez które nie mają żadnego związku z hipotezą główną. Z tego wynika: W przeciwieństwie do przekonania, wiarygodność reprezentuje stopień do jakiego hipoteza nie może być kwestionowana. W odróżnieniu od teorii prawdopodobieństwa Bayesa brak przekonania nie jest automatycznie dopełnieniem przekonania, lecz reprezentuje raczej poziom poparcia dla wszystkich hipotez które nie mają żadnego związku z hipotezą główną. Z tego wynika: Można zatem stwierdzić że przekonanie obejmuje twarde dowody potwierdzające hipotezę, wiarygodność zaś stopień w jakim ogólne warunki (informacje) wydają się potwierdzać hipotezę, nawet jeśli brak jest twardych dowodów. W odniesieniu do każdej hipotezy przekonanie stanowi dolną granicę jej poparcia podczas gdy wiarygodność – górną. Różnica między nimi nazywana jest zakresem przekonań (belief interval). Stanowi on rozmiar niepewności co spełnienia się hipotezy. Można zatem stwierdzić że przekonanie obejmuje twarde dowody potwierdzające hipotezę, wiarygodność zaś stopień w jakim ogólne warunki (informacje) wydają się potwierdzać hipotezę, nawet jeśli brak jest twardych dowodów. W odniesieniu do każdej hipotezy przekonanie stanowi dolną granicę jej poparcia podczas gdy wiarygodność – górną. Różnica między nimi nazywana jest zakresem przekonań (belief interval). Stanowi on rozmiar niepewności co spełnienia się hipotezy.

44 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Nowe dowody (dane) największy przyrost informacji dają w obrębie obszarów o najszerszym zakresie przekonań. Teoria D-S jest zatem bardzo użyteczna przy ustalaniu wartości informacji i do planowania takiej strategii pozyskiwania danych która najbardziej efektywnie będzie zmniejszać zakres niepewności. Nowe dowody (dane) największy przyrost informacji dają w obrębie obszarów o najszerszym zakresie przekonań. Teoria D-S jest zatem bardzo użyteczna przy ustalaniu wartości informacji i do planowania takiej strategii pozyskiwania danych która najbardziej efektywnie będzie zmniejszać zakres niepewności. Przewaga teorii D-S w porównaniu do teorii Bayesa dotyczy lepszego radzenia sobie z problemem niepewności wynikającej z niewiedzy. W teorii prawdopodobieństwa Bayesa wyróżnia się jedynie hipotezy pojedyncze (singleton) i zakłada się, że razem wyczerpują one wszystkie możliwości (ich sumaryczne prawdopodobieństwo równa się 1). Niewiedza nie jest tu uwzględniana, a brak dowodów (danych) za hipotezą stanowi dowód przeciw niej (na rzecz hipotezy alternatywnej). Te wymagania i założenia często nie są spełniane w realnym świecie. Przewaga teorii D-S w porównaniu do teorii Bayesa dotyczy lepszego radzenia sobie z problemem niepewności wynikającej z niewiedzy. W teorii prawdopodobieństwa Bayesa wyróżnia się jedynie hipotezy pojedyncze (singleton) i zakłada się, że razem wyczerpują one wszystkie możliwości (ich sumaryczne prawdopodobieństwo równa się 1). Niewiedza nie jest tu uwzględniana, a brak dowodów (danych) za hipotezą stanowi dowód przeciw niej (na rzecz hipotezy alternatywnej). Te wymagania i założenia często nie są spełniane w realnym świecie. Przykładem może być ustalanie zasięgu siedliska określonego gatunku ptaka, na podstawie danych z raportów jego pojawiania się. Brak jednakże zapisu o jego zaobserwowaniu w danej lokalizacji nie musi koniecznie oznaczać, że on tam nie występuje. Może na przykład jedynie sugerować że obserwator nie był obecny w momencie kiedy ptak się tam pojawił, lub nie potrafił go zidentyfikować (dokonał błędnej identyfikacji). Przykładem może być ustalanie zasięgu siedliska określonego gatunku ptaka, na podstawie danych z raportów jego pojawiania się. Brak jednakże zapisu o jego zaobserwowaniu w danej lokalizacji nie musi koniecznie oznaczać, że on tam nie występuje. Może na przykład jedynie sugerować że obserwator nie był obecny w momencie kiedy ptak się tam pojawił, lub nie potrafił go zidentyfikować (dokonał błędnej identyfikacji).

45 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Pełna hierarchia hipotez i związanych z nimi BPA stanowi aktualny stan wiedzy, który może być rozszerzony w każdym momencie przez dodanie nowych informacji. W trakcie agregacji określeń prawdopodobieństwa pochodzących z różnych źródeł informacji w ramach teorii D-S stosowane są następujące reguły: Pełna hierarchia hipotez i związanych z nimi BPA stanowi aktualny stan wiedzy, który może być rozszerzony w każdym momencie przez dodanie nowych informacji. W trakcie agregacji określeń prawdopodobieństwa pochodzących z różnych źródeł informacji w ramach teorii D-S stosowane są następujące reguły: jeśli: to wówczas równanie przybiera postać:

46 Niepewność relacji teoria prawdopodobieństwa Dempstera - Shafera Końcowe przekonanie, wiarygodność i zakres przekonania dla każdej hipotezy może zostać obliczona w oparciu o podstawowy przydział prawdopodobieństwa wyliczony w oparciu o powyższe równania. Można wówczas również ocenić niewiedzę w odniesieniu do całego zbioru. W większości przypadków po dodaniu nowych danych, zakres niewiedzy ulega redukcji. Końcowe przekonanie, wiarygodność i zakres przekonania dla każdej hipotezy może zostać obliczona w oparciu o podstawowy przydział prawdopodobieństwa wyliczony w oparciu o powyższe równania. Można wówczas również ocenić niewiedzę w odniesieniu do całego zbioru. W większości przypadków po dodaniu nowych danych, zakres niewiedzy ulega redukcji. Podsumowanie teorii prawdopodobieństwa Dempstera – Shafera: Podsumowanie teorii prawdopodobieństwa Dempstera – Shafera: wywodzi się z teorii Bayesa wywodzi się z teorii Bayesa nie zakłada kompletności wiedzy na dany temat nie zakłada kompletności wiedzy na dany temat rozróżnia: rozróżnia: przekonanie (belief) = dowody potwierdzające hipotezę, przekonanie (belief) = dowody potwierdzające hipotezę, wiarygodność (plausibility) = brak dowodów przeciw hipotezie wiarygodność (plausibility) = brak dowodów przeciw hipotezie zakres przekonań (belief interval) = niepewność pojedynczej hipotezy zakres przekonań (belief interval) = niepewność pojedynczej hipotezy

47 Carter Center Prognozowanie podatności ludności Sudanu na zakażenie robaczycą gwinejską ( Guinea worm ) Robaczyca gwinejska to choroba wywoływana przez pasożyta żyjącego w wodzie. Rozprzestrzenia się w efekcie picia zanieczyszczonej wody. Zakażenie można łatwo uniknąć pijąc wodę ze studni lub filtrując tą która pochodzi ze źródeł powierzchniowych. Źródło: Elliott, S., and Lazar, A.,: Predicting the Vulnerability of Populations in Sudan to the Guinea Worm Parasite using Dempster-Shafer Weight-of-Evidence Theory. IDCE and Geography Departments GIS for Development and Environment, Clark University, 950 Main Street, Worcester, MA 01610

48 Od dziesięcioleci trwa konflikt północ – południe, pomiędzy muzułmańskim rządem w Chartumie, a chrześcijańskimi lub animistycznymi ludami południa Sudanu. Kilka lat temu rozpoczęła się nowa wojna domowa obejmująca zachodnie prowincje państwa - Darfur. Wojny domowe w Sudanie

49 Dziesięć krajów afrykańskich o największym stopniu zakażenia robaczycą gwinejską

50 Cykl życiowy pasożyta

51 Usuwanie pasożyta Carter Center Ze względu na brak infrastruktury i niestabilną sytuację polityczną w wielu przypadkach uszkodzone pompy w studniach głębinowych nie są naprawiane co zmusza ludzi do poszukiwania alternatywnych, ale zanieczyszczonych, źródeł wody. Usuwanie pasożyta jest bolesne i trwa wiele dni. Pasożyt jest wyciągany po 5 do 7,5 cm na dzień, a niektóre okazy mogą osiągać nawet do 1 metra długości. Związane jest z tym duże ryzyko niebezpiecznych ubocznych infekcji, jeśli pasożyt ulegnie przerwaniu lub zginie w trakcie operacji usuwania.

52 Dane Ogólna mapa pokrycia terenu Wybrane klasy pokrycia terenu Ekstrakcja warstw

53 Przygotowanie map czynników podatności na robaczycę Mapa odległości Zasięg ograniczonego ryzyka Warstwa podstawowa Obliczenia odległości Definicja czynnika ryzyka

54 Odległość (km) d c Prawdopodobieństwo Funkcje rozmytej przynależności Do modelowania wpływu dróg użyto monotonicznie malejącej funkcji J-kształtnej

55 Czynniki wpływające na kontakt z zakażoną wodą Czynniki wpływające na dostęp do edukacji i infrastruktury Zbiorniki wodne Powodzie sezonowe Długotrwałe powodzie Małe miasta Epizodyczne powodzie Główne miasta Drogi Obszary zagospodarowane Zestaw danych Małe miasta

56 Moduł BELIEF Idrisi

57 Przekonanie ( belief )

58 Wiarygodność ( plausibility )

59 Zakres przekonań ( belief interval )

60 BeliefPlausibilityBelief interval Wyniki Wyniki wskazują, że największa podatność na robaczycę gwinejską występuje na południu Sudanu. Potwierdzają to dane Centrum Ochrony Epidemiologicznej.


Pobierz ppt "Komputerowe wspomaganie podejmowania decyzji Wykład dla V roku Geoinformacji rok akademicki 2007/2008 Alfred Stach Instytut Paleogeografii i Geoekologii."

Podobne prezentacje


Reklamy Google