PROBABILISTIC DISTANCE MEASURES FOR PROTOTYPE-BASED RULES

Slides:



Advertisements
Podobne prezentacje
Inteligencja Obliczeniowa Metody oparte na podobieństwie do wzorców.
Advertisements

Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Logiki (nie)klasyczne
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych.
J. Kacperska D. Polewski J. Kacperska D. Polewski I al.
-Witam nazywam się Weronika Zgorzelska oraz Oliwia Kołakowska. -Witam serdecznie 1.Od kiedy pan gra w FC Barcelonie… -W FC Barcelonie gram od 13 roku.
Zestawienie wyników badań Researches summary. 1. Czy Twoi rodzice uprawiają jakieś sporty lub w inny aktywny sposób spędzają wolny czas poświęcając im.
POLISH FOR BEGINNERS.
How to make an application on Step by Step Instructions
SHOPPING- ROBIENIE ZAKUPÓW.
Ministerstwo Rozwoju Regionalnego, pl. Trzech Krzyży 3/5, Warszawa; Experiences with macromodelling for assessing.
Wydział Elektroniki Kierunek: AiR Zaawansowane metody programowania Wykład 5.
 Primary School no 17  John Paul II, Chorzow, Poland  Made by Monika Winkler`s Project Group.
REMEMBER THE HUMAN Netykieta - Netiquette 1. Staraj się zawsze pisać na temat. Przed wzięciem udziału w dyskusji zapoznaj się z tematyką sporu. 2. Przemyśl.
Rights of the child. Kliknij, aby edytować format tekstu konspektu Drugi poziom konspektu  Trzeci poziom konspektu Czwarty poziom konspektu  Piąty poziom.
Much, many, a lot of, some,any
Polsko-Norweski Fundusz Badań Naukowych / Polish-Norwegian Research Fund Testowanie metriksów czyli do czego jesteśmy zobowiązani zapisami aplikacji Warsztaty.
Wstęp do Fizyki Środowiska - Podstawy mechaniki płynów Problems 1 Lecture 1 1)In a vertical capillary filled with water air bubbles are rising Sketch the.
CROSSWORD: SLANG. Konkurs polega na rozwiązaniu krzyżówki. CROSSWORD: SLANG Wypełnione karty odpowiedzi prosimy składać w bibliotece CJK, lub przesyłać.
… there was someone in the past who said: „To earn million you need billion”. In my opinion, it’s true.
Did you know?. 1 in 8 people living in Britain live in London, 12 million people live in London - this is a major European city London is the world largest.
Krzysztof Murawski UMCS Lublin Stochastyczny efekt Dopplera.
Paulina Kowalczyk Dominika Struzik I LO Tadeusz Kosciuszko in Wielun POLAND.
Ewolucja szkoły ku elastycznemu systemowi kształcenia M.M. Sysło Outreach to Prospective Informatics and Computer Engineering Students Maciej M. Sysło.
Assessment of the impact of regular pilates exercises on static balance in healthy adult women. Preliminary report. 1 Rehabilitation Department, Division.
Andrzej Pownuk 1/138 Numerical solutions of fuzzy partial differential equation and its application in computational.
You are about to see a few sentences in Polish. Try to translate them into English, but keep in mind they are: The First Conditonal The Second Conditional.
Adaptive, Component Based System Architecture for Monitoring Data Storing Distributed Systems Research Group Department of Computer Science AGH-UST Cracow,
Short presentation of the new Museum of PRL in Ruda Śląska. 1. Quick reminder or information about Polish history. 2. What is PRL and the most typical.
Do “green”, residential properties exist in Wroclaw’s county? Malgorzata Sliczna Department of Ecological Economics Wroclaw University of Economics
Assessment of influence of short-lasting whole-body vibration on joint position sense and body balance – a randomised masked study Rehabilitation Department,
1 Summary of the survey on dedicated bus lanes EMTA GM, , Budapest Tamás Dombi, ZTM Warsaw.
JOB SEARCH IS A JOB Career planning is building bridges from one’s current job/career.
Gini index measures the extent to which the distribution of income (or, in some cases, consumption expenditure) among individuals or.
ESTONIA´S DOINGS SEPT.-NOV What has been done so far...
historical entanglement Jagiellonian University 1364 Collegium Maius at the University since 1400.
Wyższa Szkoła Pedagogiczna im. Janusza Korczaka w Warszawie Internet security risk management Prof. Artis Teilans, Aleksandrs Larionovs.
Marcin Gliński Instytut Języków Romańskich i Translatoryki UŚ Regionalny Ośrodek Doskonalenia Nauczycieli WOM w Katowicach NOCNE POWTÓRKI MATURALNE 2016.
2. SCHOOL School subjects, school activities. Types of schools – vocabulary rodzaje szkół - słownictwo kindergartenprimary school lower secondary school.
7 Międzynarodowa Konferencja INŻYNIERIA PRODUKCJI – r. Wrocław Piotr Garbacz INTEGRATED VISION SYSTEMS VERSUS CUSTOM SOLUTIONS FOR.
Polish is a Slavic language spoken primarily in Poland, being the mother tongue of Poles. It belongs to the West Slavic languages. Polish is the official.
Radialne Funkcje Bazowe i algorytmy aproksymacyjne Sieci Neuronowe Wykład 15 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch.
1 High Speed Rail for Central Europe? Tomeš, Z. – Jandová, M. – Seidenglanz, D. INSTITUTE FOR TRANSPORT ECONOMICS, GEOGRAPHY AND POLICY.
Analiza danych genomicznych metodami statystycznymi i inteligencji obliczeniowej Wiktor Młynarski
Www,mojesilnedrzewo.pl. W dniach 15 marca – 30 kwietnia 2010.r.wytwórnia wody mineralnej Żywiec Zdrój SA wspólnie z Fundacją Nasza Ziemia i Regionalną.
Opracowanie: Katarzyna Gagan, Anna Krawczuk
„Forests in Poland and Europe. Characteristics and management.”
„Forest fire protection in Poland and Europe”
Radialne Funkcje Bazowe i algorytmy aproksymacyjne
Przetestuj Usability Mateusz Kaczmarek
Trudny czy łatwy labirynt?
SafeSurfing Moduł 1 Jak bezpiecznie korzystać z internetu i jak chronić swoje dane osobowe?
European Insolvency Regulation
Wojciech Kubissa, Roman Jaskulski, Krzysztof Pietrzak
A prototype of distributed modelling environment
Managed Service Identity dla zasobów w Microsoft Azure
Running Dictation Activity to Engage Students in Reading, Writing, Listening, and Speaking.
EMPOWEREMENT IN ICT SKILLS. I CREATED MY WEBSITE TO USE IT FOR TEACHING.
Lesson 11 – Problem Solving & Applications of Functions
System rzymski Roman system
Wydział Informatyki i Nauki o Materiałach
Polish L3 Learning Pack Saying your name
Sport in Bydgoszcz There are many clubs in Bydgoszcz where people practise various sports, e.g. athletics, rowing, speedway, basketball, volleyball and.
zl
1) What is Linux 2) Founder and mascot of linux 3) Why Torvalds created linux ? 4) System advantages and disadvantages 5) Linux distributions 6) Basic.
Cover page Change background image by right-clicking → Edit background Picture fill → From file First move the gradient mask by activating it (clicking.
SatMapping Your map from space Cover page
Combining chemical and biological methods for integrated environmental assessment The safety and quality of environment (living space, human and animal.
Zapis prezentacji:

PROBABILISTIC DISTANCE MEASURES FOR PROTOTYPE-BASED RULES Marcin Blachnik, Tadeusz Wieczorek Department of Electrotechnology Faculty of Materials Engineering & Metallurgy, The Silesian University of Technology, Poland Włodzisław Duch Department of Informatics, Nicolaus Copernicus University, Poland, School of Computer Engineering, Nanyang Technological University Singapore.

Outline Type of rules What are prototype rules? Heterogeneous distance function Probability density function (PDF) estimation Results Conclusions ICONIP 2005 Taiwan

Types of rules Crisp logical rules. Rough sets and logic. Fuzzy rules (F-rules). Prototype rules (P-rules) – most general? P-rules with additive similarity functions may be converted into the neurofuzzy rules with “natural” membership functions, including nominal features. P-rules do not need the feature space. There are many neurofuzzy programs, but no P-rules so far. Krótko o typach reguł – cechy reguł twardych, zbiorów przybliżonych i rozmytych, na koniec nowe reguły prototypowe ICONIP 2005 Taiwan

Motivation Understanding data, situations, recognizing objects or making diagnosis people frequently use similarity to known cases, and rarely use logical reasoning, but soft computing experts use logic instead of similarity ... Relations between similarity and logic are not clear. Q1: How to obtain the same decision borders in Fuzzy Logic systems and Prototype Rule Based systems? Q2: What type of similarity measure corresponds to a typical fuzzy functions and vice versa? Q3: How to transform one type of a system into another type preserving their decision borders? Q4: Are there any advantages of such transformations? Q5: Can we understand data better using prototypes instead of logical rules? ICONIP 2005 Taiwan

Example Ograniczenia klasycznych reguł twardych - dwa Gausy – optymalna Bayesowska granica jest liniowa granica systemów regułowych twardych granica uzyskana dla systemów prototypowych, również możliwa do uzyskania dla systemów rozmytych ICONIP 2005 Taiwan

Prototype rules - advantages Inspired by cognitive psychology: understanding data, situations, recognizing objects or making diagnosis people frequently use similarity to known cases, and rarely use logical reasoning. With Heterogeneous Distance Functions P-rules supports all types of attributes: continues, discrete, symbolic and nominal, while F-rules require numerical inputs. Locally linear decision borders to avoid overfitting. Many algorithms for prototype selection and optimization exist but they have not been applied to understand data. Applications of P-rules to real datasets give excellent results generating small number of prototypes. Zalety reguł prototypowych ICONIP 2005 Taiwan

Prototype rules - learning Learning process involves: select similarity or dissimilarity (distance) functions model optimization: the number and positions of prototypes Decision making task consist of: calculating distance (similarity) to each prototype assigning P-rule to calculate the output class as a rule Nearest Neighbour rule: If P=argminp’(D(X,P’)) Then Class(X)=Class(P) Threshold rule: If D(X,P)≤dp Then Class(X)=Class(P) Taking D(X,P) - Chebychev distance crisp logic rules are obtained Krótko jak działają i przykłady różnych typów reguł możliwych do uzyskania z reguł prototypowych – Chebychev -> klasyczna logika ICONIP 2005 Taiwan

Applications to real data (ICONIP’2004) Gene expression data for 2 types of leukaemia (Golub et al, Science 286 (1999) 531-537 Description: 2 classes, 1100 features, 3 most relevant selected. Used methods: 1 prototype/class LVQ, DVDM similarity measure. Results (number of misclassified vectors): Data Set Golub et al P-rules Train 3 Test 5 Searching for Promoters in DNA strings Description: 2 classes, 57 features, all symbolic features. Used methods: 9 prototypes for promoters, 12 for nonpromoters, generated using C-means + LVQ, with VDM similarity measure. Results: 5 misclassified vectors in leave one out test. ICONIP 2005 Taiwan

Distance (similarity) functions N – number of attributes K – number of classes Input vectors X=[x1, x2, … , xN]T Y=[y1, y2, … , yN]T q – exponent value P(Ci|x) - posterior probab. for symbolic features, estimated as P(Ci|x)=ni /n Continuous attributes Probabilistic Metrics Typy miar odległości prawdopodobieństwa i klasycznej miary odległości Dwa typy funkcji heterogenicznych -> 1) mieszana Minkowski + Miary probabilistyczne 2) tylko miary probabilistyczne ICONIP 2005 Taiwan

Heterogeneous distance function Combine contributions from symbolic and real-valued features to get the distance. or use only probabilistic measures Typy miar odległości prawdopodobieństwa i klasycznej miary odległości Dwa typy funkcji heterogenicznych -> 1) mieszana Minkowski + Miary probabilistyczne 2) tylko miary probabilistyczne ICONIP 2005 Taiwan

Probability density function estimation Problem: how to combine influence of nominal/symbolic? 1. Normalization – continuous  symbolic 2. Estimation – continuous attributes => prob. If estimation, then several options to get probabilities: Discretization (DVDM) Discretization + Interpolation (IVDM) Gaussian kernel estimation (GVDM) Rectangular Parzen window (LVDM) Rectangular moving Parzen window (PVDM) Dla 1) problem z normalizacją odległości probabilistycznych i klasycznych typu Minkowskiego Dla 2) Konieczność Estymacji PDF dla danych ciągłych Porównane typu estymacji PDF ICONIP 2005 Taiwan

3 overlapping Gaussians in 4D, good parameters for estimation. Discretization Discretization & Interpolation Gaussian kernel Rect. Parzen window Moving Parzen windows. Porównanie jakości estymacji PDF dla różnych metod dla 3 nakładających się Gausów, dobrze dobrane parametry 3 overlapping Gaussians in 4D, good parameters for estimation. ICONIP 2005 Taiwan

3 overlapping Gaussians in 4D, bad parameters for estimation. Discretization Discretization & Interpolation Gaussian kernel Moving Parzen wind. Rect. Parzen window Porównanie dla tych samych danych przy złym doborze parametrów estymacji 3 overlapping Gaussians in 4D, bad parameters for estimation. ICONIP 2005 Taiwan

Testing and comparison procedure Two artificial datasets for testing, 2D 200 vectors/class uniform distribution 200 vectors/class normal distribution 6 real datasets with mixes symbolic/real features. Flags (UCI repository) Glass (UCI repository) Promoters (UCI repository) Wisconsin Brest Cancer, WBC (UCI repository) Pima Indians diabetes (UCI repository) Lancet (from A.J. Walker, S.S. Cross, R.F. Harrison, Visualization of biomedical datasets by use of growing cell structure networks: a novel diagnostic classification technique. Lancet Vol. 354, pp. 1518-1522, 1999.) For all tasks 10 fold CV test procedure is used. Opis danych użytych do porównania oraz omówienie zbiorów sztucznych – jeden to 3 gausy a drugi to trzy rozkłady jednaostajne ICONIP 2005 Taiwan

Classification results Results on artificial datasets. Left: Gaussian distributed. Right: uniform distributed. Similar results, except for convergence problems. Datasets with all symbolic or discrete values. leave-one-out results. Wyniki dla zbiorów sztucznych z zaznaczonymi najlepszymi wartościami oraz przekreślone wartości ze źle dobranymi parametrami estymacji -> np.. okno mniejsze od kroku Wyniki dla zbiorów z danymi symbolicznymi i dyskretnymi ICONIP 2005 Taiwan

Real datasets Wyniki dla pozostałych realnych zbiorów z zaznaczonymi najlepszymi wartościmi Jak widać nie ma najlepszej metody ICONIP 2005 Taiwan

Results & discussion Selection of appropriate parameters is very important. Incorrect values if one uses: too small sigma (Gaussian Estimation); too narrow window (Rectangular Parzen Window estimations) too many bins in discretization. Increased sensitivity of estimation methods => overfitting if too high sigma (Gaussian Estimation); too wide window (Rectangular Parzen Window estimations) Low number of bins in discretization. Decreased sensitivity of estimation methods leading to over-generalization. Middle values of parameters are best start points leading to good results (0.5, Parzen width0.5, Parzen step  0.01) Wnioski ICONIP 2005 Taiwan

Some conclusions First step in understanding relations between fuzzy and similarity-based systems. Prototype rules can be expressed using fuzzy rules and vice versa leading to new possibilities in both fields: new type of membership functions & new type of distance functions. Expert knowledge can be captured in any kind of rules, but sometimes it may be more natural to express knowledge as P-rules (similarity) or as F-rules (logical conditions). VDM measure used in P-rules leads to a natural shape of membership functions in fuzzy logic for symbolic data. There is no best choice of heterogeneous distance function type or PDF estimation method or probability metrics. Simplest methods may lead to good results. Selection of appropriate parameters is very important. P-systems should be as popular as neurofuzzy systems, although many open problems still remain, both theoretical and practical. Wnioski ICONIP 2005 Taiwan

Thank you for lending your ears ...