Wizualizacja SOM Skalowanie Wielowymiarowe

Slides:



Advertisements
Podobne prezentacje
Projekt Do kariery na skrzydłach – studiuj Aviation Management Projekt współfinansowany ze ś rodków Europejskiego Funduszu Społecznego. Biuro projektu:
Advertisements

Logiki (nie)klasyczne
-Witam nazywam się Weronika Zgorzelska oraz Oliwia Kołakowska. -Witam serdecznie 1.Od kiedy pan gra w FC Barcelonie… -W FC Barcelonie gram od 13 roku.
Zestawienie wyników badań Researches summary. 1. Czy Twoi rodzice uprawiają jakieś sporty lub w inny aktywny sposób spędzają wolny czas poświęcając im.
Relaks przy śpiewie i muzyce
Author: Welcome to London's history and culture.
Projekt Szkolny Socrates - Comenius NAUCZANIE TOLERANCJI
Music: Nightengale Serenade
SZKOŁA Z KLASĄ 2.0 English SOS.
SHOPPING- ROBIENIE ZAKUPÓW.
Wydział Elektroniki Kierunek: AiR Zaawansowane metody programowania Wykład 5.
 Primary School no 17  John Paul II, Chorzow, Poland  Made by Monika Winkler`s Project Group.
HAIRDRESSING.
Rights of the child. Kliknij, aby edytować format tekstu konspektu Drugi poziom konspektu  Trzeci poziom konspektu Czwarty poziom konspektu  Piąty poziom.
Przetwarzanie sprzedaży z wykorzystaniem strony trzeciej (bez awiza dostawy) SAP Best Practices.
Much, many, a lot of, some,any
Polsko-Norweski Fundusz Badań Naukowych / Polish-Norwegian Research Fund Testowanie metriksów czyli do czego jesteśmy zobowiązani zapisami aplikacji Warsztaty.
Wstęp do Fizyki Środowiska - Podstawy mechaniki płynów Problems 1 Lecture 1 1)In a vertical capillary filled with water air bubbles are rising Sketch the.
CROSSWORD: SLANG. Konkurs polega na rozwiązaniu krzyżówki. CROSSWORD: SLANG Wypełnione karty odpowiedzi prosimy składać w bibliotece CJK, lub przesyłać.
… there was someone in the past who said: „To earn million you need billion”. In my opinion, it’s true.
DEMO Jak założyć konto na Microsoft Virtual Academy?
Zwrot going to – określa nasze plany na przyszłość lub przewidywania:
Les meilleures photos de L'année 2005 D'après NBC A life for two, full of tenderness, obtains happiness as they get closer to heaven. Życie we dwoje,
Paulina Kowalczyk Dominika Struzik I LO Tadeusz Kosciuszko in Wielun POLAND.
„Duck – freak” „ Kaczka Dziwaczka”.
Assessment of the impact of regular pilates exercises on static balance in healthy adult women. Preliminary report. 1 Rehabilitation Department, Division.
Is waste harmful to nature and economic? What is waste? Waste means all objects and soild substance and also useless liquid substances which are not.
Andrzej Pownuk 1/138 Numerical solutions of fuzzy partial differential equation and its application in computational.
You are about to see a few sentences in Polish. Try to translate them into English, but keep in mind they are: The First Conditonal The Second Conditional.
Adaptive, Component Based System Architecture for Monitoring Data Storing Distributed Systems Research Group Department of Computer Science AGH-UST Cracow,
Assessment of influence of short-lasting whole-body vibration on joint position sense and body balance – a randomised masked study Rehabilitation Department,
Karol Więsek PwC Abusing APNs for profit. Historia: audyt sieci jednego z operatorów Po powrocie: „czyste” karty SIM.
JOB SEARCH IS A JOB Career planning is building bridges from one’s current job/career.
Od Feynmana do Google’a Rafał Demkowicz-Dobrzański,, Wydział Fizyki UW.
Przetłumacz podane w nawiasach fragmenty zdań na j. angielski.
Gini index measures the extent to which the distribution of income (or, in some cases, consumption expenditure) among individuals or.
Writing Ewa Hołubowicz 23 października 2015 Plan  Typy zadań  Cechy wspólne  Instrukcja  Ocena.
T T he forest is the most complex ecosystem in the world. I I t creates a kind of ecosystem in which interdependent of each other plants, animals, soil,
Wyższa Szkoła Pedagogiczna im. Janusza Korczaka w Warszawie Internet security risk management Prof. Artis Teilans, Aleksandrs Larionovs.
Marcin Gliński Instytut Języków Romańskich i Translatoryki UŚ Regionalny Ośrodek Doskonalenia Nauczycieli WOM w Katowicach NOCNE POWTÓRKI MATURALNE 2016.
2. SCHOOL School subjects, school activities. Types of schools – vocabulary rodzaje szkół - słownictwo kindergartenprimary school lower secondary school.
7 Międzynarodowa Konferencja INŻYNIERIA PRODUKCJI – r. Wrocław Piotr Garbacz INTEGRATED VISION SYSTEMS VERSUS CUSTOM SOLUTIONS FOR.
C PRZEWODNIK PO NAJCIEKAWSZYCH MIEJSCACH WROCŁAWIA - GUIDE TO THE MOST INTERESTING PLACES OF WROCLAW Cześć jestem Krzysztof. Dziś będę pokazywał Ci Najciekawsze.
Co Pan robi? Kim Pani jest? This project has been funded with support from the European Commission. This document reflects the views only of the authors,
Important holidays and festivals in Poland. The first of January New Year’s Day New Year’s Day the day of Mary the Holy Mother of God – for Catholics.
Dzień dobry! Cześć! This project has been funded with support from the European Commission. This document reflects the views only of the authors, and.
CIECHANÓW My town Author: Irena Ulinska. MÓJ CEL nauczę się prezentować i uzyskiwać w języku angielskim najważniejsze informacje o swoim mieście powiatowym;
Opracowanie: Katarzyna Gagan, Anna Krawczuk
„Forests in Poland and Europe. Characteristics and management.”
Radialne Funkcje Bazowe i algorytmy aproksymacyjne
Forest fire protection
Fire protection in Poland and Europe
Wojciech Kubissa, Roman Jaskulski, Krzysztof Pietrzak
Hydrolysis & buffers.
A prototype of distributed modelling environment
Running Dictation Activity to Engage Students in Reading, Writing, Listening, and Speaking.
EMPOWEREMENT IN ICT SKILLS. I CREATED MY WEBSITE TO USE IT FOR TEACHING.
Lesson 11 – Problem Solving & Applications of Functions
Wykład 6 Neuropsychologia komputerowa
metody współczesnej statystyki
Wydział Informatyki i Nauki o Materiałach
Polish L3 Learning Pack Saying your name
PROBABILISTIC DISTANCE MEASURES FOR PROTOTYPE-BASED RULES
zl
1) What is Linux 2) Founder and mascot of linux 3) Why Torvalds created linux ? 4) System advantages and disadvantages 5) Linux distributions 6) Basic.
Beata Charkiewicz. Table of Contents  Introduction To Android  History Of Android  What is OHA?  Devices with android  Android Features  Android.
SatMapping Your map from space Cover page
MODELOWANIE ZMIENNOŚCI CECH
Perceptrony wielowarstwowe, wsteczna propagacja błędów
Zapis prezentacji:

Wizualizacja SOM Skalowanie Wielowymiarowe Wykład 7 Włodzisław Duch Uniwersytet Mikołaja Kopernika Google: W. Duch (c) 1999. Tralvex Yeap. All Rights Reserved

Problemy z SOM SOM and its variants become so popular because they allow for visualization of data clusters, unsupervised classification. SOM does not guarantee faithful approximation to probability density of data samples (too many nodes are placed in areas with a few vectors only), but there are ways to correct it: Ex: M. Van Hulle, Faithful Representations and Topographic Maps From Distortion to Information-based Self-organization. Wiley 2000 Quantization error is useful as an estimate of the quality of approximation by SOM, but it is not useful to measure distortions in visualization. How to visualize clusters in topographically correct way? Multi-Dimensional Scaling, MDS, is our best answer. (c) 1999. Tralvex Yeap. All Rights Reserved

MDS: idea MDS, Multi-Dimensional Scaling (Thorton 1954, Kruskal 1964), zwane także mapowaniem Sammona Sammon 1964) Inspirations mostly from psychology, or psychometrics! Problem: visual representation of dissimilarity data. Information about the clusters in data is in relations between maxima of probability densities of finding data vectors. Visualization of multidimensional data leads to some topographical distortions, so a measure of these distortions is required. How different are the distances in the original, d-dimensional space, and in the target space, usually 2-dimensional? (c) 1999. Tralvex Yeap. All Rights Reserved

MDS algorytm Data (feature) space XRd, vectors X(i), i=1.. n represented by points Y in the target space, usually YR2. Distances Rij = ||X(i)-X(j)|| between X(i) and X(j) in feature space Rd; distances rij = ||Y(i)-Y(j)|| in target space R2. Find mapping X Y=M(X) that minimizes some global index of topographical distortion, based on differences between Rij and rij. r=r(Y), so E(r) depends on 2n adaptive parameters Y; 3 are redundant: Y(1)=(0,0)T, choosing coordinate center, and Y1(2)=0 choosing orientation of the coordinate center. Initialize Y randomly or using PCA, minimize E(r(Y)) (c) 1999. Tralvex Yeap. All Rights Reserved

Miary zniekształceń Any non-negative function f(Rij,rij) may be used. Weights may depend on the distance, for example decreasing exponentially for large Rij distances. Various normalization factors may be introduced, but those that do not depend on the rij distances have no influence on the MDS map. Information loss; 0 = no loss, perfect representation, 1 = all lost, no info, ex. rij=0 (c) 1999. Tralvex Yeap. All Rights Reserved

Klasyczne miary MDS Stress (Kruskal), or absolute error, large distances may dominate, preserves overall cluster structure. Sammon measure, or intermediate error, contributions from large distances is reduced. Relative error, all distance scales treated in the same way. Alienation coefficient (Guttman-Lingoes) – similar to relative error, but more difficult to minimize. (c) 1999. Tralvex Yeap. All Rights Reserved

Metryczny i nie-metryczny MDS MDS does not require original X vectors, only Rij distances, that may be interpreted as dissimilarities of X(i) and X(j) objects. Gradient iterative minimization procedures for MDS may be formulated, but the problem is difficult: 2n-3 variables for minimization, stress and other functions have multiple minima. 1 4 3 2 5 Sometimes its easy Some measurements (especially in psychology) are very inaccurate. Instead of precise distances ordinal, or non-metric, information may be used, if ranking is established: X1 is more similar to X2 than to X3. Measures of distortions use Dij = F(Rij), where F() may be any function preserving the ranking. (c) 1999. Tralvex Yeap. All Rights Reserved

MDS vs. SOM Questions: 1) How good are SOM maps (in the sense of MDS measures)? (not quite fair, because SOM does not optimize these!) 2) How optimal maps look like ? Problem: there is no function mapping X  Y ! Adding new point on the map requires new minimization; mapping function may be written only for a fixed number of points. Maps with large stress: zoom on smaller areas, avoid large topographical distortions. SOM does classification and visualization, but separating these to functions may improve accuracy of both. MDS and SOM – sensitive to noise in data (irrelevant features). (c) 1999. Tralvex Yeap. All Rights Reserved

MDS vs. PCA MDS may start from random positions of points, moving them to minimize the measure of topographical distortions, results may strongly depend on the starting point. Multi-starts are recommended, followed by selection of the best configuration (with lowest stress value). PCA may be a good starting point for MDS, although PCA is only a linear method and does not preserve distances between points. For n data vectors and d dimensions: PCA requires building the dxd covariance matrix, with complexity O(nd2) and diagonalization of this matrix, complexity O(d3). MDS requires calculation of a distance matrix O(n2d) and minimization procedure of 2n-3 parameters. Some data has d=104, and n=100; other data has d=10, and n=104 ... which method to use? (c) 1999. Tralvex Yeap. All Rights Reserved

Hipersześciany (c) 1999. Tralvex Yeap. All Rights Reserved

Hipersześciany 5D + sfery w 3D (c) 1999. Tralvex Yeap. All Rights Reserved

Sympleksy 6-11 (c) 1999. Tralvex Yeap. All Rights Reserved

Sympleksy 15-20D (c) 1999. Tralvex Yeap. All Rights Reserved

Sekwencje rodziny białek Globin 226 protein sequences of the Globin family; similarity matrix shows high similarity values (dark spots) within subgroups, MDS shows cluster structure of the data (from Klock & Buhmann 1997). (c) 1999. Tralvex Yeap. All Rights Reserved

Podobieństwo twarzy 300 faces, similarity matrix evaluated and Sammon mapping applied (from Klock & Buhmann 1997). (c) 1999. Tralvex Yeap. All Rights Reserved

Mapy semantyczne How to capture the meaning of words/concepts? It is contained in properties of concepts, their semantic relations. Simplest example - take 8 birds and 8 mammals: dove, hen, duck, goose, owl, hawk, eagle, fox, dog, wolf, cat, tiger, lion, horse, zebra, cow. Create some concept descriptions, for example use 13 binary features: size is: small, medium large; has 2 legs, 4 legs, has hair, hoofs, mane, feathers; likes to: hunt, run, fly, swim. Form sentences that describe these 16 animals using 13 features. More complex description should give more relations and features. (c) 1999. Tralvex Yeap. All Rights Reserved

Zdania opisujące zwierzęta Dove is small, has 2 legs, has feathers, likes to fly. Hen is small, has 2 legs, has feathers. Duck is small, has 2 legs, has feathers, likes to swim. Horse is big, has 4 legs, mane, hair, hoofs, likes to run. This is a common sense knowledge that may be represented in a vector space and collected in data table. Assign a vector of properties to each animal: V(horse)= [small=0,medium=0,large=1,has 2 legs=0, 4 legs=1, ... ] = [0,0,1,0,1,1,1,1,0,0,1,0,0] Map these 13D vectors in 2D to see relations between them. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykład mapy semantycznej SOM was used on such data by Ritter and Kohonen 1989, MDS by Naud & Duch (1996). (c) 1999. Tralvex Yeap. All Rights Reserved

Porównanie map MDS & SOM MDS and SOM was used on data vectors from the previous page. (c) 1999. Tralvex Yeap. All Rights Reserved

Uwagi na temat map semantycznych Natural classification of animals, preserving their similarity: mammals are separated from birds, hunters from grass-eaters, small animals separated from large. Similarity of animals is related to the distance on toposemantic map. Psychological experiments provide a matrix of perceived similarities: this is derived either from frequencies of answers to questions like: what other animal is similar to horse? Sometimes response times to questions are also measured. Information Retrieval: use concepts spaces, properties derived automatically from context information, to set up vectors representing words, phrases, concepts. This allows for semantic retrieval of information. (c) 1999. Tralvex Yeap. All Rights Reserved

MDS na danych empirycznych MDS was used on data from psychological experiments with perceived similarity between animals: note that it is very similar to previous maps. (c) 1999. Tralvex Yeap. All Rights Reserved

Przykłady MDS Demonstrations: some examples of MDS maps made with the GhostMiner software http://www.fqspl.com.pl/ghostminer/ Few lessons from visualization of: parity data – shows structure that is not visible with other methods, but very sensitive to starting point; medical data (from Lancet) – shows subgroups of different types of cancer, that can be labeled and identified; liver diseases 4-class data – show that same patients were used several times, leading to excellent results from the nearest neighbor methods; DNA promoters data – shows the importance of feature transformations. (c) 1999. Tralvex Yeap. All Rights Reserved

MDS – książki i strony Schiffman S.M, Reynolds L, Young F.W. Introduction to MDS. 1981 Cox T.F, Cox M.A.A, Multidimensional Scaling, 2nd ed, 2001 Borg, I. and Groenen, P.J.F. Modern MDS. 2nd ed, Springer 2005. Elementary introduction to MDS. MDS algorithms described in details. Asymmetry MDS package - dla wizualizacji niesymetrycznych! MDS (Multi Dimensional Scaling) page High-Throughput Multidimensional Scaling (HiT-MDS) Nasze demo MDS: women psychometry data Nasz pakiet Viser - wiele form wizualizacji szeregów czasowych. (c) 1999. Tralvex Yeap. All Rights Reserved

Inne sposoby wizualizacji SNE, Dane dynamiczne: (c) 1999. Tralvex Yeap. All Rights Reserved

Inspiracje nerobiologiczne Symulator Emergent: Aisa, B., Mingus, B., and O'Reilly, R. The emergent neural modeling system. Neural Networks, 21, 1045, 2008. Model czytania, uwzględnia ortografię, fonologię i semantykę, definiowaną przez aktywacje 140 mikrocech określających własności pojęć. Pomiędzy tymi 3 warstwami mamy ukryte neurony. Na razie szczegóły nie są istotne, ważna jest reprezentacja wyników zmieniającej się w czasie aktywacji: co iterację mamy inną macierz aktywacji warstwy semantycznej – czasami zmiany są powolne, czasami szybkie. Wokół nauczonych pojęć mamy „baseny atrakcji”, system spowalnia, zmiany przez jakiś czas są niewielkie, fluktuacje.

Wykresy rekurencji Trajektorie w wielu wymiarach można analizować za pomocą wykresów rekurencji (RP). Dla danego punktu na trajektorii robimy wykres we współrzędnych (t,t’) by pokazać odległość – binarie jeśli bliżej niż próg, lub w kolorze, zależnie od odległości. Mamy dyskretny czas, macierz rekurencji S() pokazuje przybliżone odległości punktów na trajektorii w dwóch chwilach czasu (iteracji). N. Marwan et al, Recurrence plots for the analysis of complex system. Physics Reports 438 (2007) 237–329

Startując ze słówka „gain” widać skoki od atraktora do atraktora, ale nie widać jakie to atraktory.

Fuzzy Symbolic Dynamics (FSD) Dodatkowe informacje do wykresów RP: FSD 1. Dane standaryzowane: wariancja =1. 2. Szukamy klastrów w danych: m1, m2 ... 3. Nieliniowa transformacja pokazuje punkty: Zlokalizowane funkcje przynależności yk(t;W): Binarne funkcje progowe => dynamika symboliczna; x(t) => ciągi symboli. Funkcje rzeczywiste => rozmyta dynamika symboliczna, redukcja wymiarowości Y(t)=(y1(t;W), y2(t;W)) => wizualizacja danych o wielu wymiarach. Wizualizacja pokazuje baseny atrakcji.

Porównanie FSD i RP FSD i RP pokazują baseny atrakcji, FSD wymaga dobrania odpowiednich położeń funkcji. (c) 1999. Tralvex Yeap. All Rights Reserved

Długie trajektorie RP i MDS dla 40 słów tworzących mikrodomenę w modelu czytania. Spontaniczne przejścia pomiędzy atraktorami. (c) 1999. Tralvex Yeap. All Rights Reserved

Prototype Data Plots dla przejść międyz atraktorami, zaczynając od „flag”

Graf przejść pomiędzy pojęciami, uśredniony po 10 razach. Dlaczego taki? Połączone pojęcia mają wspólne mikrocechy. Neurony je kodujące męczą się i ulegają desynchronizacji, słabiej pobudzone się ze sobą synchronizują i tworzą nowy rozkład wokół jakiegoś atraktora.

Interesujące wizualizacje Wiki on data visualization And for fun see quite different visualizations: http://www.liveplasma.com Music scene Last.fm RawGraphs Cytoscape (c) 1999. Tralvex Yeap. All Rights Reserved