SYSTEMY WYSZUKIWANIA INFORMACJI

Slides:



Advertisements
Podobne prezentacje
Sposób przygotowania realokacji środków w ramach PROW
Advertisements

Racjonalne gospodarowanie pomieszczeniami Uczelni Henryk Zioło listopad 2012r.
Ocena wartości diagnostycznej testu – obliczanie czułości, swoistości, wartości predykcyjnych testu. Krzywe ROC. Anna Sepioło gr. B III OAM.
Programowanie w PMC.
Wprowadzenie do budowy usług informacyjnych
Instrukcje - wprowadzenie
Podział i zastosowanie
CIĄGI.
Metoda simpleks Simpleks jest uniwersalną metodą rozwiązywania zadań programowania liniowego. Jest to metoda iteracyjnego poprawiania wstępnego rozwiązania.
Techniki konstrukcji algorytmów
Przykłady zadań programowania liniowego
Badania operacyjne. Wykład 2
Analiza współzależności
Analiza współzależności
ZŁOŻONOŚĆ OBLICZENIOWA
DIELEKTRYKI TADEUSZ HILCZER.
Materiały do zajęć z przedmiotu: Narzędzia i języki programowania Programowanie w języku PASCAL Część 7: Procedury i funkcje © Jan Kaczmarek.
WARTOŚĆ BEZWZGLĘDNA Z LICZBY
Nieelitystyczne algorytmy ewolucyjnej optymalizacji wielokryterialnej
(dla szeregu szczegółowego) Średnia arytmetyczna (dla szeregu szczegółowego) Średnią arytmetyczną nazywamy sumę wartości zmiennej wszystkich jednostek.
Dodawanie i odejmowanie wektorów
Wyrównanie sieci swobodnych
Algorytm Rochio’a.
Wprowadzenie do budowy usług informacyjnych
Metoda simpleks opracowanie na podstawie „Metody wspomagające podejmowanie decyzji w zarządzaniu” D. Witkowska, Menadżer Łódź Simpleks jest uniwersalną.
GeoTrackerPast Web tracking in 4 dimensions. Informacje Temat: System wyszukiwania haseł w Internecie(?) Promotor: dr Mikołaj Morzy Skład: – Tomasz Szymanowski.
OPORNOŚĆ HYDRAULICZNA, CHARAKTERYSTYKA PRZEPŁYWU
Metody matematyczne w Inżynierii Chemicznej
Średnie i miary zmienności
Reprezentacje - zmiennoprzecinkowa
Sztuczne Sieci Neuronowe
Przegląd podstawowych algorytmów
Metody matematyczne w Inżynierii Chemicznej
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zadanie programowania liniowego PL dla ograniczeń mniejszościowych
Zakładamy a priori istnienie rozwiązania α układu równań.
Jak tworzyć algorytmy.? Sposób krok po kroku..
Algorytm DIC Dynamic Itemset Countin
II. Matematyczne podstawy MK
Działania na zbiorach ©M.
Zasady przywiązywania układów współrzędnych do członów.
Dynamika układu punktów materialnych
KONKURS ZANIM ROZPOCZNIEMY PREZENTACJĘ ZAPRASZAMY DO WZIĘCIA UDZIAŁU W KONKURSIE NA NAJSZYBSZE ROZWIĄZANIE UKŁADU RÓWNAŃ.
Kości zostały rzucone…
Algorytmika Iteracje autor: Tadeusz Lachawiec.
FUNKCJE Pojęcie funkcji
Rozwiązywanie układów równań liniowych różnymi metodami
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
NAJLEPSZY KOMISARIAT ROKU POWIATU POZNAŃSKIEGO KRYTERIA OCENY STYCZEŃ-GRUDZIEŃ 2014.
Grafika i komunikacja człowieka z komputerem
OKNO Eksploracja danych: kolokwium I VIII EKSPLORACJA DANYCH 1234 Spójrz gdzie siedzisz. Zadania oznaczone tym numerem są przeznaczone dla Ciebie. DRZWI.
Zagadnienie własne Macierz wektorów własnych V=(v1,v2,...,vn) przekształca zatem macierz A do postaci diagonalnej: W większości zastosowań w chemii i fizyce.
Warstwowe sieci jednokierunkowe – perceptrony wielowarstwowe
IFS, IFSP I GRA W CHAOS ZBIORY FRAKTALNE I WYBRANE SPOSOBY ICH GENEROWANIA.
1. Adres względny 2. Adres bezwzględny 3. Adres mieszany.
Excel 2007 dla średniozaawansowanych Zajęcia z Prowadzący: Artur Kołos.
Stosowanie procentów w życiu codziennym. Radosław Hołówko Konsultant: Agnieszka Pożyczka.
Algorytmy. Co to jest algorytm? Przepis prowadzący do rozwiązania zadania.
Figury płaskie Układ współrzędnych.
Obliczanie jakim procentem jednej liczby jest druga liczba. Radosław Hołówko Konsultant: Agnieszka Pożyczka.
Treść dzisiejszego wykładu l Analiza wrażliwości –zmiana wartości współczynników funkcji celu, –zmiana wartości prawych stron ograniczeń. l Podejścia do.
Trochę matematyki - dywergencja Dane jest pole wektora. Otoczymy dowolny punkt P zamkniętą powierzchnią A. P w objętości otoczonej powierzchnią A pole.
Kalendarz i zegar.
Rozpatrzmy następujące zadanie programowania liniowego:
Matematyka przed egzaminem czyli samouczek dla każdego
Radosław Hołówko Konsultant: Agnieszka Pożyczka
jest najbardziej efektywną i godną zaufania metodą,
Podstawy teorii zachowania konsumentów
Analiza współzależności zjawisk
Analiza kanoniczna - stanowi uogólnienie liniowej regresji wielorakiej na dwa zbiory zmiennych tzn. dla zmiennych zależnych i niezależnych. Pozwala badać.
Zapis prezentacji:

SYSTEMY WYSZUKIWANIA INFORMACJI METODA DOYLE’A Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007

Trochę czystej teorii… Metoda Doyle'a to metoda wyszukiwania informacji w bazie danych. Na początek przedstawię algorytm słowny tej metody, a później zajmiemy się konkretnym przykładem 

Algorytm słowny Doyle’a Dokonujemy wstępnego podziału dokumentów na m grup. Dla każdej z grup wypisujemy zbiór obiektów ją tworzących - Sj, oraz zbiór deskryptorów występujących w opisach dokumentów tejże grupy - Cj; gdzie j oznacza numer grupy. Następnie dla każdej z grup zliczamy ilość deskryptorów opisujących jej elementy; zapamiętujemy największą wartość i inkrementujemy ją - otrzymamy wartość bazową – b.

Algorytm słowny Doyle’a Dla każdego deskryptora, każdej z grup, dokonujemy zliczenia liczby wystąpień danego deskryptora w opisach dokumentów tejże grupy. Tworzymy w ten sposób wektor częstości i oznaczamy (dla j-tej grupy) przez Fj. W ramach grupy przydzielamy każdemu z deskryptorów odpowiednią rangę. Rangę 1 otrzymuje deskryptor o największej częstości wystąpień, rangę 2 kolejny, itd. W przypadku takiej samej częstości wystąpień dla dwu, lub więcej, deskryptorów przydzielamy im tą samą rangę. Otrzymujemy wektor rangi opisujący grupę i oznaczamy przez Rj.

Algorytm słowny Doyle’a Kolejnym krokiem jest obliczenie wektora profilu grupy - Pj. Poszczególne współrzędne wektora otrzymamy poprzez wyliczenie różnicy pomiędzy wartością bazową – b a rangą, dla każdego z deskryptorów. Obliczamy wartość funkcji punktującej – g(di,Pj) dla każdego dokumentu i każdego profilu. Wartość funkcji punktującej jest sumą wartości współrzędnych wektora profilu, odpowiadającym deskryptorom opisującym system, dla tegoż dokumentu w danej grupie. Obliczamy wartość funkcji punktującej dla każdego dokumentu z każdym profilem.

Algorytm słowny Doyle’a Dla każdego dokumentu zapamiętujemy największą wartość funkcji g(di,Pj), oraz numer profilu, z którym ją uzyskano. Dla każdej z grup dokonujemy obliczenia współczynnika Hj, gdzie Hj = max(g(di,Pj)). Obliczamy wartość progową funkcji punktującej dla każdej z grup: gdzie T jest założoną wartością progowa, a  jest nazywana mocą związania dokumentów w grupę, 0<<1. Jednym ze sposobów obliczenia wartości T polega na obliczeniu jej z wzoru: T = max[max(g(di,Pj))+min(g(di,Pj))] div 2.

Algorytm słowny Doyle’a Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj’). Na grupę Sj’ składają się takie dokumenty, których wartość funkcji punktującej z profilem Pj jest większa od wyliczonej uprzednio wartości Tj. W ten sposób oprócz zakładanych wcześniej m grup otrzymaliśmy jeszcze jedną grupę, na którą składają się dokumenty, które w procesie grupowania nie znalazły się w żadnej z utworzonych grup. Grupę tą nazywamy grupą dokumentów swobodnych. Algorytm należy powtarzać do momentu, w którym skład utworzonych grup nie ulegnie zmianie.

…no to może konkrety :) Pewnie wielu z Was pomyśli sobie teraz – „ Ale o co chodzi ??”. Znam to doskonale – moje początki także były trudne. Czas więc rozwiać wszelakie wątpliwości pokazując algorytm Doyle’a krok po kroku na przykładzie. Pozostało wziąć głęboki wdech i zaczynamy…

Słownictwo użyte podczas przykładu UWAGA ! ! ! Słownictwo użyte podczas przykładu NIE JEST prawidłowym słownictwem w Systemach Wyszukiwania Informacji, jednakże pozwala szybko i prosto zrozumieć praktyczne rozwiązywanie problemów metodą Doyle’a. Wszystkie stwierdzenia potoczne należy odnieść w kontekście przedstawionego Algorytmu Słownego !!!

Przykład zastosowania metody Doyle’a Rzeczy, które znać musimy przed przystąpieniem do wyjaśnienia (dla osób, które od razu przejdą do tego podpunktu) Sj – wektor dokumentów Cj – wektor pojęć Rj – wektor rang Pj – profil (odpowiednik centroidu) Fj – wektor częstotliwości

Tak wygląda przykładowy zadany nam problem w postaci tabeli…   c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 d1 d2 d3 d4 d5 d6 d7 d8 d9 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

Pierwszym krokiem jest ustalenie sobie grup S   c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 d1 1 d2 d3 d4 d5 d6 d7 d8 d9 1 1 1 S1 1 1 1 1 1 1 1 1 S2 1 1 1 1 1 1 1 1 1 S3 1 1 1 1 1 1

W kolejnym kroku tworzymy tabele, w której reprezentujemy podane na początku wartości Sj – ta kolumna symbolizuje numer grupy (u nas 1,2,3) Cj – wektor pojęć, czyli spisujemy w kolumnie, które C mieszczą się w konkretnych grupach Fj – wektor częstotliwości to nic innego jak liczba „1” występująca w danej kolumnie C Pj – profil to różnica pomiędzy wartością bazową (łatwo ją wyznaczyć, gdyż jest do wartość najdłuższego wektora C z grup powiększona o 1) a wektorem rang… Rj – rangi przypisuje się podobnie jak pozycje w zawodach sportowych – im większy wektor częstotliwości, tym wyższa ranga (1 oznacza najwyższą)

Tak prezentuje się nasza tabela zgodnie z poprzednimi założeniami C1 F1 R1 P1 S2 C2 F2 R2 P2 S3 C3 F3 R3 P3 d1 2 1 5 d4 C4 3 d7 C6 4 d2 d5 C5 d8 C8 d3 d6 d9 C9   C7 C 10

Na podstawie poprzedniej tabelki generujemy kolejną tzw Na podstawie poprzedniej tabelki generujemy kolejną tzw. funkcję punktującą g(di,Pj). Jak to wygląda praktycznie ? Otóż bierzemy rząd np. d1 a następnie sumujemy wszystkie wartości P1 z tabeli biorąc pod uwagę te wektory C w których „1” występuje w danym rzędzie. Ponieważ „1” mamy w C1, C3, C4 których wartość P1 dla wszystkich jest 5, więc suma 5+5+5 daje nam 15 co umieszczamy w tabeli. Analogicznie postępujemy z dx w pozostałych grupach.

Musimy stworzyć taką oto tabelę, a następnie wyznaczyć Hmax   P1 P2 P3 d1 15 3 d2 10 d3 d4 13 4 d5 5 12 d6 d7 d8 d9 7

Hmax wyznacza największa wartość funkcji punktującej dla danej grupy (u nas P115, P213, P313) Obszary zaznaczone na czerwono to wartości mieszczące się w zakresie wartości uśrednionej. Wartość uśredniona, można przyjąć, iż jest to (max+min)/2 co dla naszego przypadku wyznacza wartość 9 ((15+3)/2=9) Wykorzystamy ją teraz do wyznaczenia progu klasyfikacji Tj = Hj – α (Hj – T) α to tzw. czynnik skalujący przyjmowany empirycznie pomiędzy 0 a 1

Wyznaczamy kolejne T1, T2, T3 dla poszczególnych grup tj Wyznaczamy kolejne T1, T2, T3 dla poszczególnych grup tj. T1 = 15 - 0,5 (15 – 9) = 15 – 3 = 12 T2 = 13 – 0,5 (13 – 9) = 13 – 2 = 11 T3 = 13 – 0,5 (13 – 9) = 13 – 2 = 11 a następnie sprawdzamy czy funkcja punktująca jest > od Tj g (di,Pj) ≥ Tj więc: S1′ = {d1,d3} S2′ = {d4,d5,d6} S3′ = {d7,d8,d9}

Mam nadzieję, że ten krótki pokaż pomoże komuś zrozumieć na czym polega metoda Doyl’a  WSTI LUTY 2007