Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

SYSTEMY WYSZUKIWANIA INFORMACJI METODA DOYLEA Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007.

Podobne prezentacje


Prezentacja na temat: "SYSTEMY WYSZUKIWANIA INFORMACJI METODA DOYLEA Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007."— Zapis prezentacji:

1 SYSTEMY WYSZUKIWANIA INFORMACJI METODA DOYLEA Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007

2 Trochę czystej teorii… Metoda Doyle'a to metoda wyszukiwania informacji w bazie danych. Metoda Doyle'a to metoda wyszukiwania informacji w bazie danych. Na początek przedstawię algorytm słowny tej metody, a później zajmiemy się konkretnym przykładem Na początek przedstawię algorytm słowny tej metody, a później zajmiemy się konkretnym przykładem

3 Algorytm słowny Doylea 1.Dokonujemy wstępnego podziału dokumentów na m grup. 2.Dla każdej z grup wypisujemy zbiór obiektów ją tworzących - Sj, oraz zbiór deskryptorów występujących w opisach dokumentów tejże grupy - Cj; gdzie j oznacza numer grupy. Następnie dla każdej z grup zliczamy ilość deskryptorów opisujących jej elementy; zapamiętujemy największą wartość i inkrementujemy ją - otrzymamy wartość bazową – b.

4 Algorytm słowny Doylea 3.Dla każdego deskryptora, każdej z grup, dokonujemy zliczenia liczby wystąpień danego deskryptora w opisach dokumentów tejże grupy. Tworzymy w ten sposób wektor częstości i oznaczamy (dla j-tej grupy) przez Fj. 4.W ramach grupy przydzielamy każdemu z deskryptorów odpowiednią rangę. Rangę 1 otrzymuje deskryptor o największej częstości wystąpień, rangę 2 kolejny, itd. W przypadku takiej samej częstości wystąpień dla dwu, lub więcej, deskryptorów przydzielamy im tą samą rangę. Otrzymujemy wektor rangi opisujący grupę i oznaczamy przez Rj.

5 Algorytm słowny Doylea 5.Kolejnym krokiem jest obliczenie wektora profilu grupy - Pj. Poszczególne współrzędne wektora otrzymamy poprzez wyliczenie różnicy pomiędzy wartością bazową – b a rangą, dla każdego z deskryptorów. 6.Obliczamy wartość funkcji punktującej – g(di,Pj) dla każdego dokumentu i każdego profilu. Wartość funkcji punktującej jest sumą wartości współrzędnych wektora profilu, odpowiadającym deskryptorom opisującym system, dla tegoż dokumentu w danej grupie. Obliczamy wartość funkcji punktującej dla każdego dokumentu z każdym profilem.

6 Algorytm słowny Doylea 7.Dla każdego dokumentu zapamiętujemy największą wartość funkcji g(di,Pj), oraz numer profilu, z którym ją uzyskano. 8.Dla każdej z grup dokonujemy obliczenia współczynnika Hj, gdzie Hj = max(g(di,Pj)). 9.Obliczamy wartość progową funkcji punktującej dla każdej z grup: gdzie T jest założoną wartością progowa, a jest nazywana mocą związania dokumentów w grupę, 0< <1. Jednym ze sposobów obliczenia wartości T polega na obliczeniu jej z wzoru: T = max[max(g(di,Pj))+min(g(di,Pj))] div 2. gdzie T jest założoną wartością progowa, a jest nazywana mocą związania dokumentów w grupę, 0< <1. Jednym ze sposobów obliczenia wartości T polega na obliczeniu jej z wzoru: T = max[max(g(di,Pj))+min(g(di,Pj))] div 2.

7 Algorytm słowny Doylea 7.Następnym krokiem jest utworzenie grup poprawionych (j-tą grupę poprawioną oznaczamy przez Sj). Na grupę Sj składają się takie dokumenty, których wartość funkcji punktującej z profilem Pj jest większa od wyliczonej uprzednio wartości Tj. 8.W ten sposób oprócz zakładanych wcześniej m grup otrzymaliśmy jeszcze jedną grupę, na którą składają się dokumenty, które w procesie grupowania nie znalazły się w żadnej z utworzonych grup. Grupę tą nazywamy grupą dokumentów swobodnych. 9.Algorytm należy powtarzać do momentu, w którym skład utworzonych grup nie ulegnie zmianie.

8 …no to może konkrety :) Pewnie wielu z Was pomyśli sobie teraz – Ale o co chodzi ??. Pewnie wielu z Was pomyśli sobie teraz – Ale o co chodzi ??. Znam to doskonale – moje początki także były trudne. Czas więc rozwiać wszelakie wątpliwości pokazując algorytm Doylea krok po kroku na przykładzie. Pozostało wziąć głęboki wdech i zaczynamy…

9 UWAGA ! ! ! Słownictwo użyte podczas przykładu NIE JEST prawidłowym słownictwem w Systemach Wyszukiwania Informacji, jednakże pozwala szybko i prosto zrozumieć praktyczne rozwiązywanie problemów metodą Doylea. Wszystkie stwierdzenia potoczne należy odnieść w kontekście przedstawionego Algorytmu Słownego !!!

10 Przykład zastosowania metody Doylea Rzeczy, które znać musimy przed przystąpieniem do wyjaśnienia (dla osób, które od razu przejdą do tego podpunktu) Rzeczy, które znać musimy przed przystąpieniem do wyjaśnienia (dla osób, które od razu przejdą do tego podpunktu) S j – wektor dokumentów S j – wektor dokumentów C j – wektor pojęć C j – wektor pojęć R j – wektor rang R j – wektor rang P j – profil (odpowiednik centroidu) P j – profil (odpowiednik centroidu) F j – wektor częstotliwości F j – wektor częstotliwości

11 Tak wygląda przykładowy zadany nam problem w postaci tabeli… c1c2c3c4c5c6c7c8c9c10 d1 d2 d3 d4 d5 d6 d7 d8 d

12 Pierwszym krokiem jest ustalenie sobie grup S c1c2c3c4c5c6c7c8c9c10 d1 1 d2 d3 d4 d5 d6 d7 d8 d S1S1 S2S2 S3S3

13 W kolejnym kroku tworzymy tabele, w której reprezentujemy podane na początku wartości S j – ta kolumna symbolizuje numer grupy (u nas 1,2,3) C j – wektor pojęć, czyli spisujemy w kolumnie, które C mieszczą się w konkretnych grupach F j – wektor częstotliwości to nic innego jak liczba 1 występująca w danej kolumnie C P j – profil to różnica pomiędzy wartością bazową (łatwo ją wyznaczyć, gdyż jest do wartość najdłuższego wektora C z grup powiększona o 1) a wektorem rang… R j – rangi przypisuje się podobnie jak pozycje w zawodach sportowych – im większy wektor częstotliwości, tym wyższa ranga (1 oznacza najwyższą)

14 Tak prezentuje się nasza tabela zgodnie z poprzednimi założeniami S1C1F1R1P1S2C2F2R2P2S3C3F3R3P3 d1C1215d4C4133d7C6224 d2C2215d5C5224d8C8224 d3C3215d6C6224d9C9315 C4215 C7315 C C8133

15 Na podstawie poprzedniej tabelki generujemy kolejną tzw. funkcję punktującą g(d i,P j ). Jak to wygląda praktycznie ? Otóż bierzemy rząd np. d 1 a następnie sumujemy wszystkie wartości P 1 z tabeli biorąc pod uwagę te wektory C w których 1 występuje w danym rzędzie. Ponieważ 1 mamy w C 1, C 3, C 4 których wartość P 1 dla wszystkich jest 5, więc suma daje nam 15 co umieszczamy w tabeli. Analogicznie postępujemy z d x w pozostałych grupach.

16 Musimy stworzyć taką oto tabelę, a następnie wyznaczyć H max P1P2P3 d11530 d21000 d31530 d40134 d55124 d60124 d70413 d80313 d90713

17 H max wyznacza największa wartość funkcji punktującej dla danej grupy (u nas P 1 15, P 2 13, P 3 13) Obszary zaznaczone na czerwono to wartości mieszczące się w zakresie wartości uśrednionej. Wartość uśredniona, można przyjąć, iż jest to (max+min)/2 co dla naszego przypadku wyznacza wartość 9 ((15+3)/2=9) Wykorzystamy ją teraz do wyznaczenia progu klasyfikacji T j = H j – α (H j – T) α to tzw. czynnik skalujący przyjmowany empirycznie pomiędzy 0 a 1

18 Wyznaczamy kolejne T 1, T 2, T 3 dla poszczególnych grup tj. T 1 = ,5 (15 – 9) = 15 – 3 = 12 T 2 = 13 – 0,5 (13 – 9) = 13 – 2 = 11 T 3 = 13 – 0,5 (13 – 9) = 13 – 2 = 11 a następnie sprawdzamy czy funkcja punktująca jest > od T j g (d i,P j ) T j więc: S 1 = {d 1,d 3 } S 2 = {d 4,d 5,d 6 } S 3 = {d 7,d 8,d 9 }

19 Mam nadzieję, że ten krótki pokaż pomoże komuś zrozumieć na czym polega metoda Doyla Mam nadzieję, że ten krótki pokaż pomoże komuś zrozumieć na czym polega metoda Doyla WSTI LUTY 2007


Pobierz ppt "SYSTEMY WYSZUKIWANIA INFORMACJI METODA DOYLEA Łukasz Kajzer, WSTI GR. 5CZ, styczeń 2007."

Podobne prezentacje


Reklamy Google