Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej.

Podobne prezentacje


Prezentacja na temat: "Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej."— Zapis prezentacji:

1 Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Kopel @ Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska

2 Plan wystąpienia ● Przewód doktorski ● Cel i tło pracy ● Spójność i zgodność ● Uściślenie pojęć ● Dotychczasowe badania ● Aktualne i dalsze badania ● Metody rozwiązania ● Zastosowania ● Metody weryfikacji 2

3 Przewód ● 2003.06.03: otwarcie przewodu doktorskiego „Metody analizy spójności i zgodności kolekcji dokumentów WWW” na WiZ, PWr ● Promotorzy: ● dr hab. inż. Czesław Daniłowicz, prof. PWr. ● dr hab. inż. Aleksander Zgrzywa, prof. PWr. (od kwietnia br) ● 5 publikacji (książka, 3 konf. międzynar. i 1 kraj.) 3

4 Cel pracy Praca dotyczy opracowania algorytmów wyznaczania miar spójności i zgodności dla kolekcji dokumentów w celu poprawy rankingu wyników wyszukiwania dokumentów w sieci WWW 4

5 Tło pracy Dziedziny związane z tematyką pracy: ● IR (wyszukiwanie) – Źródło kolekcji wejściowych dla metody ● DM (data mining) – Wydobywanie informacji semantycznych z dokumentów ● Ranking ● Klasyfikacja i klastering ● Filtrowanie ● Personalizacja ● Analizy grafowe dla sieci WWW ● Ontologie (SW) 5

6 Tło pracy ● głównie dokumenty tekstowe WWW ● nie wykluczone MM 6

7 „Spójność i zgodność”? ● Spójność - cosistency, cohesion lub coherence (czy coherency) ● Zgodność – conformity (ale również często tłumaczona jako cosistency) ● ACID (Atomicity, Consistency, Isolation and Durability) ● WWW proxy cache ● replikacje ● DSM (Distributed Shared Memories) 7

8 „Spójność i zgodność” w odniesieniu do pracy ● Spójność i zgodność to pewnego rodzaju podobieństwo, równoważność dokumentów w kolekcji (na pewnym poziomie abstrakcji) – formalne definicje tych pojęć w dalszej części prezentacji ● Niejednoznaczność interpretacji pojęcia dokument WWW (strona WWW) 8

9 Dokument WWW ● A web page or webpage is a resource of information that is suitable for the World Wide Web and can be accessed through a web browser. This information is usually in HTML or XHTML format, and may provide navigation to other web pages via hypertext links. ● Web document is a similar concept to web page, except with the following distinctions: – a web page is traditionally transferred using the HTTP or the HTTPS protocol; – a web document may be transferred over any of various Internet communication protocols for use in various kinds of client applications; – a web page is ordinarily restricted to connote HTML, XHTML or another markup language as the primary presentation specficiation; – a web document may consist of any type of document type or MIME Content-Type or file format; – a web document may consist of a compound document, or an attachment to another document or message; and – a web document is a more expansive definition, which includes the traditional definition for 'web page'. 9

10 Dokument WWW - uściślenie autorskie ● rozwój blogosfery => ogromna ilość dokumentów ● Dokument WWW - pojedynczy wpis (post) lub komentarz w blogu ● Strona WWW – cały blog lub jeden z widoków 10

11 Dokumenty WWW – klasyfikacja autorska ● wyłącznie dane, np. dokumenty HTML tylko ze znacznikami formatującymi wygląd ● wyłącznie metadane, np. dokumenty RDF opisujące inne dokumenty ● dane wzbogacone o metadane, np. dokumenty XHTML zawierające dodatkowo informację semantyczną mając dokument opisujący metadanymi nie musimy sięgać do źródłowego, który może być PDF, JPG, AVI, MID,... 11

12 Kolekcja ● Kolekcja - zbiór dokumentów, podobny charakter, zgodność podzbioru atrybutów ● Atrybuty (konkretne rodzaje danych i metadanych), np.: – data – abstrakt – pozycja bibliograficzna, – format dokumentu, – słowo kluczowe ● Kolekcje to np.: – dokumenty opublikowane w bibliotece cyfrowej w jednym tygodniu (zgodność co do tygodnia daty publikacji), – wiadomości syndykowane z różnych źródeł RSS, ale z identycznymi tag’ami (jednakowe przyporządkowanie słów kluczowych przez autorów), – posty z blogów autorów, do których mamy najwyższe zaufanie 12

13 Spójność i zgodność ● Zgodność <= analiza treści dokumentów, (atrybuty dotyczące danych), czyli faktów podanych wprost. – Bardziej bezwzględna ● Spójność automatyczne (maszynowe) wnioskowanie – Wymaga Semantic Web ● Zgodność i spójność - miary podobieństwa dokumentów wewnątrz kolekcji, ● ale różne poziomy analizy 13

14 Dotychczasowe badania ● Sąsiedztwo linków, (hyperlink neighbourhood based consistency) – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) ● Grafy spójności – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) ● Ontologie – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) ● Sieci (społeczne) zaufania – M. Kopel, P. Kazienko: “Application of Agent-based Personal Web of Trust to Local Document Ranking” (AMSTA’07) 14

15 Web of Trust ● Kolekcje dokumentów WWW społeczności autorów/użytkowników ● Każdy autor/użytkownik ma agenta => MAS (autor użytkownik agent) ● Agenci wymieniają się zaufaniem użytkowników do autorów i proponują ranking nowych dokumentów ● FOAF => rekurencja ● Zaufanie => ranking lokalny => filtrowanie kolaboratywne 15

16 ● Zaufanie użytkownika T usr (a i  a j ) Є [0,1] – Explicite – Asymetryczne – Ustawiane ręcznie przez użytkownika – Z życia (przyjaciele rodzina, …) ● Personal Web of Trust Personal Web of Trust 16

17 Agent Trust gdzie ● Współczynnik λ – ważność T agn /T usr ● Obliczanie rekurencyjne ● TTL, aby rozwiązać problem wydajności (=6?) 17

18 Komunikacja agentów ● Propagacja uaktualnień => reakcja łańcuchowa ● Każdy agent przechowuje: – Zaufania i oceny użytkownika (T usr i R usr ) – Z'cache'owane wyliczenia zaufania i oceny agenta (T agn i R agn ) 18

19 Lokalny ranking dokumentów ● User rank R usr (a i  d j ) Є [0,1] – Explicite – Ustawiane ręcznie (po przeczytaniu?) ● Ocena agenta gdzie 19

20 Spójność w WoT ● Spójność lokalna na podstawie lokalnych ocen dokumentów => personalizacja ● Spójność globalna => klastering? ● Zaufanie => spójność => – Ranking globalny – Analiza wiedzy – Katalogowanie? 20

21 Dalsze badania ● Mining – Web Text Mining => semantyka – SNA – Relation Mining – Problem z wiarygodnością informacji => Trust Mining => Web of Trust ● dLibra – rozpoznanie możliwości wykorzystania metadanych i zapytań rozproszonych ● Analiza grafów – Dokumentów – Autorów – Ontologii 21

22 Nowe źródła informacji o spójności ● kontekst dokumentów wynikający w semantycznej informacji np. o relacji między autorami/czytelnikami ● "you write what you read" – intuicyjna teoria, “an old saw” – rozprawa doktorska Maloney, Henry B., English Journal, v74 n5 p28-32 Sep 1985 ● znane (i stosowane) standardy – publikowania relacji między użytkownikami: FOAF, XFN – wiązania dokumentów komentujących z komentowanymi – Linkback – Biblioteki cyfrowe! 22

23 FOAF ● “Friend of a friend” ● ● FOAF Vocabulary Specification – Namespace Document 27 July 2005 ● FOAF Explorer, foafnaut – human-readable ● FOAFBulletinBoard – spis powszechny 23

24 XFN ● XHTML Friends Network ● Jan Kowalski ● rubhub – wyszukiwarka relacji między autorami stron domowych (blogów) 24

25 Linkback ● ewolucja: SCI → ACI → Linkback (blogi) ● 3 rodzaje (porównanie) :porównanie – Refback – Trackback – Pingback ● powiadamianie autora komentowanego/recenzowanego dokumentu ● odsyłacze do komentarzy (nawet na innych serwerach) dołączane do pierwotnego dokumentu 25

26 dLibra ● Platforma bibliotek cyfrowych ● By „poznański odpowiednik WCSS” ● Wdrożenia w bibliotekach: – regionalnych - 9 (tylko 4 przed 2006r.) – instytucjonalnych - 7 (tylko 2 przed 2006r.) – wewn. i in. - 1+1 ● Wymiana danych w oparciu o powszechnie uznane standardy i protokoły: – RSS, RDF, MARC, DublinCore, OAI-PMH. ● Z poziomu WBC można wyszukiwać (tylko katalogowo – wg metadanych) w zbiorze 65366 (14 bibliotek) 26

27 OAI-PMH ● Umożliwia zadawania zapytań do rozproszonych repozytoriów (664 zarejestrowanych w openarchives.org) ● Kryteria selekcji elementów to: – przynależność do zbiorów – data modyfikacji rekordów ● W odpowiedzi na żądanie Identify otrzymujemy m.in. listę “przyjaznych” repozytoriów - możemy tworzyć sieć FOAF repozytoriów :) ● Narzuca format metadanych (przynajmniej DC), ale nie narzuca formatu danych tj. definiowania zbiorów np. zakresy tematyczne czy formaty obiektów cyfrowych ● Jeden ze sposobów dostarczenia Google Sitemaps 27

28 Metody rozwiązania ● Kolekcja dokumentów => graf (hiperłącza) ● Autorzy dokumentów => graf (relacje interpersonalne) ● Dziedziny dokumentów => graf (ontologie) ● Metody analizy grafów – Adaptacje znanych metod – Metody autorskie ● Grafy spójność na różnych poziomach => ogólna spójność (ważenie spójności na poziomach) 28

29 Zastosowania ● Reranking w wyszukiwarkach => filtrowanie ● Ranking w bibliotekach cyfrowych ● Dynamiczne katalogowanie (clustering) ● Analiza dynamiki wiedzy ● SNA 29

30 Metody weryfikacji ● Brak metody podobnej ● Możliwość porównania z rankingami (PageRank) lub klasyfikatorami (clustering) ● Weryfikacja empiryczna: – Opinie eksperckie – Opinie użytkowników systemu (potrzebna implementacja) 30

31 Dziękuję pytania? więcej? >> blog naukowy http://marekopel.wordpress.com http://marekopel.wordpress.com 31


Pobierz ppt "Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej."

Podobne prezentacje


Reklamy Google