Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej.

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

Joanna Tyrowicz Skąd się bierze firma? Ekonomia instytucjonalna.
Światowy Dzień Zdrowia 2016 Pokonaj cukrzycę. Światowy Dzień Zdrowia 7 kwietnia 2016.
Modele biznesowe. Podręcznik Model biznesowy to w pewnym sensie szkic strategii, która ma zostać wdrożona w ramach struktur, procesów i systemów organizacji.
Rachunki regionalne Urząd Statystyczny w Katowicach Ośrodek Rachunków Regionalnych Ogólnopolska konferencja naukowa z okazji obchodów Dnia Statystyki Polskiej.
Czy wiesz, że?... INTERNET …TO JEST SPIS TREŚCI NIEBEZPIECZEŃSTWO SPOŁECZNOŚĆ INTERNETOWA DZIECKO W INTERNECIE ZAUFANE STRONY INTERNETOWE WIRUSY.
Projekt realizowany przy udziale środków Europejskiego Funduszu Społecznego w ramach Inicjatywy Wspólnotowej EQUAL.
InMoST, Analiza architektury metodą ATAM Jerzy Nawrocki
Portale społecznościowe. Serwis społecznościowy  to serwis internetowy, który istnieje w oparciu o zgromadzoną wokół niego społeczność. Tworzy tak zwane.
OPERATORZY LOGISTYCZNI 3 PL I 4PL NA TLE RYNKU TSL Prof. zw.dr hab. Włodzimierz Rydzkowski Uniwersytet Gdańsk, Katedra Polityki Transportowej.
Wyszukiwanie informacji w Internecie. Czym jest wyszukiwarka? INTERNET ZASOBY ZAINDEKSOWANE PRZEZ WYSZUKIWARKI Wyszukiwarka to mechanizm, który za pomocą.
Departament Zarządzania Programami Rozwoju Regionalnego Ul. Kościuszki 83, Olsztyn Tel. (0-89) , Fax (0-89) Urząd Marszałkowski.
Cel analizy statystycznej. „Człowiek –najlepsza inwestycja”
„Wdrażanie elektronicznych usług dla ludności woj. podlaskiego – część II, administracja samorządowa”
31 maja 2016r. 1 Regionalne badanie nastrojów społecznych wokół UEFA EURO 2012™ Prezentacja wyników badania z mieszkańcami Gdańska, Poznania,
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Naukowe Koło Marketingu MERITUM. Kontekst projektu  Nowoczesny i sprawnie funkcjonujący system IT ma istotny wpływ na poprawę konkurencyjności turystyki;
“In God we trust, all others bring data.” W. Edwards Deming.
Autor: Kierunek: Promotor: Wykorzystanie GIS do wyznaczenia tras bezpiecznego przewozu transportu przez miasto Małgorzata Kość geodezja i kartografia dr.
KOMUNIKOWANIE W PROCESIE WSPIERANIA ROZWOJU SZKOŁY Jarosław Kordziński NA.
Marcin Gliński Instytut Języków Romańskich i Translatoryki UŚ Regionalny Ośrodek Doskonalenia Nauczycieli WOM w Katowicach NOCNE POWTÓRKI MATURALNE 2016.
Innowacje i konkurencyjność łańcuchów dostaw we współczesnej gospodarce Dr hab. Grażyna Śmigielska, Prof. UEK.
OPTYMALNY CEL I PODSTAWY ROZWOJU SZKOŁY. PRZEDE WSZYSTKIM DZISIEJSZA SZKOŁA POWINNA PRZYGOTOWYWAĆ DO ŻYCIA W DRUGIEJ POŁOWIE XXI WIEKU.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
BIBLIOTEKA SZKOLNA I JEJ WARSZTAT INFORMACYJNY INFORMACYJNY.
LIDER PROJEKTUPARTNERZY PROJEKTU Towarzystwo Wiedzy Powszechnej Oddział Regionalny w Płocku Stowarzyszenie Academia Economica Projekt współfinansowany.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Repozytoria uczelniane i ich rola w projekcie SYNAT Warszawa Maj 2013 Jak Cię widzą, tak Cię piszą…
WYKŁAD 6 Regionalizacja 1. Regionalizm a regionalizacja 2 Proces wyodrębniania regionów nazywany jest regionalizacją, w odróżnieniu od regionalizmu, który.
„Jak zwiększyć bezpieczeństwo uczestników ruchu drogowego?” Co nam dała realizacja projektu?
Sieci komputerowe. Podział sieci. Podstawowe pojęcia związane z sieciami. Internet - określenia podstawowych terminów. Komunikacja w sieci.
Microsoft PowerPoint. Metodyka „dobrej” prezentacji.
Andrzej Feterowski Dyrektor Wydziału Informatyki Urząd Miasta Szczecin BEZPIECZNI RAZEM, czyli zachodniopomorski portal o bezpieczeństwie.
EContentplus – szansa dla archiwów, muzeów i bibliotek Anna Bramska Krajowy Punkt Kontaktowy eContentplus Chalin, 5 września 2006.
Cykl życia systemu bazy danych. Cyklem życia systemu bazy danych nazywamy zbiór kroków niezbędnych do zaprojektowania globalnego schematu logicznego bazy.
Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Co to Internet? Internet (skrótowiec od ang. inter-network, dosłownie "między- sieć") – ogólnoświatowa sieć komputerowa, określana również jako sieć sieci.
Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika.
Moduł SDI – zasilanie węzłów IIP oraz wykorzystanie danych. Wprowadzenie. Szkolenie przeprowadzone w ramach projektu „TERYT 3 – Rozbudowa systemów do prowadzenia.
Budżetowanie kapitałowe cz. III. NIEPEWNOŚĆ senesu lago NIEPEWNOŚĆ NIEMIERZALNA senesu strice RYZYKO (niepewność mierzalna)
Ucz i ucz się z TIK!.
Zasady gry i materiały do gry Przebieg testowej gry podczas szkolenia
Lokalne źródła prawa – zarys
Imię i Nazwisko Afiliacja
Strategia RIT Subregionu Zachodniego Województwa Śląskiego – RIT.
Sylabusy.
Karta usługi – zasady wypełniania
„Łączą nas efekty projektów” – wymagania programowe a doświadczenia po pierwszych naborach w Programie Interreg V-A Polska – Słowacja
Szkoła Główna Służby Pożarniczej
Funkcja – definicja i przykłady
Budowa, typologia, funkcjonalność
Wolę narody, które są sumą „ja”, niż członków narodów, którzy są cząstką „my”. Stanisław Jerzy Lec Projekt ustawy o zmianie niektórych ustaw w celu.
Przewodnik Udoskonalanie listy wyników w wyszukiwarce naukowej
Wstęp do Informatyki - Wykład 8
Materiały pochodzą z Platformy Edukacyjnej Portalu
- Krajowe Repozytorium Obiektów Nauki i Kultury
Materiały pochodzą z Platformy Edukacyjnej Portalu
SWOBODA UMÓW.
Podstawy teorii zachowania konsumentów
PROGRAMY DO KONTROLI RODZICIELSKIEJ
Git - system kontroli wersji
„Zagrożenia związane z użytkowaniem Internetu”
Tornister Warto zauważyć, że problem przeciążonych tornistrów szkolnych wynika  z kilku przyczyn: - Dzieci często noszą w plecakach więcej podręczników.
SYSTEM KONTROLI FREKWENCJI
Implementacja rekurencji w języku Haskell
Prezentacja informacji w biznesie
POZNAJEMY PULPIT Opracowanie: mgr Barbara Benisz SP nr 20 w Rybniku
a silverchair information system
Pomocnik rolnika HashCode 1 Cover page
Zapis prezentacji:

Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska

Plan wystąpienia ● Przewód doktorski ● Cel i tło pracy ● Spójność i zgodność ● Uściślenie pojęć ● Dotychczasowe badania ● Aktualne i dalsze badania ● Metody rozwiązania ● Zastosowania ● Metody weryfikacji 2

Przewód ● : otwarcie przewodu doktorskiego „Metody analizy spójności i zgodności kolekcji dokumentów WWW” na WiZ, PWr ● Promotorzy: ● dr hab. inż. Czesław Daniłowicz, prof. PWr. ● dr hab. inż. Aleksander Zgrzywa, prof. PWr. (od kwietnia br) ● 5 publikacji (książka, 3 konf. międzynar. i 1 kraj.) 3

Cel pracy Praca dotyczy opracowania algorytmów wyznaczania miar spójności i zgodności dla kolekcji dokumentów w celu poprawy rankingu wyników wyszukiwania dokumentów w sieci WWW 4

Tło pracy Dziedziny związane z tematyką pracy: ● IR (wyszukiwanie) – Źródło kolekcji wejściowych dla metody ● DM (data mining) – Wydobywanie informacji semantycznych z dokumentów ● Ranking ● Klasyfikacja i klastering ● Filtrowanie ● Personalizacja ● Analizy grafowe dla sieci WWW ● Ontologie (SW) 5

Tło pracy ● głównie dokumenty tekstowe WWW ● nie wykluczone MM 6

„Spójność i zgodność”? ● Spójność - cosistency, cohesion lub coherence (czy coherency) ● Zgodność – conformity (ale również często tłumaczona jako cosistency) ● ACID (Atomicity, Consistency, Isolation and Durability) ● WWW proxy cache ● replikacje ● DSM (Distributed Shared Memories) 7

„Spójność i zgodność” w odniesieniu do pracy ● Spójność i zgodność to pewnego rodzaju podobieństwo, równoważność dokumentów w kolekcji (na pewnym poziomie abstrakcji) – formalne definicje tych pojęć w dalszej części prezentacji ● Niejednoznaczność interpretacji pojęcia dokument WWW (strona WWW) 8

Dokument WWW ● A web page or webpage is a resource of information that is suitable for the World Wide Web and can be accessed through a web browser. This information is usually in HTML or XHTML format, and may provide navigation to other web pages via hypertext links. ● Web document is a similar concept to web page, except with the following distinctions: – a web page is traditionally transferred using the HTTP or the HTTPS protocol; – a web document may be transferred over any of various Internet communication protocols for use in various kinds of client applications; – a web page is ordinarily restricted to connote HTML, XHTML or another markup language as the primary presentation specficiation; – a web document may consist of any type of document type or MIME Content-Type or file format; – a web document may consist of a compound document, or an attachment to another document or message; and – a web document is a more expansive definition, which includes the traditional definition for 'web page'. 9

Dokument WWW - uściślenie autorskie ● rozwój blogosfery => ogromna ilość dokumentów ● Dokument WWW - pojedynczy wpis (post) lub komentarz w blogu ● Strona WWW – cały blog lub jeden z widoków 10

Dokumenty WWW – klasyfikacja autorska ● wyłącznie dane, np. dokumenty HTML tylko ze znacznikami formatującymi wygląd ● wyłącznie metadane, np. dokumenty RDF opisujące inne dokumenty ● dane wzbogacone o metadane, np. dokumenty XHTML zawierające dodatkowo informację semantyczną mając dokument opisujący metadanymi nie musimy sięgać do źródłowego, który może być PDF, JPG, AVI, MID,... 11

Kolekcja ● Kolekcja - zbiór dokumentów, podobny charakter, zgodność podzbioru atrybutów ● Atrybuty (konkretne rodzaje danych i metadanych), np.: – data – abstrakt – pozycja bibliograficzna, – format dokumentu, – słowo kluczowe ● Kolekcje to np.: – dokumenty opublikowane w bibliotece cyfrowej w jednym tygodniu (zgodność co do tygodnia daty publikacji), – wiadomości syndykowane z różnych źródeł RSS, ale z identycznymi tag’ami (jednakowe przyporządkowanie słów kluczowych przez autorów), – posty z blogów autorów, do których mamy najwyższe zaufanie 12

Spójność i zgodność ● Zgodność <= analiza treści dokumentów, (atrybuty dotyczące danych), czyli faktów podanych wprost. – Bardziej bezwzględna ● Spójność automatyczne (maszynowe) wnioskowanie – Wymaga Semantic Web ● Zgodność i spójność - miary podobieństwa dokumentów wewnątrz kolekcji, ● ale różne poziomy analizy 13

Dotychczasowe badania ● Sąsiedztwo linków, (hyperlink neighbourhood based consistency) – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) ● Grafy spójności – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) ● Ontologie – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) ● Sieci (społeczne) zaufania – M. Kopel, P. Kazienko: “Application of Agent-based Personal Web of Trust to Local Document Ranking” (AMSTA’07) 14

Web of Trust ● Kolekcje dokumentów WWW społeczności autorów/użytkowników ● Każdy autor/użytkownik ma agenta => MAS (autor użytkownik agent) ● Agenci wymieniają się zaufaniem użytkowników do autorów i proponują ranking nowych dokumentów ● FOAF => rekurencja ● Zaufanie => ranking lokalny => filtrowanie kolaboratywne 15

● Zaufanie użytkownika T usr (a i  a j ) Є [0,1] – Explicite – Asymetryczne – Ustawiane ręcznie przez użytkownika – Z życia (przyjaciele rodzina, …) ● Personal Web of Trust Personal Web of Trust 16

Agent Trust gdzie ● Współczynnik λ – ważność T agn /T usr ● Obliczanie rekurencyjne ● TTL, aby rozwiązać problem wydajności (=6?) 17

Komunikacja agentów ● Propagacja uaktualnień => reakcja łańcuchowa ● Każdy agent przechowuje: – Zaufania i oceny użytkownika (T usr i R usr ) – Z'cache'owane wyliczenia zaufania i oceny agenta (T agn i R agn ) 18

Lokalny ranking dokumentów ● User rank R usr (a i  d j ) Є [0,1] – Explicite – Ustawiane ręcznie (po przeczytaniu?) ● Ocena agenta gdzie 19

Spójność w WoT ● Spójność lokalna na podstawie lokalnych ocen dokumentów => personalizacja ● Spójność globalna => klastering? ● Zaufanie => spójność => – Ranking globalny – Analiza wiedzy – Katalogowanie? 20

Dalsze badania ● Mining – Web Text Mining => semantyka – SNA – Relation Mining – Problem z wiarygodnością informacji => Trust Mining => Web of Trust ● dLibra – rozpoznanie możliwości wykorzystania metadanych i zapytań rozproszonych ● Analiza grafów – Dokumentów – Autorów – Ontologii 21

Nowe źródła informacji o spójności ● kontekst dokumentów wynikający w semantycznej informacji np. o relacji między autorami/czytelnikami ● "you write what you read" – intuicyjna teoria, “an old saw” – rozprawa doktorska Maloney, Henry B., English Journal, v74 n5 p28-32 Sep 1985 ● znane (i stosowane) standardy – publikowania relacji między użytkownikami: FOAF, XFN – wiązania dokumentów komentujących z komentowanymi – Linkback – Biblioteki cyfrowe! 22

FOAF ● “Friend of a friend” ● ● FOAF Vocabulary Specification – Namespace Document 27 July 2005 ● FOAF Explorer, foafnaut – human-readable ● FOAFBulletinBoard – spis powszechny 23

XFN ● XHTML Friends Network ● Jan Kowalski ● rubhub – wyszukiwarka relacji między autorami stron domowych (blogów) 24

Linkback ● ewolucja: SCI → ACI → Linkback (blogi) ● 3 rodzaje (porównanie) :porównanie – Refback – Trackback – Pingback ● powiadamianie autora komentowanego/recenzowanego dokumentu ● odsyłacze do komentarzy (nawet na innych serwerach) dołączane do pierwotnego dokumentu 25

dLibra ● Platforma bibliotek cyfrowych ● By „poznański odpowiednik WCSS” ● Wdrożenia w bibliotekach: – regionalnych - 9 (tylko 4 przed 2006r.) – instytucjonalnych - 7 (tylko 2 przed 2006r.) – wewn. i in ● Wymiana danych w oparciu o powszechnie uznane standardy i protokoły: – RSS, RDF, MARC, DublinCore, OAI-PMH. ● Z poziomu WBC można wyszukiwać (tylko katalogowo – wg metadanych) w zbiorze (14 bibliotek) 26

OAI-PMH ● Umożliwia zadawania zapytań do rozproszonych repozytoriów (664 zarejestrowanych w openarchives.org) ● Kryteria selekcji elementów to: – przynależność do zbiorów – data modyfikacji rekordów ● W odpowiedzi na żądanie Identify otrzymujemy m.in. listę “przyjaznych” repozytoriów - możemy tworzyć sieć FOAF repozytoriów :) ● Narzuca format metadanych (przynajmniej DC), ale nie narzuca formatu danych tj. definiowania zbiorów np. zakresy tematyczne czy formaty obiektów cyfrowych ● Jeden ze sposobów dostarczenia Google Sitemaps 27

Metody rozwiązania ● Kolekcja dokumentów => graf (hiperłącza) ● Autorzy dokumentów => graf (relacje interpersonalne) ● Dziedziny dokumentów => graf (ontologie) ● Metody analizy grafów – Adaptacje znanych metod – Metody autorskie ● Grafy spójność na różnych poziomach => ogólna spójność (ważenie spójności na poziomach) 28

Zastosowania ● Reranking w wyszukiwarkach => filtrowanie ● Ranking w bibliotekach cyfrowych ● Dynamiczne katalogowanie (clustering) ● Analiza dynamiki wiedzy ● SNA 29

Metody weryfikacji ● Brak metody podobnej ● Możliwość porównania z rankingami (PageRank) lub klasyfikatorami (clustering) ● Weryfikacja empiryczna: – Opinie eksperckie – Opinie użytkowników systemu (potrzebna implementacja) 30

Dziękuję pytania? więcej? >> blog naukowy