Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut.

Podobne prezentacje


Prezentacja na temat: "Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut."— Zapis prezentacji:

1 Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska

2 Plan wystąpienia ➢ spójność dokumentów ➢ ukryty kontekst ➢ semantyczne informacje o relacjach między autorami dokumentów WWW ➢ siła relacji między autorami ➢ baza 'i Enron ➢ adaptacja metody do Enron'a ➢ inne badania na Enron'ie 2

3 Czego dotyczy analiza spójności? ● głównie dokumentów tekstowych w WWW ● nie wykluczam MM, ale ich wyszukiwanie to wciąż nierozwiązany problem (osobne badania) 3

4 Dokument WWW From Wikipedia, the free encyclopedia ● A web page or webpage is a resource of information that is suitable for the World Wide Web and can be accessed through a web browser. This information is usually in HTML or XHTML format, and may provide navigation to other web pages via hypertext links. ● Web document is a similar concept to web page, except with the following distinctions: – a web page is traditionally transferred using the HTTP or the HTTPS protocol; – a web document may be transferred over any of various Internet communication protocols for use in various kinds of client applications; – a web page is ordinarily restricted to connote HTML, XHTML or another markup language as the primary presentation specficiation; – a web document may consist of any type of document type or MIME Content-Type or file format; – a web document may consist of a compound document, or an attachment to another document or message; and – a web document is a more expansive definition, which includes the traditional definition for 'web page'. 4

5 Spójność dokumentów 3-stopniowa spójności dokumentów: ● podobieństwo treści (content similarity) – znane metody, np. tf-idf ● sąsiedztwo linków, (hyperlink neighbourhood based consistency) – wcześnejsze prace autorskie – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) ● ukryty kontekst (semantic based latent context consistency) – obecnie prowadzone badania 5

6 Ukryty kontekst ● kontekst dokumentów wynikający w semantycznej informacji o relacji pomiędzy autorami/czytelnikami dokumentów ● "you write what you read" – intuicyjna teoria, “an old saw” – rozprawa doktorska Maloney, Henry B., English Journal, v74 n5 p28-32 Sep 1985 ● znane (i stosowane) standardy – publikowania relacji między użytkownikami: FOAF, XFN – wiązania dokumentów komentujących z komentowanymi - Linkback 6

7 Spójności dokumentów na podstawie relacji między autorami ● Artykuły np. n/t Baz Danych będą bardziej spójne, jeśli pisane przez naukowców z jednego zakładu niż z 2 uczelni na różnych kontynentach, bo np. dotyczą wspólnego modelu baz, przyjmują podobne założenia, definicje, słownictwo, mają wspólne środowisko do weryfikowania swoich teorii. ● Ale z drugiej strony: osoby o takich samych zainteresowaniach naukowych będą częściej śledziły i komentowały nawzajem swoje blogi, niż ludzi ze swojego otoczenia (fizycznego) zajmujących się innymi rzeczami. 7

8 FOAF ● “Friend of a friend” ● ● FOAF Vocabulary Specification – Namespace Document 27 July 2005 ● FOAF Explorer, foafnaut – human-readable ● FOAFBulletinBoard – spis powrzechny 8

9 XFN ● XHTML Friends Network ● Jan Kowalski ● rubhub – wyszukiwarka relacji między autorami stron domowych (blogów) 9

10 Linkback ● ewolucja: SCI → ACI → Linkback (blogi) ● 3 rodzaje (porównanie):porównanie – Refback – Trackback – Pingback ● powiadamianie autora komentowanego/recenzowanego dokumentu ● odsyłacze do komentarzy (nawet na innych serwerach) dołączane do pierwotnego dokumentu 10

11 Siła relacji (1) Siła relacji między 2 użytkownikami zależy od: ● komunikacji między nimi ( , IM, VoIP,...) ● komentowania/powoływania się na swoje dokumenty (linkback) ● jawnej deklaracji relacji z drugim użytkownikiem przez foaf.rdf i/lub XFN'owy odsyłacz 11

12 Siła relacji (2) ● oznaczenia: – A, B – autorzy – c – miara komunikacji autora A do B – l – miara komentarzy autora A do dokumentów autora B – f – miara typu relacji autora A do B – rs(A→B) - siła relacji autora A do autora B (niesymetryczna) rs(A→B) =f(A, B, c, l, f) (wstępna wersja) 12

13 Dalsze badania ● sformułować szczegółową definicję siły relacji między autorami ● ustalić własności siły relacji – twierdzenia (dowody) ● zaplanować eksperymenty – zbiory danych dla dokumentów WWW (np. dostępny FOAF) 13

14 Enron Dataset ● dane zebrane i przygotowane przez CALO Project (A Cognitive Assistant that Learns and Organizes) ● 619,446 'i w 158 skrzynkach pocztowych pracowników Enron (firma energetyczna w USA, która zbankrutowała w 2001 r.) ● dane opublikowane przez Federal Energy Regulatory Commission podczas śledztwa, później zakupione przez by Leslie MIT, poprawiona ich integralność i udostępnione do badań ● plik March 2, 2004 Version of dataset (about 400Mb, tarred and gzipped) spod 14

15 Przygotowanie zbioru (1) ● enron_mail_ tar.gz wielkości 367 MB po rozkompresowaniu i rozpakowaniu - 2,6 GB ● import katalogów z plikami do bazy MySQL (skrypt PHP - MIME parser) ● problem z czasem → czas lokalny + strefa czasowa ● problem z wielo-adresatem → dodatkowe pole o liczbie adresatów ● problem z duplikatami np. w sent_items nadawcy i inbox odbiorcy → import tylko katalogów sent_items ( maili w 12 min.) 15

16 Przygotowanie zbioru (2) ● nadal problem z wielo-adresatem: – nie rozbijać – trudniej identyfikować pojedyncze osoby (adresy) – rozbijać na osobne rekordy – trudniej identyfikować pojedyncze maile → wersja 2 z 2 tabelami: ADR i SENT (import 55 min.) ● po rozbiciu wielo-adresata: – dziwne adresy, typu: – problem jak automatycznie powiązać adresy typu: ● ● ● ● 16

17 Wstępne analizy ● Najwięcej wysłanych przez /user: – 8877, 7148 ● Najwięcej przysłanych do /user: 2697 – Vince Kamiński - “Company risk analyst (...), the in-house risk- management genius (...)” ● 232 różnych nadawców (a tylko 150 skrzynek?) ● różnych odbiorców (wliczając 6997 kombinacji multi-adresatów - najczęstsza kombinacja do 95 adresatów użyta przez 102 nadawców) ● Analiza czasowa – Najczęściej wysyłane o 8”, najrzadziej o 21” (czasu lokalnego) – Najwięcej w 2001r. i 2000r. – Najwięcej w 16 tygodniu 2001 – Najczęściej we wtorek, najrzadziej w sobotę – Najczęściej w styczniu, najrzadziej w lipcu 17

18 Adaptacja metody dla Enron (1) ● “martwa baza” ● skrzynka to nie WWW ● na siłę relacji ma wpływ tylko komunikacja między autorami (liczba wysłanych 'i) 18

19 Adaptacja metody dla Enron (2) ● przechodniość siły relacji ● badamy relację A → C, ale A nie wysyłał nic C ● ale wykorzystując teorię FOAF i wiedzę, że rs(A → B) i rs(B → C) są niezerowe może my aproksymować przechodnią siłę relacji: 19

20 Pomysł aplikacji ● maildir wystawiony na WWW i zaindeksowany przez Google (Google Co-op Custom Search Engine) ● Google AJAX Search API (Beta) jako podstawa interfejsu do przeszukiwania maildir'a ● re-ranking wyszukanych 'i na bazie siły relacji między nadawcami – po wybraniu 'a lista kolejnych jest sortowana tak, że najpierw są e tego samego nadawcy i nadawców w najsilniejszej z nim relacji ● filtrowanie wyszukanych 'i uwzględniając ich spójność – długość listy wyszukanych 'i można regulować suwakiem spójności 20

21 Inne badania na bazie Enron ● analiza statystyczna – J. Shetty, J. Adibi, The Enron Dataset, Database. Schema and Brief Statistical Report ● klasyfikacja wiadomości z 7 skrzynek pocztowych do folderów tematycznych na postawie 4 klasyfikatorów: MaxEnt, Naive Bayes, SVM and Winnow – R. Bekkerman, A. McCallum, G. Huang: Automatic Categorization of into Folders: Benchmark Experiments on Enron and SRI Corpora. CIIR Technical Report IR ● SNA do wykrycia ról pracowników, MD5 m.in. do identyfikacji duplikatów 'i ( unikatowych z ) – A Corrada-Emmanuel, A McCallum, X Wang: Language Use in a Social Network: The Enron Dataset. CNLP Seminars, 2004 – A. Corrada-Emmanuel: Enron Dataset Research ● klastering i wizualizacja sieci społecznej właścicieli skrzynek pocztowych w enron.com – J. Heer: Exploring Enron. Visual Data Mining of . UC Berkeley Enron Analysis Project

22 Baza Enron w produktach komercyjnych ● Enron Explorer jako reklamówka produktu SONAR platform (Social Networks And Relevance) firmy Trampoline Systems Enron Explorer – wyszukiwarka 'i z mapowaniem do motywów tematycznych (theme) i z java'ową wizualizacją sieci społecznej ● Enron jako przykład InBoxer Anti-Risk Appliance - AJAX'owej aplikacji do wykrywania potencjalnych zagrożeń wynikających z korespondencji firmowej Enron – m.in. możliwości grupowania/filtrowania wiadomości na podstawie semantyki wiadomości, np. wiadomości prywatne, dot. medycyny czy z “niestosowną treścią” (żarty, łańcuszki,...) 22

23 Możliwości wykorzystania bazy Enron ● Analizy dotyczące chronologii (dynamika sieci społecznej) ● Wpływ częstości i regularności komunikacji na siłę relacji ● Uszczegółowienie relacji między pracownikami na podstawie wątków wiadomości (threads) ● Budowa ontologii na podstawie folderów tematycznych ● Identyfikacja spamu na podstawie folderów deleted_items 23

24 Dziękuję pytania? więcej? >> blog naukowy marekopel.wordpress.com 24


Pobierz ppt "Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut."

Podobne prezentacje


Reklamy Google