Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska
Agenda 1. Obecne IR vs potrzeby internautów 2. Nowe możliwości dla IR 3. (Semantic) Blog 4. Autorskie metody badanie spójności 5. Badanie spójności wykorzystując semantykę
Obecne metody wyszukiwania w WWW ● wykorzystyjące treść – przeszukiwanie pełnotekstowe ● wykorzystujące hiperlinki – raknowanie dokumentów (np. Google PageRank) ● Web Mining – analiza logów serwera WWW ● wykorzystujące predefiniowane preferencje użytkownika – personalizacja
“target audience” ● coraz większy procent użytkowników korzystających z zaawansowanych możliwości wyszukiwania, to nie naukowcy ● coraz większe zapotrzebowanie na wyszukiwanie nie tylko dokumentów relewantnych o podobnej treści, ale również: – z konkretnego okresu – konkretnego autora – informacji rozproszonej – informacji nie podanej wprost (wnioskowanie) ● potrzeba natychmiastowej i trwałej aktualizacji wyszukanej informacji
Nowe poziomy informacji możliwe do wykorzystania w IR ● wynik interakcji ze znalezioną informacją: – skomentowanie – ocenienie – poprawienie ● łatwe publikowanie (“Push-Button Publishing”) z dodaniem semantyki ● syndykownia informacji z semantyką ● trend WWW ==>Semantic Web
Blog ● Google ● Yahoo! ● Microsoft ● Onet ● Plus GSM ● łatwość publikowania ● możliwość śledzenia i komentowania innych ● różnorodność zastosowań
Wymogi stawiane systemowi zarządzania informacją (wg Steve Cayzer'a) ● Łatwość używania i “przechwytywania” – minimalne dodatkowe obciążenie użytkownika ● Zdecentralizowana agregacja – możliwość jednorodnego przeszukania informacji z różnych miejsc, w różnym formacie ● Rozproszenie wiedzy – nowa informacja może być dodawana bezpośredio w miejscu znaleziena poprzedniej (np. ocena znalezionej informacji) ● Elastyczny model danych – przechwytywanie informacji z różnego rodzaju mediów ( , strona WWW, obrazek, itp.) ● Rozszerzalność – możliwość (post hoc) “wzbogacania” informacji ● Wnioskowanie – tworzenie nowych informacji na podstawie już przechwyconych
Semantyka blogu ● autor blogu pisze artykuły przydzielając je do zdefiniowanych wcześniej kategorii ● autor blogu śledzi inne blogi – swoich znajomych – związanych z jego zainteresowaniamu (naukowymi) – związanych z wykorzystywanymi przez niego usługami, produktami ● czytelnicy (posiadający własne blogi) mogą komentować artykuły (tworząc dyskusję) ● tak powiązane blogi tworzą blogosferę
Nowe funkcjonalności dzięki blogowi semantycznemu (wg Steve Cayzer'a) ● Semantic view – możliwość przezentacji informacji na różne sposoby, np.: widok tabelaryczny, widok pogrupowany, itd. zależne od czytelnika, a nie od autora ● Semantic navigation – możliwość nawigowania między dokumentami w dynamicznie tworzonej strukturze, np. podążanie powiązaniami typu “zgodny z” lub “jest częścią” ; – możliwe jest też zdefinowanie miary podobieństwa semantycznego => powiązanie typu “podobny do” ● Semantic query – możliwość zadawania pytań o informację rozproszoną, np.: “Znajdź wszystkie recenzje artykułu autora o zadanym nazwisku” lub “Znajdź wszystkie wpisy dotyczące moich znajomych”
Bibliografia ● Steve Cayzer: “Semantic blogging and decentralized knowledge management” Communications of the ACM Volume 47, Number 12 (2004), Pages linklink ● DR Karger, D Quan: “What Would It Mean to Blog on the Semantic Web?” LECTURE NOTES IN COMPUTER SCIENCE, 2004 linklink ● S. Cayzer: “Semantic Blogging: Spreading the Semantic Web Meme” Proc of XML Europe, 2004 linklink
Autorskie podejścia do badania spójności ● sąsiedztwo linka hipertekstowego ● wektory wag terminów – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) ● miara spójności kolekcji dokumentów WWW
Autorskie podejścia do badania spójności (c.d.) ● pośrednie powiązania w grafie dokumentów WWW – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) ● ontologia środowiska hipertekstowego ● relacje ogólny/szczegółowy i rodzeństwo między dokumentami – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) otwarty przewód doktorski: “Metody analizy spójności i zgodności kolekcji dokumentów WWW”
Perspektywy kontynuacji pracy ● Blog można traktować jako kolekcję dokumentów WWW ● Zastosowanie miary spójności dokumentów WWW do wektorów terminów wyznaczonych na podstawie powiązań semantycznych ● Zastosowanie Latent Semantic Analysis ● Zastosowanie metody podobieństwa opinii i odległości semantycznej (Bouillon project)
Wnioski ● Istnieje potrzeba wykorzystania nowych poziomów informacji w IR ● Semantyka jest dobrym sposobem na dostęp do tych poziomów ● Semantic Blogging wydaje się być dobrym sposobem na płynne przejście WWW ==> Semantic Web
Dziękuję za uwagę