Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika.

Slides:



Advertisements
Podobne prezentacje
Rozwój infrastruktury sportowej w Gminie Wyszków Analiza wariantowa.
Advertisements

Modele biznesowe. Podręcznik Model biznesowy to w pewnym sensie szkic strategii, która ma zostać wdrożona w ramach struktur, procesów i systemów organizacji.
OBOWIĄZKI INFORMACYJNE BENEFICJENTA Zintegrowane Inwestycje Terytorialne Aglomeracji Wałbrzyskiej.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
 Rodzaje rozmów    Emotikony    Najpopularniejsze Czaty w Polsce    Najpopularniejsze komunikatory w Polsce    Plusy używania komunikatorów.
InMoST, Analiza architektury metodą ATAM Jerzy Nawrocki
Portale społecznościowe. Serwis społecznościowy  to serwis internetowy, który istnieje w oparciu o zgromadzoną wokół niego społeczność. Tworzy tak zwane.
Olsztyn, 27 czerwca 2012 Propozycja zmian kryteriów merytorycznych dla Osi I Przedsiębiorczość RPO WiM w ramach Poddziałania
Rekomendacje – strategia komunikacji Chiny i Japonia Ze względu na istotne podobieństwa w stylach podróżowania i preferowanych formach aktywności podczas.
Warstwa biznesowaWarstwa techniczna ??? To przejście jest połączone z innym procesem To przejście wywołuje samowyzwalacz To przejście jest warunkowe.
Departament Zarządzania Funduszami i Projektami Unijnymi GRUPA ROBOCZA WSPIERAJĄCA PRZYGOTOWANIE KUJAWSKO – POMORSKIEGO REGIONALNEGO PROGRAMU OPERACYJNEGO.
Literary Reference Center Przewodnik
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Usługi socjalne dla osób starszych w Helsinkach Päivi Riikonen Satu Vihersaari-Virtanen
Innowacje i konkurencyjność łańcuchów dostaw we współczesnej gospodarce Dr hab. Grażyna Śmigielska, Prof. UEK.
Funkcjonalność oprogramowania Bazy Wiedzy i Repozytorium Politechniki Warszawskiej Prof. dr hab. inż. Henryk Rybiński, dr inż. Jakub Koperwas, dr inż.
Zapraszamy na naszą stronę. Zależy nam na kontakcie z Wami. Czytajcie, komentujcie i dyskutujcie na forum. Nic o Was bez Was Zapraszamy na naszą stronę.
Repozytoria uczelniane i ich rola w projekcie SYNAT Warszawa Maj 2013 Jak Cię widzą, tak Cię piszą…
Ocena oddziaływania na środowisko jako warunek uzyskania funduszy unijnych w ramach I i II osi priorytetowej Programu Operacyjnego Infrastruktura i Środowisko.
Platforma szkoleniowa – najważniejsze funkcjonalności.
Microsoft PowerPoint. Metodyka „dobrej” prezentacji.
Komunikatory Zespół Szkół Zawodowych Nr 3 im. Adama Kocura w Katowicach - Janowie.
Wieloaspektowa analiza czasowo- kosztowa projektów ze szczególnym uwzględnieniem kryterium jakości rozwiązań projektowych AUTOR: ANNA MARCINKOWSKA PROMOTOR:
Jak zaliczyć wykład: Dobrzy żołnierze, dobrzy aktorzy – kształtowanie swojego wizerunku w pracy? dr Aleksandra Spik.
 Indywidualne  Tylko dla określonej grupy – określone kraje (lagging countries „Widespread ”) przemysł (SMEs)  Mające konkretny cel np szkolenie młodych.
Papierosy to zła rzecz, z nim zdrowie idzie precz!!! Autor: Weronika Pączek.
Marek Kozłowski Przyszłość PBN. Wprowadzenie Usługi Web Servicowe – Własne – Integracja z Thomson Reuters Nadawanie ról w pełni automatycznie (brak papieru)
Raport cytowań & indeks h DR KLEMENTYNA KARLIŃSKA-BATRES WEB OF SCIENCE.
Analiza spójności dokumentów z wykorzystaniem ukrytego kontekstu na przykładzie bazy 'i firmy Enron. Marek Kopel Zakład Systemów Informacyjnych Instytut.
Jak tworzymy katalog alfabetyczny? Oprac.Regina Lewańska.
Metody analizy spójności i zgodności kolekcji dokumentów WWW Ph.D. reprise Marek Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej.
Moduł SDI – zasilanie węzłów IIP oraz wykorzystanie danych. Wprowadzenie. Szkolenie przeprowadzone w ramach projektu „TERYT 3 – Rozbudowa systemów do prowadzenia.
Projektowanie prezentacji multimedialnych Piotr Rakowski Gliwice 2006.
Systemy Informacyjne 2016/2017 Wydział Informatyki i Zarządzania Katedra Systemów Informa tyczn ych
Zarządzanie przez Internet. Klasyczne funkcje zarządza to: planowanie, organizowanie, decydowanie, motywowanie i kontrolowanie. Dzięki rozwojowi techniki.
OFERTA NA ZAMIESZCZENIE REKLAM NA PORTALU JakZdacMatureZmatematyki
Międzynarodowe opodatkowanie emerytur – ujęcie modelowe
BADANIE KRYTERIÓW POZACENOWYCH W PRZETARGACH PUBLICZNYCH
i otwarta platforma IT Uniwersytet Warszawski (Centrum Deliberacji IS)
Komunikacja ze szkołą i nauczycielami - dziennik elektroniczny
Wytwarzanie oprogramowania sterowane przypadkami testowymi
Full Text Finder Przegląd Publication Finder
Trendy w Public Relations
Modele SEM założenia formalne
Budowa, typologia, funkcjonalność
Media Alternatywne.
Przewodnik Udoskonalanie listy wyników w wyszukiwarce naukowej
Wstęp do Informatyki - Wykład 8
Materiały pochodzą z Platformy Edukacyjnej Portalu
- Krajowe Repozytorium Obiektów Nauki i Kultury
Systemy CMS Fabian Szydłowski 3f.
PROGRAMY DO KONTROLI RODZICIELSKIEJ
Git - system kontroli wersji
„Zagrożenia związane z użytkowaniem Internetu”
Selekcja zmiennych w trybie zaawansowanym -
KONFERENCJA „Ogólnopolski Dzień Tornistra”
Spotkanie informacyjne projektu Podniesienie kompetencji kadry dydaktycznej UMK Zadanie 4 (IINiB)
Jak korzystać z usługi Video s i Raportu Kontaktów
ROLA DYSTRYBUTORA W PROCESIE DOSTARCZANIA INFORMACJI MEDYCZNEJ
Zapraszamy do nowego programu PowerPoint
Impact Factor wskaźnik oddziaływania czasopisma
Microsoft Office Project 2003 Professional
Zapraszamy do nowego programu PowerPoint
Zapraszamy do nowego programu PowerPoint
Pobranie logo programu Microsoft Partner Network Instrukcja
Cytowania i H-indeks pod kontrolą
Prezentacja informacji w biznesie
a silverchair information system
Łatwa obsługa Prosta instalacja Wieczysta licencja Praca w sieci
Zapis prezentacji:

Badanie spójności dokumentów WWW na podstawie semantyki blogów Marek Kopel Zakład Systemów Informacyjnych Instytut Informatyki Stosowanej Politechnika Wrocławska

Agenda 1. Obecne IR vs potrzeby internautów 2. Nowe możliwości dla IR 3. (Semantic) Blog 4. Autorskie metody badanie spójności 5. Badanie spójności wykorzystując semantykę

Obecne metody wyszukiwania w WWW ● wykorzystyjące treść – przeszukiwanie pełnotekstowe ● wykorzystujące hiperlinki – raknowanie dokumentów (np. Google PageRank) ● Web Mining – analiza logów serwera WWW ● wykorzystujące predefiniowane preferencje użytkownika – personalizacja

“target audience” ● coraz większy procent użytkowników korzystających z zaawansowanych możliwości wyszukiwania, to nie naukowcy ● coraz większe zapotrzebowanie na wyszukiwanie nie tylko dokumentów relewantnych o podobnej treści, ale również: – z konkretnego okresu – konkretnego autora – informacji rozproszonej – informacji nie podanej wprost (wnioskowanie) ● potrzeba natychmiastowej i trwałej aktualizacji wyszukanej informacji

Nowe poziomy informacji możliwe do wykorzystania w IR ● wynik interakcji ze znalezioną informacją: – skomentowanie – ocenienie – poprawienie ● łatwe publikowanie (“Push-Button Publishing”) z dodaniem semantyki ● syndykownia informacji z semantyką ● trend WWW ==>Semantic Web

Blog ● Google ● Yahoo! ● Microsoft ● Onet ● Plus GSM ● łatwość publikowania ● możliwość śledzenia i komentowania innych ● różnorodność zastosowań

Wymogi stawiane systemowi zarządzania informacją (wg Steve Cayzer'a) ● Łatwość używania i “przechwytywania” – minimalne dodatkowe obciążenie użytkownika ● Zdecentralizowana agregacja – możliwość jednorodnego przeszukania informacji z różnych miejsc, w różnym formacie ● Rozproszenie wiedzy – nowa informacja może być dodawana bezpośredio w miejscu znaleziena poprzedniej (np. ocena znalezionej informacji) ● Elastyczny model danych – przechwytywanie informacji z różnego rodzaju mediów ( , strona WWW, obrazek, itp.) ● Rozszerzalność – możliwość (post hoc) “wzbogacania” informacji ● Wnioskowanie – tworzenie nowych informacji na podstawie już przechwyconych

Semantyka blogu ● autor blogu pisze artykuły przydzielając je do zdefiniowanych wcześniej kategorii ● autor blogu śledzi inne blogi – swoich znajomych – związanych z jego zainteresowaniamu (naukowymi) – związanych z wykorzystywanymi przez niego usługami, produktami ● czytelnicy (posiadający własne blogi) mogą komentować artykuły (tworząc dyskusję) ● tak powiązane blogi tworzą blogosferę

Nowe funkcjonalności dzięki blogowi semantycznemu (wg Steve Cayzer'a) ● Semantic view – możliwość przezentacji informacji na różne sposoby, np.: widok tabelaryczny, widok pogrupowany, itd. zależne od czytelnika, a nie od autora ● Semantic navigation – możliwość nawigowania między dokumentami w dynamicznie tworzonej strukturze, np. podążanie powiązaniami typu “zgodny z” lub “jest częścią” ; – możliwe jest też zdefinowanie miary podobieństwa semantycznego => powiązanie typu “podobny do” ● Semantic query – możliwość zadawania pytań o informację rozproszoną, np.: “Znajdź wszystkie recenzje artykułu autora o zadanym nazwisku” lub “Znajdź wszystkie wpisy dotyczące moich znajomych”

Bibliografia ● Steve Cayzer: “Semantic blogging and decentralized knowledge management” Communications of the ACM Volume 47, Number 12 (2004), Pages linklink ● DR Karger, D Quan: “What Would It Mean to Blog on the Semantic Web?” LECTURE NOTES IN COMPUTER SCIENCE, 2004 linklink ● S. Cayzer: “Semantic Blogging: Spreading the Semantic Web Meme” Proc of XML Europe, 2004 linklink

Autorskie podejścia do badania spójności ● sąsiedztwo linka hipertekstowego ● wektory wag terminów – Cz. Daniłowicz, M. Kopel: “Analysis Method Of Coherency And Topical Relevancy For Web Document Collections” (ISAT’03) – M. Kopel: “Identyfikacja Spamu Na Podstawie Analizy Spójności Wiadomości” (MiSSI’04) ● miara spójności kolekcji dokumentów WWW

Autorskie podejścia do badania spójności (c.d.) ● pośrednie powiązania w grafie dokumentów WWW – M. Kopel, Cz. Daniłowicz: “Method of Completing the Consistency Graph of a Hyperlinked Document Collection” (MTAII’04) ● ontologia środowiska hipertekstowego ● relacje ogólny/szczegółowy i rodzeństwo między dokumentami – M. Kopel, Cz. Daniłowicz: “Measuring The Importance Of Concepts And Relations Between The Concepts In A Hypertext Collection” (ISAT’04) otwarty przewód doktorski: “Metody analizy spójności i zgodności kolekcji dokumentów WWW”

Perspektywy kontynuacji pracy ● Blog można traktować jako kolekcję dokumentów WWW ● Zastosowanie miary spójności dokumentów WWW do wektorów terminów wyznaczonych na podstawie powiązań semantycznych ● Zastosowanie Latent Semantic Analysis ● Zastosowanie metody podobieństwa opinii i odległości semantycznej (Bouillon project)

Wnioski ● Istnieje potrzeba wykorzystania nowych poziomów informacji w IR ● Semantyka jest dobrym sposobem na dostęp do tych poziomów ● Semantic Blogging wydaje się być dobrym sposobem na płynne przejście WWW ==> Semantic Web

Dziękuję za uwagę