GeoTrackerPast Web tracking in 4 dimensions
Informacje Temat: System wyszukiwania haseł w Internecie(?) Promotor: dr Mikołaj Morzy Skład: – Tomasz Szymanowski – Łukasz Wieczorek – Paweł Zaleski
Teza Istnieją wzorce rozprzestrzeniania sie informacji w Internecie
Technologie Java Java Servlet Oracle MySQL WebSphinx Yahoo! Maps API HTML, CSS, JavaScript
Zbiór początkowy Wykorzystanie API Yahoo BOSS Problem: Ograniczony i nieróżnorodny zbiór wyników. Rozwiązanie: Prosty mechanizm dywersyfikacji – Kilka żądań dla Yahoo BOSS w różnych językach – Łączenie poszczególnych zbiorów w jeden.
Przeszukiwanie Wykorzystanie API Websphinx Problem: otrzymanie trafnego zbioru wyników w jak najkrótszym czasie. Rozwiązanie: priorytetowy algorytm przeszukiwania.
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Algorytm przeszukiwania Zbiór początkowy
Priorytety linków 1.Zbiór początkowy. 2.URL linkujące do innej domeny. 3.URL linkujące do tej samej domeny. 4.URL zawierające samą domenę (bez podstrony). 5.URL linkujący do domeny znajdującej się na czarnej liście
Wyznaczanie daty Znajdowanie daty dla danej strony – pobranie ze znaczników meta strony – pobranie z nagłówku http strony – wyszukanie w treści strony Problemy – Nie znaleziono żadnej daty – Znaleziono wiele dat w treści strony Rozwiązanie – Wykorzystanie górnego ograniczenia – Pobranie daty, która znajduje się w bezpośrednim sąsiedztwie wyszukiwanego pojęcia
Analiza składniowa Zapisywanie dat w ujednoliconym formacie Problemy: –różne języki i formaty dat –niejednoznaczności Rozwiązanie –obsługa najpopularniejszych języków i formatów dat –wykorzystanie wyrażeń regularnych
Prezentacja wyników Wykorzystanie Yahoo! Maps API Grupowanie i wyświetlenie zbioru współrzędnych na mapie Algorytm grupowania oparty na algorytmie minimalnego drzewa rozpinającego Problem: duża złożoność algorytmu grupowania Rozwiązanie: Jednorazowe wykonanie obliczeń dla danego pojęcia i zapisanie wyników w bazie
Algorytm grupowania