Wyszukiwanie informacji w Internecie Szymon Bohdanowicz
Internet Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296
Z czym mamy do czynienia? wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki
Katalogi stron internetowych posiadają strukturę drzewiastą pogrupowane tematycznie bądź regionalnie na ogół są aktualizowane oddolnie Rodzaje: katalogi globalne regionalne tematyczne katalogi firm itd…
Przykłady http://www.dmoz.org – ogólno światowy katalog otwarty, redagowany przez społeczność http://dir.yahoo.com - katalog komercyjny http://katalog.wp.pl – polski katalog stron http://kataloog.info/ - ciekawa inicjatywa http://www.pf.pl/ - katalog firm http://najlepsze-blogi.pl – katalog blogów
Zalety Wady Treść oraz aktualność stron jest weryfikowana Stosunkowo przejrzysty sposób prezentowania informacji Wady Mała liczba stron – konieczność weryfikacji Komercyjność - linki sponsorowane są wyżej na liście Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii
Kilka ogólnych uwag Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??
Wyszukiwarki internetowe strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów Aktualnie są to naprawdę skomplikowane narzędzia składające się z: Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. Indekser - program analizujący i oceniający. Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.
W jaki sposób strony są wybierane Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Przykład -> w przeglądarce
W jaki sposób strony są wybierane cd. Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).
Dodatkowe elementy wyszukiwarek programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) • programy archiwizujące repozytorium, • programy analizy technik zabronionych [spam], • moduły administracyjne.
Najważniejszy atut wyszukiwarki Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.
Dodatkowe funkcje wyszukiwarek Podpowiadanie Poprawianie pisowni Automatyczne tłumaczenie Wyszukiwanie zaawansowane(znaki dodatkowe -> ””, + , -), w określonym języku Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne
Google – lider absolutny http://www.ranking.pl/pl/rankings/search-engines-domains.html Jako pierwszy zastosował analizę topologiczną Jego algorytmy relewancji uznawane są za najdoskonalsze
Metawyszukiwarki Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę
Przykłady Metacrawler – działa online http://www.ixquick.com/ - online Copernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)
Coś więcej? -> deepweb(głęboka sieć)
Struktura sieci Strony internetowe przestały być statycznymi dokumentami HTML o niezmiennej zawartości. Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.
Struktura sieci (głęboka) Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.
Przeszukiwanie deepwebu www.completeplanet.com – ma dostęp do 70000 baz danych, ułatwieniem jest katalog tematyczny http://infomine.ucr.edu/ - wyszukiwarka akademicka http://www.ipl.org/ - wyszukiwarka bibliotekarzy
Kilka technicznych porad Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.
+ i - przed użytymi słowami Zastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.
wielkie litery Operatory AND, OR Zazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)
Kilka słów kluczowych dla googla define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) info: wyświetli podstawowe informacje o danej witrynie related: wyświetli strony o podobnym charakterze, podobnej treści filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji
Jeszcze kilka link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu
Czas na coś wesołego? Ważne linki Coś ciekawego Mam x lat – czyli google prawdę Ci powie Ważne linki http://websearch.about.com – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego http://www.azuon.com/ – ciekawa wyszukiwarka lotów