Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Wyszukiwanie informacji w Internecie
Szymon Bohdanowicz
2
Internet Ile jest stron internetowych?
netcraft w kwietniu ,693,296
3
Z czym mamy do czynienia?
wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki
4
Katalogi stron internetowych
posiadają strukturę drzewiastą pogrupowane tematycznie bądź regionalnie na ogół są aktualizowane oddolnie Rodzaje: katalogi globalne regionalne tematyczne katalogi firm itd…
5
Przykłady – ogólno światowy katalog otwarty, redagowany przez społeczność - katalog komercyjny – polski katalog stron - ciekawa inicjatywa - katalog firm – katalog blogów
6
Zalety Wady Treść oraz aktualność stron jest weryfikowana
Stosunkowo przejrzysty sposób prezentowania informacji Wady Mała liczba stron – konieczność weryfikacji Komercyjność - linki sponsorowane są wyżej na liście Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii
7
Kilka ogólnych uwag Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??
8
Wyszukiwarki internetowe
strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów Aktualnie są to naprawdę skomplikowane narzędzia składające się z: Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. Indekser - program analizujący i oceniający. Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.
9
W jaki sposób strony są wybierane
Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Przykład -> w przeglądarce
10
W jaki sposób strony są wybierane cd.
Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).
11
Dodatkowe elementy wyszukiwarek
programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) • programy archiwizujące repozytorium, • programy analizy technik zabronionych [spam], • moduły administracyjne.
12
Najważniejszy atut wyszukiwarki
Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.
13
Dodatkowe funkcje wyszukiwarek
Podpowiadanie Poprawianie pisowni Automatyczne tłumaczenie Wyszukiwanie zaawansowane(znaki dodatkowe -> ””, + , -), w określonym języku Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne
14
Google – lider absolutny
Jako pierwszy zastosował analizę topologiczną Jego algorytmy relewancji uznawane są za najdoskonalsze
15
Metawyszukiwarki Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę
16
Przykłady Metacrawler – działa online http://www.ixquick.com/ - online
Copernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)
17
Coś więcej? -> deepweb(głęboka sieć)
18
Struktura sieci Strony internetowe przestały być statycznymi
dokumentami HTML o niezmiennej zawartości. Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.
19
Struktura sieci (głęboka)
Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.
20
Przeszukiwanie deepwebu
– ma dostęp do baz danych, ułatwieniem jest katalog tematyczny - wyszukiwarka akademicka - wyszukiwarka bibliotekarzy
21
Kilka technicznych porad
Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.
22
+ i - przed użytymi słowami
Zastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.
23
wielkie litery Operatory AND, OR
Zazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)
24
Kilka słów kluczowych dla googla
define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) info: wyświetli podstawowe informacje o danej witrynie related: wyświetli strony o podobnym charakterze, podobnej treści filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji
25
Jeszcze kilka link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu
26
Czas na coś wesołego? Ważne linki Coś ciekawego
Mam x lat – czyli google prawdę Ci powie Ważne linki – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego – ciekawa wyszukiwarka lotów
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.