Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wyszukiwanie informacji w Internecie Szymon Bohdanowicz.

Podobne prezentacje


Prezentacja na temat: "Wyszukiwanie informacji w Internecie Szymon Bohdanowicz."— Zapis prezentacji:

1 Wyszukiwanie informacji w Internecie Szymon Bohdanowicz

2 Internet Ile jest stron internetowych? netcraft w kwietniu ,693,296

3 Z czym mamy do czynienia? wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki

4 Katalogi stron internetowych posiadają strukturę drzewiastą pogrupowane tematycznie bądź regionalnie na ogół są aktualizowane oddolnie Rodzaje: – katalogi globalne – regionalne – tematyczne – katalogi firm – itd…

5 Przykłady – ogólno światowy katalog otwarty, redagowany przez społeczność - katalog komercyjny – polski katalog stron - ciekawa inicjatywa - katalog firm – katalog blogów

6 Zalety Treść oraz aktualność stron jest weryfikowana Stosunkowo przejrzysty sposób prezentowania informacji Wady Mała liczba stron – konieczność weryfikacji Komercyjność - linki sponsorowane są wyżej na liście Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii

7 Kilka ogólnych uwag Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??

8 Wyszukiwarki internetowe strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów Aktualnie są to naprawdę skomplikowane narzędzia składające się z: – Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. – Indekser - program analizujący i oceniający. – Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.

9 W jaki sposób strony są wybierane Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. Przykład -> w przeglądarce

10 W jaki sposób strony są wybierane cd. Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).

11 Dodatkowe elementy wyszukiwarek programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) programy archiwizujące repozytorium, programy analizy technik zabronionych [spam], moduły administracyjne.

12 Najważniejszy atut wyszukiwarki Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.

13 Dodatkowe funkcje wyszukiwarek Podpowiadanie Poprawianie pisowni Automatyczne tłumaczenie Wyszukiwanie zaawansowane(znaki dodatkowe ->, +, -), w określonym języku Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne

14 Google – lider absolutny engines-domains.html engines-domains.html Jako pierwszy zastosował analizę topologiczną Jego algorytmy relewancji uznawane są za najdoskonalsze

15 Metawyszukiwarki Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę

16 Przykłady Metacrawler – działa online - online Copernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)

17 Coś więcej? -> deepweb(głęboka sieć)

18 Struktura sieci Strony internetowe przestały być statycznymi dokumentami HTML o niezmiennej zawartości. Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.

19 Struktura sieci (głęboka) Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.

20 Przeszukiwanie deepwebu – ma dostęp do baz danych, ułatwieniem jest katalog tematyczny - wyszukiwarka akademicka - wyszukiwarka bibliotekarzy

21 Kilka technicznych porad Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.

22 + i - przed użytymi słowami Zastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.

23 wielkie litery Zazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)

24 Kilka słów kluczowych dla googla define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) info: wyświetli podstawowe informacje o danej witrynie related: wyświetli strony o podobnym charakterze, podobnej treści filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji

25 Jeszcze kilka link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście site:(typ strony.edu) – wyświetlone zostaną witryny tylko określonego typu

26 Czas na coś wesołego? Mam x lat – czyli google prawdę Ci powie Ważne linki – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego – ciekawa wyszukiwarka lotów


Pobierz ppt "Wyszukiwanie informacji w Internecie Szymon Bohdanowicz."

Podobne prezentacje


Reklamy Google