Skuteczne przeszukiwanie internetu

Skuteczne przeszukiwanie internetu

Katalogi tematyczne redagowane są przez ludzi
zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne prowadzone są przez duże portale

Katalogi tematyczne

Pierwsza wyszukiwarka
Pierwowzorem wyszukiwarek był program stworzony na Uniwersytecie w Colorado przez Oliviera McBriana w 1994 r. zwany Robakiem WWW (ang. Worm WWW). Program ten przeszukiwał i skanował dostępne wówczas zasoby sieci, a następnie indeksował je w bazie danych Metodę opracowaną przez McBriana z wieloma modyfikacjami stosuje się w wyszukiwarkach do dnia dzisiejszego

Elementy wyszukiwarki
Robot (pająk, spider) – program, który przeszukuje sieć internetową, zbiera informacje o znalezionych stronach, indeksowane zawarte na nich treści Indekser – generuje bazę stron WWW, tworzy spis słów kluczowych charakteryzujących znalezione strony Index – to posortowana lista wszystkich unikalnych słów, wraz z odnośnikami do adresów dokumentów w których wystapiły

Reguły pracy robota praca metodą wędrówki po odsyłaczach
filtrowanie treści stron unikanie dokumentów generowanych dynamicznie nie wolno mu blokować serwerów bezustannymi zapytaniami dokonywanie wyborów jakimi odsyłaczami podążać honorowanie zakazów dostępu do pewnych zasobów (zapisanych w pliku „robots.txt”)

Wady wyszukiwarek trudność w skonstruowaniu adekwatnego zapytania, współcześnie wyszukiwarka automatycznie rozważa pewne modyfikacje frazy wpisanej przez użytkownika brak oceny merytorycznej zwracanych zasobów (wyszukiwarki są automatami) podatność na sztuczne zawyżanie pozycji rankingowej wybranej strony, czergo przykłądem są tzw. farmy treści

Niewidzialna sieć (ang. Hidden Web, Deep Web)
Niewidzialna sieć to ogólnie strony internetowe wyłączone z procesu indeksacji (np. ze względów prawnych lub z powodu zablokowania dostępu do nich) Roboty nie mają do nich dostępu, żadna z wyszukiwarek nie indeksuje tekiej strony Szacuje się, że niewidzialna sieć jest nawet trzy razy większa aniżeli ogół stron zaindeksowanych przez wyszukiwarki

Niewidzialna sieć (ang. Hidden Web)
Przeszukiwanie ukrytego internetu wymaga specjalnych strategii wyszukiwawczych ww.lib.lsu.edu/instruction/deepweb/deepweb-print.html

Niewidzialna sieć (ang. Hidden Web)
Sposób na ukryty internet to: wyszukiwarki specjalne: katalogi prasowe bazy informacji branżowej

Serwisy Subject Gateways
To dziedzinowe przewodniki po zasobach internetowych uporządkowane według kategorii. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny Zobacz wykaz na stronie:

DIRECT SEARCH To serwis autorstwa Gary’ego Price’a — bibliotekarza amerykańskiego zajmującego się porządkowaniem informacji w internecie, wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi wyszukiwawczych, ułatwiających dostęp do zasobów „ukrytych” Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór zasobów elektronicznych

Wyszukiwarki naukowe Oparta o zasoby biblioteki wirtualnej:
Wyszukiwarka zasobów naukowych, także płatnych Wyszukiwarka zasobów naukowych, oparta na mechanizmach i interface Google

Katalogi naukowe Academic Info http://www.academicinfo.net SciCentral
BUBL Information Service

Wyszukiwarka schemat działania

Multiwyszukiwarki Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż % stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy dają odmienne rezultaty nawet dla tej samej bazy danych To serwisy internetowe lub instalowane na dysku programy, które przekazują zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej spójnej listy Nie dysponują one własnymi indeksami W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria wyszukiwania Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych wyszukiwarkach

Typu multiwyszukiwarek
serwisy typu „lista” – są to strony, na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek, użytkownik może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało znanych wyszukiwarkach i katalogach serwisy poszukujące pojedyńczo – oferują przeważnie jedno pole do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi, które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle wyświetlane są przy zachowaniu podziału na poszczególne narzędzia serwisy poszukujące równolegle – łączą się jednocześnie z wieloma (wybranymi przez użytkownika) narzędziami

Kryteria w rankingu wyszukiwarki
tytuł strony: czy dane słowo kluczowe występuje w tytule adres: czy dane słowo kluczowe występuje w adresie styl: czy dane słowo kluczowe występuje jako tekst nagłówka, pogrubiony, ukośny (wyróżniony) gęstość: jak wiele razy dane słowo kluczowe powtarza się na stronie (liczba słów kluczowych w stosunku do zawartości tekstu na stronie nazywamy gęstością słowa kluczowego) metainformacja: większość wyszukiwarek bierze pod uwagę teksty zapisane w meta znacznikach odsyłacze na stronie: silnik sprawdza do ilu i jakich stron prowadzą linki zawarte na stronie (strony, do których prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)

Metainformacja znaczniki META w nagłówku stronu
<META NAME=”robots” CONTENT=”parametry”> — zadaniem tego elementu jest instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku parametrów można określić, gdzie chcemy wpuścić robota i co może on indeksować: NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki; INDEX – pozwala robotom indeksować dokument; NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki z indeksowanej strony; FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze przez odsyłacze z danej strony; NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być indeksowany); <META NAME=”description” CONTENT=”opis strony”> — pozwala na umieszczenie krótkiego opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści witryny

Metawyszukiwarki

Jedna z największych wyszukiwarek globalnych. Umożliwia nie tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk, plików muzycznych, nagrań wideo, bieżących wiadomości itp. Wprowadzone słowa są domyślnie łączone spójnikiem logicznym LUB (OR)

szukaj.onet.pl Bazuje na dwóch wyszukiwarkach — doprzeszukiwania polskich zasobów Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie zasoby polskich stron około 2,5 mln. Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW, zasobów polskich i światowych, ale również encyklopedii, baz danych dostępnych na portalu oraz plików w wielu formatach.

Przykłady innych wyszukiwarek:
Anglojęzyczne wyszukiwarki naukowe: Polskojęzyczneczne serwisy naukowe Wyszukiwarki plików: Wyszukiwarki plików programów: .pl

Lider wśród wyszukiwarek Google

Google 29

Arytmetyka wyszukiwania na przykładzie Google
jeśli podamy wyszukiwarce szereg słów, wyszuka ona dokumenty zawierające którekolwiek z nich wielkość liter nie odgrywa roli Google ignoruje występujące w zapytaniu pojedyncze litery lub cyfry zapytanie może zawierać wyłącznie litery i cyfry (wyjątek stanowią tzw. znaki specjalne) z zapytania automatycznie eliminowane „słowa nieznaczące” tj. występujące w danym języku tak często, że można je znaleźć praktycznie, w każdym dokumencie (np. do, i , jak, już)

Znaki specjalne

Operatory logiczne operator OR (lub) – w odpowiedzi zostaną uwzględnione dokumenty zawierające przynajmniej jedno ze słów nim rozdzielonych np. laptop (dell or asus) nawiasy – grupowanie wszelkiego rodzaju warunków wyszukiwania maksymalna liczba słów w zapytaniu wynosi 10 * (gwiazdka) – zastępowanie całych słów np. stół z * nogami

Składniki odpowiedzi Tytuł dokumentu Kontekst
Opis wprowadzony przez redaktora i nazwa kategorii (w przypadku Katalogu) Adres Rozmiar strony Kopia Odsyłacze Podpowiedzi Google…

Otwieranie odnalezionej strony w nowym oknie

Specjalne dyrektywy wyszukiwania w Google
Zapytanie może zawierać jedną lub kilka specjalnych dyrektyw, umożliwiających nakładanie dodatkowych warunków dotyczących poszukiwanych informacji oraz uzyskanie dodatkowych informacji o stronach przechowywanych w bazie danych wyszukiwarki.

w tytule strony intitle: wszystkie słowa w tytule allintitle: tylko w tekście strony intext: lub allintext: w nazwach odsyłaczy inanchor: w adresach inurl: lub allinurl: w konkretnym serwisie site: w określonych typach plików filetype: wykluczenie określonego typu pliku -filetype:

Szukanie zaawansowane
38

Wyszukiwanie obrazów Podczas wyszukiwania możesz określić:
żądany rozmiar w pikselach, format pliku (GIF lub JPEG), kolor, lokalizacja (domena), można także wykorzystywać dyrektywy: intitle:, filetype:, inurl:, site: 39

Wyszukiwanie graficzne images.google.pl
Google wprowadził też wyszukiwanie niejako odwrotne — masz grafikę, dowiedz się, co wie o niej sieć Sposób 1 przeciągnij posiadany plik na pole wyszukiwania w serwisie Sposób 2 kliknij ikonkę aparatu i „Prześlij obraz” Sposób 3 kliknij ikonkę aparatu i „Wklej adres URL obrazu”

Wyszukiwanie graficzne

Najpopularniejsze serwisy wyszukiwawcze

Ocena wyszukiwarek Kryteria
wielkość bazy aktualność danych „ręczny” czy „automatyczny” sposób tworzenia bazy mechanizmy dopasowania wyników do zapytań użytkowników jakość interfejsu (czytelność wyników, dodatkowe opcje popularność mierzona liczbą bieżących zapytań

Skracanie adresów internetowych
Pozwala skrócić długie linki zanim je komuś podasz, dzięki czemu będą łatwiejsze do zapamiętania i odporne na zniekształcenia np. podczas przesyłania w listach elektronicznych. Skracanie adresu przez serwis polega na utworzeniu na serwerze tzw. aliasu, który działa tak samo jak skróty tworzone w systemie operacyjnym. Zwykle takie aliasy nie są nigdy usuwane, działają zawsze póki działa serwis.

Zalety skracania długich adresów
pozwala wpisać adresu w miejscu, gdzie liczba znaków jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie komunikatora; długie adresy często są ucinane we wpisach na forach internetowych, w programach pocztowych itp.; odsyłacze wygenerowane np. przez wyszukiwarkę czy skrypt php na stronie internetowej jest wręcz niemożliwy do zapamiętania, a można go skrócić do minimum; wiele serwisów daje możliwość wyboru własnej nazwy dla skrótu; Jeden skrót może odnosić się do wielu podstron serwisu.

Skracanie adresu internetowego
przed skróceniem: po skróceniu:

Jak to działa

Skuteczne przeszukiwanie internetu

Podobne prezentacje

Prezentacja na temat: "Skuteczne przeszukiwanie internetu"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres

Wejść

Zaloguj się poprzez sieć społeczną:

Skuteczne przeszukiwanie internetu

Podobne prezentacje

Prezentacja na temat: "Skuteczne przeszukiwanie internetu"— Zapis prezentacji:

Podobne prezentacje

О projekcie

Zwrotny adres