Skuteczne przeszukiwanie internetu
Katalogi tematyczne redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne prowadzone są przez duże portale
Katalogi tematyczne
Katalogi tematyczne
Pierwsza wyszukiwarka Pierwowzorem wyszukiwarek był program stworzony na Uniwersytecie w Colorado przez Oliviera McBriana w 1994 r. zwany Robakiem WWW (ang. Worm WWW). Program ten przeszukiwał i skanował dostępne wówczas zasoby sieci, a następnie indeksował je w bazie danych Metodę opracowaną przez McBriana z wieloma modyfikacjami stosuje się w wyszukiwarkach do dnia dzisiejszego
Elementy wyszukiwarki Robot (pająk, spider) – program, który przeszukuje sieć internetową, zbiera informacje o znalezionych stronach, indeksowane zawarte na nich treści Indekser – generuje bazę stron WWW, tworzy spis słów kluczowych charakteryzujących znalezione strony Index – to posortowana lista wszystkich unikalnych słów, wraz z odnośnikami do adresów dokumentów w których wystapiły
Reguły pracy robota praca metodą wędrówki po odsyłaczach filtrowanie treści stron unikanie dokumentów generowanych dynamicznie nie wolno mu blokować serwerów bezustannymi zapytaniami dokonywanie wyborów jakimi odsyłaczami podążać honorowanie zakazów dostępu do pewnych zasobów (zapisanych w pliku „robots.txt”)
Wady wyszukiwarek trudność w skonstruowaniu adekwatnego zapytania, współcześnie wyszukiwarka automatycznie rozważa pewne modyfikacje frazy wpisanej przez użytkownika brak oceny merytorycznej zwracanych zasobów (wyszukiwarki są automatami) podatność na sztuczne zawyżanie pozycji rankingowej wybranej strony, czergo przykłądem są tzw. farmy treści
Niewidzialna sieć (ang. Hidden Web, Deep Web) Niewidzialna sieć to ogólnie strony internetowe wyłączone z procesu indeksacji (np. ze względów prawnych lub z powodu zablokowania dostępu do nich) Roboty nie mają do nich dostępu, żadna z wyszukiwarek nie indeksuje tekiej strony Szacuje się, że niewidzialna sieć jest nawet trzy razy większa aniżeli ogół stron zaindeksowanych przez wyszukiwarki
Niewidzialna sieć (ang. Hidden Web) Przeszukiwanie ukrytego internetu wymaga specjalnych strategii wyszukiwawczych http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/InvisibleWeb.htmlhtt p://www.lib.lsu.edu/instruction/deepweb/deepweb-print.html
Niewidzialna sieć (ang. Hidden Web) Sposób na ukryty internet to: wyszukiwarki specjalne: www.pkn.pl katalogi prasowe www.witryna.czasopism.pl bazy informacji branżowej www.pf.pl
Serwisy Subject Gateways To dziedzinowe przewodniki po zasobach internetowych uporządkowane według kategorii. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny Zobacz wykaz na stronie: http://ebib.oss.wroc.pl/2004/57/wykaz.php
DIRECT SEARCH To serwis autorstwa Gary’ego Price’a — bibliotekarza amerykańskiego zajmującego się porządkowaniem informacji w internecie, wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi wyszukiwawczych, ułatwiających dostęp do zasobów „ukrytych” Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór zasobów elektronicznych http://www.abc-directory.com/site/942710
Wyszukiwarki naukowe Oparta o zasoby biblioteki wirtualnej: http://infomine.ucr.edu Wyszukiwarka zasobów naukowych, także płatnych http://ww.scirus.com Wyszukiwarka zasobów naukowych, oparta na mechanizmach i interface Google http://scholar.google.com
Katalogi naukowe Academic Info http://www.academicinfo.net SciCentral http://www.scicentral.com BUBL Information Service http://bubl.ac.uk
Wyszukiwarka schemat działania
Multiwyszukiwarki Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż 30 - 40% stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy dają odmienne rezultaty nawet dla tej samej bazy danych To serwisy internetowe lub instalowane na dysku programy, które przekazują zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej spójnej listy Nie dysponują one własnymi indeksami W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria wyszukiwania Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych wyszukiwarkach
Typu multiwyszukiwarek serwisy typu „lista” – są to strony, na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek, użytkownik może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało znanych wyszukiwarkach i katalogach serwisy poszukujące pojedyńczo – oferują przeważnie jedno pole do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi, które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle wyświetlane są przy zachowaniu podziału na poszczególne narzędzia serwisy poszukujące równolegle – łączą się jednocześnie z wieloma (wybranymi przez użytkownika) narzędziami
Kryteria w rankingu wyszukiwarki tytuł strony: czy dane słowo kluczowe występuje w tytule adres: czy dane słowo kluczowe występuje w adresie styl: czy dane słowo kluczowe występuje jako tekst nagłówka, pogrubiony, ukośny (wyróżniony) gęstość: jak wiele razy dane słowo kluczowe powtarza się na stronie (liczba słów kluczowych w stosunku do zawartości tekstu na stronie nazywamy gęstością słowa kluczowego) metainformacja: większość wyszukiwarek bierze pod uwagę teksty zapisane w meta znacznikach odsyłacze na stronie: silnik sprawdza do ilu i jakich stron prowadzą linki zawarte na stronie (strony, do których prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)
Metainformacja znaczniki META w nagłówku stronu <META NAME=”robots” CONTENT=”parametry”> — zadaniem tego elementu jest instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku parametrów można określić, gdzie chcemy wpuścić robota i co może on indeksować: NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki; INDEX – pozwala robotom indeksować dokument; NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki z indeksowanej strony; FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze przez odsyłacze z danej strony; NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być indeksowany); <META NAME=”description” CONTENT=”opis strony”> — pozwala na umieszczenie krótkiego opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści witryny
Metawyszukiwarki
Metawyszukiwarki
Metawyszukiwarki
Metawyszukiwarki
www.altavista.com.pl Jedna z największych wyszukiwarek globalnych. Umożliwia nie tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk, plików muzycznych, nagrań wideo, bieżących wiadomości itp. Wprowadzone słowa są domyślnie łączone spójnikiem logicznym LUB (OR)
szukaj.onet.pl Bazuje na dwóch wyszukiwarkach — doprzeszukiwania polskich zasobów Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie zasoby polskich stron około 2,5 mln. Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW, zasobów polskich i światowych, ale również encyklopedii, baz danych dostępnych na portalu oraz plików w wielu formatach.
Przykłady innych wyszukiwarek: Anglojęzyczne wyszukiwarki naukowe: http://science.first-search.com http://www.scirus.comwww.search4science.com Polskojęzyczneczne serwisy naukowe http://science.eu.org http://www.wiw.pl Wyszukiwarki plików: http://plikoskop.internauci.pl http://pliki.onet.pl Wyszukiwarki plików programów: http://icm.tucows.comhttp://download.chip .pl
Lider wśród wyszukiwarek Google
Google 29
Arytmetyka wyszukiwania na przykładzie Google jeśli podamy wyszukiwarce szereg słów, wyszuka ona dokumenty zawierające którekolwiek z nich wielkość liter nie odgrywa roli Google ignoruje występujące w zapytaniu pojedyncze litery lub cyfry zapytanie może zawierać wyłącznie litery i cyfry (wyjątek stanowią tzw. znaki specjalne) z zapytania automatycznie eliminowane „słowa nieznaczące” tj. występujące w danym języku tak często, że można je znaleźć praktycznie, w każdym dokumencie (np. do, i , jak, już)
Znaki specjalne Znak Działanie Przykład cudzysłów („”) Umożliwia poszukiwanie kompletnych fraz, czyli słów występujących bezpośrednio po sobie "jan sobieski" szukanie informacji o Janie Sobieskim, ale już nie o Janie III Sobieskim minus (–) Jeżeli występuje przed słowem kluczowym powoduje wyświetlenie stron, które go nie zawierają sobieski –jan Szukanie stron dotyczących osób o nazwisku Sobieski z pominięciem Janów minus(–) ukośnik (/) kropka (.) równość (=) apostrof (') Jeżeli występuje miedzy słowami oznacza frazę, czyli działa analogicznie do zastosowania cudzysłowu jan–sobieski Równoznaczne z "jan sobieski" plus (+) Wymuszenie uwzględnienia słowa w zapytaniu (na przykład przed słowem jednoznakowym) "grupa krwi" +a Szukanie stron na temat grupy krwi A
Operatory logiczne operator OR (lub) – w odpowiedzi zostaną uwzględnione dokumenty zawierające przynajmniej jedno ze słów nim rozdzielonych np. laptop (dell or asus) nawiasy – grupowanie wszelkiego rodzaju warunków wyszukiwania maksymalna liczba słów w zapytaniu wynosi 10 * (gwiazdka) – zastępowanie całych słów np. stół z * nogami
Składniki odpowiedzi Tytuł dokumentu Kontekst Opis wprowadzony przez redaktora i nazwa kategorii (w przypadku Katalogu) Adres Rozmiar strony Kopia Odsyłacze Podpowiedzi Google…
Otwieranie odnalezionej strony w nowym oknie
Specjalne dyrektywy wyszukiwania w Google Zapytanie może zawierać jedną lub kilka specjalnych dyrektyw, umożliwiających nakładanie dodatkowych warunków dotyczących poszukiwanych informacji oraz uzyskanie dodatkowych informacji o stronach przechowywanych w bazie danych wyszukiwarki.
Specjalne dyrektywy wyszukiwania w Google w tytule strony intitle: wszystkie słowa w tytule allintitle: tylko w tekście strony intext: lub allintext: w nazwach odsyłaczy inanchor: w adresach inurl: lub allinurl: w konkretnym serwisie site: w określonych typach plików filetype: wykluczenie określonego typu pliku -filetype:
Specjalne dyrektywy wyszukiwania w Google
Szukanie zaawansowane 38
Wyszukiwanie obrazów Podczas wyszukiwania możesz określić: żądany rozmiar w pikselach, format pliku (GIF lub JPEG), kolor, lokalizacja (domena), można także wykorzystywać dyrektywy: intitle:, filetype:, inurl:, site: 39
Wyszukiwanie graficzne images.google.pl Google wprowadził też wyszukiwanie niejako odwrotne — masz grafikę, dowiedz się, co wie o niej sieć Sposób 1 przeciągnij posiadany plik na pole wyszukiwania w serwisie Sposób 2 kliknij ikonkę aparatu i „Prześlij obraz” Sposób 3 kliknij ikonkę aparatu i „Wklej adres URL obrazu”
Wyszukiwanie graficzne
Najpopularniejsze serwisy wyszukiwawcze
Ocena wyszukiwarek Kryteria wielkość bazy aktualność danych „ręczny” czy „automatyczny” sposób tworzenia bazy mechanizmy dopasowania wyników do zapytań użytkowników jakość interfejsu (czytelność wyników, dodatkowe opcje popularność mierzona liczbą bieżących zapytań
Skracanie adresów internetowych Pozwala skrócić długie linki zanim je komuś podasz, dzięki czemu będą łatwiejsze do zapamiętania i odporne na zniekształcenia np. podczas przesyłania w listach elektronicznych. Skracanie adresu przez serwis polega na utworzeniu na serwerze tzw. aliasu, który działa tak samo jak skróty tworzone w systemie operacyjnym. Zwykle takie aliasy nie są nigdy usuwane, działają zawsze póki działa serwis.
Zalety skracania długich adresów pozwala wpisać adresu w miejscu, gdzie liczba znaków jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie komunikatora; długie adresy często są ucinane we wpisach na forach internetowych, w programach pocztowych itp.; odsyłacze wygenerowane np. przez wyszukiwarkę czy skrypt php na stronie internetowej jest wręcz niemożliwy do zapamiętania, a można go skrócić do minimum; wiele serwisów daje możliwość wyboru własnej nazwy dla skrótu; Jeden skrót może odnosić się do wielu podstron serwisu.
Skracanie adresu internetowego przed skróceniem: http://www.jakis.dlugi.trudny.do.zapamietania.adres.com.pl/ po skróceniu: http://mini.org/zobacz/ http://mini.org/zobacz/katalog/strona1.html http://mini.org/zobacz/folder/strona2.html http://mini.org/zobacz/teczka/strona3.html
Jak to działa