Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Skuteczne przeszukiwanie internetu. Katalogi tematyczne redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne.

Podobne prezentacje


Prezentacja na temat: "Skuteczne przeszukiwanie internetu. Katalogi tematyczne redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne."— Zapis prezentacji:

1 Skuteczne przeszukiwanie internetu

2 Katalogi tematyczne redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne prowadzone są przez duże portale redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne prowadzone są przez duże portale

3 Katalogi tematyczne

4

5 Pierwsza wyszukiwarka Pierwowzorem wyszukiwarek był program stworzony na Uniwersytecie w Colorado przez Oliviera McBriana w 1994 r. zwany Robakiem WWW (ang. Worm WWW). Program ten przeszukiwał i skanował dostępne wówczas zasoby sieci, a następnie indeksował je w bazie danych Metodę opracowaną przez McBriana z wieloma modyfikacjami stosuje się w wyszukiwarkach do dnia dzisiejszego Pierwowzorem wyszukiwarek był program stworzony na Uniwersytecie w Colorado przez Oliviera McBriana w 1994 r. zwany Robakiem WWW (ang. Worm WWW). Program ten przeszukiwał i skanował dostępne wówczas zasoby sieci, a następnie indeksował je w bazie danych Metodę opracowaną przez McBriana z wieloma modyfikacjami stosuje się w wyszukiwarkach do dnia dzisiejszego

6 Elementy wyszukiwarki Robot (pająk, spider) – program, który przeszukuje sieć internetową, zbiera informacje o znalezionych stronach, indeksowane zawarte na nich treści Indekser – generuje bazę stron WWW, tworzy spis słów kluczowych charakteryzujących znalezione strony Index – to posortowana lista wszystkich unikalnych słów, wraz z odnośnikami do adresów dokumentów w których wystapiły Robot (pająk, spider) – program, który przeszukuje sieć internetową, zbiera informacje o znalezionych stronach, indeksowane zawarte na nich treści Indekser – generuje bazę stron WWW, tworzy spis słów kluczowych charakteryzujących znalezione strony Index – to posortowana lista wszystkich unikalnych słów, wraz z odnośnikami do adresów dokumentów w których wystapiły

7 Reguły pracy robota praca metodą wędrówki po odsyłaczach filtrowanie treści stron unikanie dokumentów generowanych dynamicznie nie wolno mu blokować serwerów bezustannymi zapytaniami dokonywanie wyborów jakimi odsyłaczami podążać honorowanie zakazów dostępu do pewnych zasobów (zapisanych w pliku robots.txt) praca metodą wędrówki po odsyłaczach filtrowanie treści stron unikanie dokumentów generowanych dynamicznie nie wolno mu blokować serwerów bezustannymi zapytaniami dokonywanie wyborów jakimi odsyłaczami podążać honorowanie zakazów dostępu do pewnych zasobów (zapisanych w pliku robots.txt)

8 Wady wyszukiwarek trudność w skonstruowaniu adekwatnego zapytania, współcześnie wyszukiwarka automatycznie rozważa pewne modyfikacje frazy wpisanej przez użytkownika brak oceny merytorycznej zwracanych zasobów (wyszukiwarki są automatami) podatność na sztuczne zawyżanie pozycji rankingowej wybranej strony, czergo przykłądem są tzw. farmy treści trudność w skonstruowaniu adekwatnego zapytania, współcześnie wyszukiwarka automatycznie rozważa pewne modyfikacje frazy wpisanej przez użytkownika brak oceny merytorycznej zwracanych zasobów (wyszukiwarki są automatami) podatność na sztuczne zawyżanie pozycji rankingowej wybranej strony, czergo przykłądem są tzw. farmy treści

9 Niewidzialna sieć (ang. Hidden Web, Deep Web) Niewidzialna sieć to ogólnie strony internetowe wyłączone z procesu indeksacji (np. ze względów prawnych lub z powodu zablokowania dostępu do nich) Roboty nie mają do nich dostępu, żadna z wyszukiwarek nie indeksuje tekiej strony Szacuje się, że niewidzialna sieć jest nawet trzy razy większa aniżeli ogół stron zaindeksowanych przez wyszukiwarki Niewidzialna sieć to ogólnie strony internetowe wyłączone z procesu indeksacji (np. ze względów prawnych lub z powodu zablokowania dostępu do nich) Roboty nie mają do nich dostępu, żadna z wyszukiwarek nie indeksuje tekiej strony Szacuje się, że niewidzialna sieć jest nawet trzy razy większa aniżeli ogół stron zaindeksowanych przez wyszukiwarki

10 Przeszukiwanie ukrytego internetu wymaga specjalnych strategii wyszukiwawczych Niewidzialna sieć (ang. Hidden Web) p://www.lib.lsu.edu/instruction/deepweb/deepweb-print.html

11 Sposób na ukryty internet to: wyszukiwarki specjalne: katalogi prasowe bazy informacji branżowej Sposób na ukryty internet to: wyszukiwarki specjalne: katalogi prasowe bazy informacji branżowej Niewidzialna sieć (ang. Hidden Web)

12 Serwisy Subject Gateways To dziedzinowe przewodniki po zasobach internetowych uporządkowane według kategorii. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny Zobacz wykaz na stronie: To dziedzinowe przewodniki po zasobach internetowych uporządkowane według kategorii. Zasoby są selekcjonowane, oceniane, opisywane i katalogowane przez bibliotekarzy lub ekspertów z danej dziedziny Zobacz wykaz na stronie:

13 DIRECT SEARCH To serwis autorstwa Garyego Pricea bibliotekarza amerykańskiego zajmującego się porządkowaniem informacji w internecie, wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi wyszukiwawczych, ułatwiających dostęp do zasobów ukrytych Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór zasobów elektronicznych To serwis autorstwa Garyego Pricea bibliotekarza amerykańskiego zajmującego się porządkowaniem informacji w internecie, wyszukiwaniem jej oraz zjawiskiem Ukrytego Internetu Direct Search to stale rosnący zbiór odsyłaczy do serwisów i narzędzi wyszukiwawczych, ułatwiających dostęp do zasobów ukrytych Na stronie dostępny jest interface wyszukiwawczy oraz ogromny zbiór zasobów elektronicznych

14 Wyszukiwarki naukowe Oparta o zasoby biblioteki wirtualnej: Wyszukiwarka zasobów naukowych, także płatnych Wyszukiwarka zasobów naukowych, oparta na mechanizmach i interface Google Oparta o zasoby biblioteki wirtualnej: Wyszukiwarka zasobów naukowych, także płatnych Wyszukiwarka zasobów naukowych, oparta na mechanizmach i interface Google

15 Katalogi naukowe Academic Info SciCentral BUBL Information Service Academic Info SciCentral BUBL Information Service

16 Wyszukiwarka schemat działania

17 Multiwyszukiwarki Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż % stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy dają odmienne rezultaty nawet dla tej samej bazy danych To serwisy internetowe lub instalowane na dysku programy, które przekazują zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej spójnej listy Nie dysponują one własnymi indeksami W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria wyszukiwania Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych wyszukiwarkach Powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż % stron w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy dają odmienne rezultaty nawet dla tej samej bazy danych To serwisy internetowe lub instalowane na dysku programy, które przekazują zapytanie do wielu wyszukiwarek jednocześnie. Ich zadaniem jest sortowanie wyników, eliminowanie powtórzeń i wyświetlanie odpowiedzi w postaci jednej spójnej listy Nie dysponują one własnymi indeksami W multiwyszukiwarkach należy precyzyjnie i ostrożnie formułować kryteria wyszukiwania Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych wyszukiwarkach

18 Typu multiwyszukiwarek serwisy typu lista – są to strony, na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek, użytkownik może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało znanych wyszukiwarkach i katalogach serwisy poszukujące pojedyńczo – oferują przeważnie jedno pole do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi, które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle wyświetlane są przy zachowaniu podziału na poszczególne narzędzia serwisy poszukujące równolegle – łączą się jednocześnie z wieloma (wybranymi przez użytkownika) narzędziami serwisy typu lista – są to strony, na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek, użytkownik może dokonywać poszukiwań przy jednoczesnym wykorzystywaniu wielu serwisów, pełnią rolę puntów informacyjnych o nowych, bądź mało znanych wyszukiwarkach i katalogach serwisy poszukujące pojedyńczo – oferują przeważnie jedno pole do wpisania zapytania, a użytkownik ma możliwość wyboru narzędzi, które zostaną kolejno pojedynczo odpytane, uzyskane wyniki zwykle wyświetlane są przy zachowaniu podziału na poszczególne narzędzia serwisy poszukujące równolegle – łączą się jednocześnie z wieloma (wybranymi przez użytkownika) narzędziami

19 Kryteria w rankingu wyszukiwarki tytuł strony: czy dane słowo kluczowe występuje w tytule adres: czy dane słowo kluczowe występuje w adresie styl: czy dane słowo kluczowe występuje jako tekst nagłówka, pogrubiony, ukośny (wyróżniony) gęstość: jak wiele razy dane słowo kluczowe powtarza się na stronie (liczba słów kluczowych w stosunku do zawartości tekstu na stronie nazywamy gęstością słowa kluczowego) metainformacja: większość wyszukiwarek bierze pod uwagę teksty zapisane w meta znacznikach odsyłacze na stronie: silnik sprawdza do ilu i jakich stron prowadzą linki zawarte na stronie (strony, do których prowadzi więcej odsyłaczy ze świata są wyżej w rankingu) tytuł strony: czy dane słowo kluczowe występuje w tytule adres: czy dane słowo kluczowe występuje w adresie styl: czy dane słowo kluczowe występuje jako tekst nagłówka, pogrubiony, ukośny (wyróżniony) gęstość: jak wiele razy dane słowo kluczowe powtarza się na stronie (liczba słów kluczowych w stosunku do zawartości tekstu na stronie nazywamy gęstością słowa kluczowego) metainformacja: większość wyszukiwarek bierze pod uwagę teksty zapisane w meta znacznikach odsyłacze na stronie: silnik sprawdza do ilu i jakich stron prowadzą linki zawarte na stronie (strony, do których prowadzi więcej odsyłaczy ze świata są wyżej w rankingu)

20 Metainformacja znaczniki META w nagłówku stronu zadaniem tego elementu jest instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku parametrów można określić, gdzie chcemy wpuścić robota i co może on indeksować: NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki; INDEX – pozwala robotom indeksować dokument; NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki z indeksowanej strony; FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze przez odsyłacze z danej strony; NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być indeksowany); pozwala na umieszczenie krótkiego opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści witryny zadaniem tego elementu jest instruowanie wyszukiwarek, jak mają indeksować stronę, przy pomocy kilku parametrów można określić, gdzie chcemy wpuścić robota i co może on indeksować: NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki; INDEX – pozwala robotom indeksować dokument; NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki z indeksowanej strony; FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze przez odsyłacze z danej strony; NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być indeksowany); pozwala na umieszczenie krótkiego opisu merytorycznego dotyczącego zawartości strony, opis ten jest wyświetlany przy adresie strony w rankingu wyszukanych stron, powinien krótko informować użytkowników o treści witryny

21 Metawyszukiwarki

22

23

24

25 Jedna z największych wyszukiwarek globalnych. Umożliwia nie tylko wyszukiwanie stron tekstowych, ale również zdjęć, nazwisk, plików muzycznych, nagrań wideo, bieżących wiadomości itp. Wprowadzone słowa są domyślnie łączone spójnikiem logicznym LUB (OR)

26 szukaj.onet.pl Bazuje na dwóch wyszukiwarkach doprzeszukiwania polskich zasobów Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie zasoby polskich stron około 2,5 mln. Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW, zasobów polskich i światowych, ale również encyklopedii, baz danych dostępnych na portalu oraz plików w wielu formatach. Bazuje na dwóch wyszukiwarkach doprzeszukiwania polskich zasobów Internetu wykorzystuje wyszukiwarkę Inktomi, która w swojej bazie ma zaindeksowanych 8 mln stron polskich, a do wyszukiwania informacji w zasobach światowych używa wyszukiwarki AltaVista, która ma również w bazie zasoby polskich stron około 2,5 mln. Oferuje najwięcej opcji zawężających wyszukiwanie nie tylko do katalogu WWW, zasobów polskich i światowych, ale również encyklopedii, baz danych dostępnych na portalu oraz plików w wielu formatach.

27 Przykłady innych wyszukiwarek: Anglojęzyczne wyszukiwarki naukowe: Polskojęzyczneczne serwisy naukowe Anglojęzyczne wyszukiwarki naukowe: Polskojęzyczneczne serwisy naukowe Wyszukiwarki plików: Wyszukiwarki plików programów: Wyszukiwarki plików: Wyszukiwarki plików programów:

28 Lider wśród wyszukiwarek Google

29 29 GoogleGoogle GoogleGoogle

30 Arytmetyka wyszukiwania na przykładzie Google jeśli podamy wyszukiwarce szereg słów, wyszuka ona dokumenty zawierające którekolwiek z nich wielkość liter nie odgrywa roli Google ignoruje występujące w zapytaniu pojedyncze litery lub cyfry zapytanie może zawierać wyłącznie litery i cyfry (wyjątek stanowią tzw. znaki specjalne) z zapytania automatycznie eliminowane słowa nieznaczące tj. występujące w danym języku tak często, że można je znaleźć praktycznie, w każdym dokumencie (np. do, i, jak, już) jeśli podamy wyszukiwarce szereg słów, wyszuka ona dokumenty zawierające którekolwiek z nich wielkość liter nie odgrywa roli Google ignoruje występujące w zapytaniu pojedyncze litery lub cyfry zapytanie może zawierać wyłącznie litery i cyfry (wyjątek stanowią tzw. znaki specjalne) z zapytania automatycznie eliminowane słowa nieznaczące tj. występujące w danym języku tak często, że można je znaleźć praktycznie, w każdym dokumencie (np. do, i, jak, już)

31 Znaki specjalne ZnakDziałaniePrzykład cudzysłów () Umożliwia poszukiwanie kompletnych fraz, czyli słów występujących bezpośrednio po sobie "jan sobieski" szukanie informacji o Janie Sobieskim, ale już nie o Janie III Sobieskim minus (–) Jeżeli występuje przed słowem kluczowym powoduje wyświetlenie stron, które go nie zawierają sobieski –jan Szukanie stron dotyczących osób o nazwisku Sobieski z pominięciem Janów minus(–) ukośnik (/) kropka (.) równość (=) apostrof (') Jeżeli występuje miedzy słowami oznacza frazę, czyli działa analogicznie do zastosowania cudzysłowu jan–sobieski Równoznaczne z "jan sobieski" plus (+) Wymuszenie uwzględnienia słowa w zapytaniu (na przykład przed słowem jednoznakowym) "grupa krwi" +a Szukanie stron na temat grupy krwi A

32 Operatory logiczne operator OR (lub) – w odpowiedzi zostaną uwzględnione dokumenty zawierające przynajmniej jedno ze słów nim rozdzielonych np. laptop (dell or asus) nawiasy – grupowanie wszelkiego rodzaju warunków wyszukiwania maksymalna liczba słów w zapytaniu wynosi 10 * (gwiazdka) – zastępowanie całych słów np. stół z * nogami operator OR (lub) – w odpowiedzi zostaną uwzględnione dokumenty zawierające przynajmniej jedno ze słów nim rozdzielonych np. laptop (dell or asus) nawiasy – grupowanie wszelkiego rodzaju warunków wyszukiwania maksymalna liczba słów w zapytaniu wynosi 10 * (gwiazdka) – zastępowanie całych słów np. stół z * nogami

33 Składniki odpowiedzi 1. Tytuł dokumentu 2. Kontekst 3. Opis wprowadzony przez redaktora i nazwa kategorii (w przypadku Katalogu) 4. Adres 5. Rozmiar strony 6. Kopia 7. Odsyłacze 8. Podpowiedzi Google… 1. Tytuł dokumentu 2. Kontekst 3. Opis wprowadzony przez redaktora i nazwa kategorii (w przypadku Katalogu) 4. Adres 5. Rozmiar strony 6. Kopia 7. Odsyłacze 8. Podpowiedzi Google…

34 Otwieranie odnalezionej strony w nowym oknie

35 Zapytanie może zawierać jedną lub kilka specjalnych dyrektyw, umożliwiających nakładanie dodatkowych warunków dotyczących poszukiwanych informacji oraz uzyskanie dodatkowych informacji o stronach przechowywanych w bazie danych wyszukiwarki. Specjalne dyrektywy wyszukiwania w Google

36 w tytule strony intitle: wszystkie słowa w tytule allintitle: tylko w tekście strony intext: lub allintext: w nazwach odsyłaczy inanchor: w adresach inurl: lub allinurl: w konkretnym serwisie site: w określonych typach plików filetype: wykluczenie określonego typu pliku -filetype: w tytule strony intitle: wszystkie słowa w tytule allintitle: tylko w tekście strony intext: lub allintext: w nazwach odsyłaczy inanchor: w adresach inurl: lub allinurl: w konkretnym serwisie site: w określonych typach plików filetype: wykluczenie określonego typu pliku -filetype:

37 Specjalne dyrektywy wyszukiwania w Google

38 38 Szukanie zaawansowane

39 39 Wyszukiwanie obrazów żądany rozmiar w pikselach, format pliku (GIF lub JPEG), kolor, lokalizacja (domena), można także wykorzystywać dyrektywy: intitle:, filetype:, inurl:, site: żądany rozmiar w pikselach, format pliku (GIF lub JPEG), kolor, lokalizacja (domena), można także wykorzystywać dyrektywy: intitle:, filetype:, inurl:, site: Podczas wyszukiwania możesz określić:

40 Wyszukiwanie graficzne images.google.pl Sposób 1 przeciągnij posiadany plik na pole wyszukiwania w serwisie Sposób 2 kliknij ikonkę aparatu i Prześlij obraz Sposób 3 kliknij ikonkę aparatu i Wklej adres URL obrazu Sposób 1 przeciągnij posiadany plik na pole wyszukiwania w serwisie Sposób 2 kliknij ikonkę aparatu i Prześlij obraz Sposób 3 kliknij ikonkę aparatu i Wklej adres URL obrazu Google wprowadził też wyszukiwanie niejako odwrotne masz grafikę, dowiedz się, co wie o niej sieć

41 Wyszukiwanie graficzne

42 Najpopularniejsze serwisy wyszukiwawcze

43 Ocena wyszukiwarek Kryteria wielkość bazy aktualność danych ręczny czy automatyczny sposób tworzenia bazy mechanizmy dopasowania wyników do zapytań użytkowników jakość interfejsu (czytelność wyników, dodatkowe opcje popularność mierzona liczbą bieżących zapytań wielkość bazy aktualność danych ręczny czy automatyczny sposób tworzenia bazy mechanizmy dopasowania wyników do zapytań użytkowników jakość interfejsu (czytelność wyników, dodatkowe opcje popularność mierzona liczbą bieżących zapytań

44 Skracanie adresów internetowych Pozwala skrócić długie linki zanim je komuś podasz, dzięki czemu będą łatwiejsze do zapamiętania i odporne na zniekształcenia np. podczas przesyłania w listach elektronicznych. Skracanie adresu przez serwis polega na utworzeniu na serwerze tzw. aliasu, który działa tak samo jak skróty tworzone w systemie operacyjnym. Zwykle takie aliasy nie są nigdy usuwane, działają zawsze póki działa serwis. Pozwala skrócić długie linki zanim je komuś podasz, dzięki czemu będą łatwiejsze do zapamiętania i odporne na zniekształcenia np. podczas przesyłania w listach elektronicznych. Skracanie adresu przez serwis polega na utworzeniu na serwerze tzw. aliasu, który działa tak samo jak skróty tworzone w systemie operacyjnym. Zwykle takie aliasy nie są nigdy usuwane, działają zawsze póki działa serwis.

45 pozwala wpisać adresu w miejscu, gdzie liczba znaków jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie komunikatora; długie adresy często są ucinane we wpisach na forach internetowych, w programach pocztowych itp.; odsyłacze wygenerowane np. przez wyszukiwarkę czy skrypt php na stronie internetowej jest wręcz niemożliwy do zapamiętania, a można go skrócić do minimum; wiele serwisów daje możliwość wyboru własnej nazwy dla skrótu; Jeden skrót może odnosić się do wielu podstron serwisu. pozwala wpisać adresu w miejscu, gdzie liczba znaków jest ograniczona, czyli np. w wiadomość SMS-ie lub opisie komunikatora; długie adresy często są ucinane we wpisach na forach internetowych, w programach pocztowych itp.; odsyłacze wygenerowane np. przez wyszukiwarkę czy skrypt php na stronie internetowej jest wręcz niemożliwy do zapamiętania, a można go skrócić do minimum; wiele serwisów daje możliwość wyboru własnej nazwy dla skrótu; Jeden skrót może odnosić się do wielu podstron serwisu. Zalety skracania długich adresów

46 przed skróceniem: po skróceniu: przed skróceniem: po skróceniu: Skracanie adresu internetowego

47 Jak to działa

48


Pobierz ppt "Skuteczne przeszukiwanie internetu. Katalogi tematyczne redagowane są przez ludzi zawierają wyselekcjonowane treści podzielone są na kategorie tematyczne."

Podobne prezentacje


Reklamy Google