Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałBerta Dulemba Został zmieniony 11 lat temu
1
Wprowadzenie do wyszukiwania Wyszukiwarki Internetowe
2
Pierwsza wyszukiwarka Pierwowzorem wyszukiwarek był stworzony w 1994 r. narzędzie zwane ROBALEM WWW (ang. Worm WWW). Program ten stworzył naukowiec z Uniwersytetu w Colorado – Olivier McBrian. Program ten przeszukiwał i skanował dostępne wówczas zasoby sieci WWW, a następnie indeksował je w bazie danych. Jego nazwa odzwierciedla metodę działania narzędzia – pełza ono po sieci wynajdując strony do zaindeksowania. Metodę opracowaną przez McBriana z wieloma modyfikacjami stosuje się w wyszukiwarkach do dziś.
3
Co to jest wyszukiwarka? Są to ogromne bazy danych składające się z: -interfejsu użytkownika (okno dialogowe, opcje do wyboru) -mechanizmów skanowania sieci (robot i algoorytmy) -algorytmów indeksujących zasoby i rejestrujących zmiany na zapisanych już stronach -bazy danych, w której przechowywane są zgromadzone informacje (repozytorium) -algorytmy formułujące rankingi odpowiedzi na zadane zapytania; -mechanizmy pozwalające na stosowanie w wyszukiwarkach dodatkowych funkcji
4
Czyli... Wyszukiwarki są tworami działającymi automatycznie – w zbieranie i indeksowanie informacji do ich baz danych (indeksów) nie ingeruje człowiek! (z takimi wyjątkami jak opcje reklamowe różnego rodzaju).
5
Jak działa skaner wyszukiwarki? Żadna z wyszukiwarek nie obejmuje swym zasięgiem wszystkich stron WWW. Jedną z przyczyn jest sposób, w który wyszukiwarki znajdują i indeksują strony WWW w swojej bazie. Narzędzia te odnajdują strony metodą WĘDRÓWKI PO ODSYŁACZACH. Połączone siecią odnośników strony tworzą pewien twór, który w informatyce nazywa się GRAFEM (mapą odsyłaczy). Pełna struktura tak obszernego, skomplikowanego i zmiennego grafu nie jest nigdy znana.
6
Jak działa skaner wyszukiwarki? (2) Nie jest więc możliwe skonstruowanie takiego algorytmu, który w sposób niezawodny będzie w stanie wyszukać i zaindeksować wszystkie witryny znajdujące się w sieci internetowej. Roboty różnych wyszukiwarek posługują się różnymi algorytmami, wybierają więc różne drogi w grafie.
7
Ranking (lista odpowiedzi) Jest to lista wyświetlonych przez wyszukiwarkę adresów WWW, będących odpowiedzią na zapytanie użytkownika. Lista ta, w zależności od użytego narzędzia, może składać się z różnych elementów. Są to: - tytuły dokumentów, - adresy WWW, - szukane słowa lub frazy w kontekście, - rozmiar dokumentów, - daty ich powstania, - opis ich zawartości bądź w przypadku jego braku - pierwszych 150 znaków napotkanych w pierwszej kolejności przez robota w tekście strony (ok. 25 słów).
8
Kolejność wyników w rankingu (1) Kolejność występowania stron w rankingu nie jest przypadkowa – wyniki są uszeregowane na podstawie określonego wskaźnika trafności. Obejmuje on liczbę oraz miejsce występowania słów kluczowych w dokumencie, a także inne, różne dla różnych wyszukiwarek kryteria pozycjonowania stron.
9
Kolejność wyników w rankingu (2) Czynniki mające wpływ na punktowanie dokumentów w rankingu: -słowa lub frazy poszukiwane znajdują się wśród kilku pierwszych zdań dok. -słowa lub frazy poszukiwane znajdują się w tytule strony -słowa lub frazy poszukiwane znajdują się blisko siebie -słowa lub frazy poszukiwane występują w dok. więcej niż jeden raz -długość adresu
10
Kolejność wyników w rankingu (3) -słowa lub frazy poszukiwane znajdują się w opisie (description) dokumentu WWW -słowa lub frazy odpowiadają tym umieszczonym w elemencie SŁOWA KLUCZOWE (metadane); -liczba odsyłaczy prowadząca do strony WWW zawierającej słowa lub frazy wyszukiwawcze -strony rekomendujące witrynę WWW zawierającą słowa lub frazy wyszukiwawcze (wysoka akredytacja);
11
Kolejność wyników w rankingu (4) W algorytmie tworzącym ranking wyszukiwarki umieszczają mechanizmy obniżające wartość strony, jeśli odkryje próby sztucznego zawyżania pozycji w rankingu. Dla wybranych słów kluczowych (określanych w umowach handlowych) na pierwszych pozycjach rankingów występują tzw. linki sponsorowane (reklama).
12
Zalety wyszukiwarek NAJLEPIEJ Z NICH KORZYSTAĆ: -kiedy szuka się konkretnego zagadnienia i łatwo jest je sformułować; -kiedy znana jest nazwa szukanego przedmiotu, nazwa własna lub nazwisko poszukiwanej osoby; -łatwo w wyszukiwarkach wyszukuje się konkretne frazy, np. poezji; -kiedy szuka się dużej liczby wiadomości na jeden temat;
13
Wady wyszukiwarek trudność zadania adekwatnego zapytania; brak oceny merytorycznej przechowywanych zasobów (wyszukiwarki są automatami!); trudności z oceną i akredytacją wyszukanych informacji;
14
Różnice pomiędzy wyszukiwarkami -typy indeksowanych dokumentów (strony WWW, pliki graficzne, multimedia i inne); -zasięg wyzukiwarki (przeszukiwanie całej sieci WWW lub jej części); -ograniczenia rozmiaru pobieranych pilków, np. poddawanie analizie wyłącznie pierwszych akapitów, określonej liczby słów, lub ładowanie przez robota określonej wielkości MB; -wpływ elementów języka HTML (pogrubienia, strony w ramkach) na indeksowanie stron; -zasady ustalania rankingu; -częstotliwość skanowania sieci;
15
Funkcjonalność wyszukiwarek O funkcjonalności wyszukiwarek internetowych decydują: szybkość udzielania odpowiedzi na zapytanie; częstotliwość odświeżania informacji zawartych w bazie danych (pierwszego i ponownego indeksowania);
16
Efektywność wyszukiwarek Na efektywność znajdowania informacji przez użytkownika mają wpływ: ranking; grupowanie stron pochodzących z jednego serwisu; możliwość wyszukiwania wewnątrz określonego serwisu; trafność udzielanych odpowiedzi; szybkość udzielanych odpowiedzi; występowanie i jakość reklam wśród odpowiedzi zestawionych w rankingu;
17
Znaczniki META (1) Znaczniki META są częścią kodu źródłowego języka HTML. Określają one METADANE (informacje o informacji), które można zdefiniować w stosunku do danej strony internetowej. Mają one olbrzymi wpływ na wyszukiwanie witryn przez wyszukiwarki. Informacje ze znaczników META nie są wyśwetlane w przglądarce (nie widać ich na stronie).
18
Znaczniki META (2) Pozwala autorowi strony podać słowa kluczowe, z których przy indeksowaniu i tworzeniu rankingu korzystają wyszukiwarki. We wczesnych latach rozwoju Internetu (1994-95) element KEYWORD był jedyną informacją, którą wykorzystywały wyszukiwarki w rankingach.
19
Znaczniki META (3) Zadaniem tego elementu jest instruowanie wyszukiwarek, jak mają indeksować stronę WWW. Za pomocą kilku parametrów można określić, gdzie chcemy wpuścić robota i co może on indeksować. Parametry te to: NOINDEX – zapobiega indeksowaniu strony przez wyszukiwarki; INDEX – pozwala robotom indeksować dokument HTML; NOFOLLOW – zabrania robotom indeksowania witryn, do których prowadzą odnośniki z indeksowanej strony; FOLLOW – pozwala na indeksowanie wszystkich stron, do których wyszukiwarka dotrze przez odsyłacze z danej strony; NOIMAGEINDEX – zapobiega indeksowaniu grafiki na stronie WWW (tekst może być indeksowany);
20
Znaczniki META (4) Pozwala na umieszczenie krótkiego opisu merytorycznego dotyczącego zawartości strony. Opis ten jest wyświetlany przy adresie WWW w rankingu wyszukanych stron. Powinien krótko informować użytkowników o treściowej zawartości witryny.
21
METAWYSZUKIWANIE (1) Metawyszukiwanie polega na wyszukiwaniu słów kluczowych w tekście źródłowym stron WWW. Metoda ta pozwala na przeszukiwanie tytułów stron, adresów WWW, odsyłaczy hipertekstowych i innych dodatkowych informacji, które są określone za pomocą znaczników meta języka HTML.
22
MULTIWYSZUKIWARKI powstały, ponieważ nawet bardzo duża wyszukiwarka nie indeksuje więcej niż 30 - 40% stron WWW w sieci, bazy danych poszczególnych wyszukiwarek pokrywają się tylko częściowo, a algorytmy wyszukiwarek różnią się na tyle, że dla tej samej kwerendy dają odmienne rezultaty nawet dla tej samej bazy danych. Dlatego powstały nowe aplikacje – multiwyszukiwarki kierujące to samo zapytanie do wielu narzędzi wyszukiwawczych. Z punktu widzenia użytkownika działają podobnie do tradycyjnych wyszukiwarek, ale tak naprawdę nie posiadają własnej bazy danych lecz korzystają z usług innych baz kilku wyszukiwarek, dodając ewentualnie własne oceny dokumentów, grupując je w specyficzny sposób itp.
23
Rodzaje multiwyszukiwarek Można wyróżnić 3 rodzaje multiwyszukiwarek: serwisy typu lista – są to strony WWW, na których zgromadzone zostały odnośniki do wybranych, standardowych wyszukiwarek. Dzięki temu łącząc się z jednym adresem można dokonywać poszukiwań przy wykorzystywaniu wielu serwisów. Pełnią rolę puntów informacyjnych o nowych, bądź mało znanych wyszukiwarkach i katalogach. Raczej nie są uznawane za prawdziwe multiwyszukiwarki; serwisy poszukujące pojedyńczo – są to multiwyszukiwarki oferujące przeważnie jedno pole do wpisania, a użytkownik ma możliwość wyboru narzędzi, które zostaną przeszukane. Proces wyszukiwania odbywa się po kolei tzn. w określonym czasie multiwyszukiwarka łączy się tylko z jednym narzędziem. Uzyskane wyniki zwykle wyświetlane są przy zachowaniu podziału na poszczególne narzędzia. Wada – gdy multiwyszukiwarka natrafi na wolny serwis, trzeba będzie długo czekać na uzyskanie wyników cząstkowych i ostatecznych; serwisy poszukujące równolegle – łączą się z wieloma (wybranymi przez użytkownika) narzędziami w jednym czasie;
24
Zalety i wady multiwyszukiwarek Zalety: stosunkowo duża prędkość działania i reprezentatywność wyników; Wady: można zadawać tylko proste pytania z uwagi na różnorodność dostępnych opcji, syntaktyki i semantyki bardziej zaawansowanych zapytań w różnych wyszukiwarkach;
25
Inne metody i narzędzia wyszukiwawcze w Internecie Oświecone zgadywanie Katalogi stron (ang. Directories) Katalogi specjalne Portale i wortale Osobiste narzędzia wyszukiwawcze Wyszukiwarki dedykowane i specjalne Czytniki RSS Weblogi
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.