Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej Wykład.

Slides:



Advertisements
Podobne prezentacje
Marcin Piotrowski. Najpopularniejszymi darmowymi przeglądarkami są Internet Explorer, Opera, Mozilla Firefox, Google Chrome.
Advertisements

Sieci komputerowe Usługi sieciowe Piotr Górczyński 27/09/2002.
Rdzenne rozszerzenia Joomla!
INTERNET jako „ocean informacji”
Jarosław Sokolnicki Zbigniew Szcześniewski Microsoft
Agnieszka Lewandowska, Cezary Mazurek, Marcin Werla
Budowa i funkcje elektronicznego katalogu biblioteki szkolnej
Poj ę cia Sieciowe. IMAP-to internetowy protokół pocztowy zaprojektowany IMAP-to internetowy protokół pocztowy zaprojektowany POP3-to protokół internetowy.
PHP vs. ASP PHP – lider wydajności wśród języków skryptowych.
Proxy WWW cache Prowadzący: mgr Marek Kopel
Proxy (WWW cache) Sieci Komputerowe
Artur Szmigiel Paweł Zarębski Kl. III i
Systemy zarządzania treścią CMS
Usługi internetowe.
Rynek tłumaczeń i lokalizacji w Polsce, Wrocław marca 2009r. Środowisko pracy zdalnej tłumacza Autor: Wojciech Olejniczak Moravia IT
Elementy informatyki w kształceniu zintegrowanym.
SIECI KOMPUTEROWE PIOTR MAJCHER PODSTAWOWE POJĘCIA.
INTERNET JAKO OCEAN INFORMACJI
Wyszukiwarki internetowe
Strategia skutecznego szukania informacji w Internecie
Konfiguracja kont w programie Adobe Dreamweaver
Systemy zarządzania treścią Wykład 1
Wyszukiwanie Informacji Na Stronach WWW
Licencjonowanie aplikacji serwerowych
Prezentacja Adrian Pyza 4i.
Systemy zarządzania treścią Content Management System
Rozdział 1: Wprowadzenie do systemu Windows 2000 i podstaw sieci
Sieciowe Systemy Operacyjne
Autor: Kamil Szafranek
Biblioteka Politechniki Krakowskiej Informacja dla nauki a świat zasobów cyfrowych września 2008 | Świnoujście Biblioteka Cyfrowa Politechniki Krakowskiej.
Temat 3: Podstawowa struktura dokumentu
Wybrane zagadnienia relacyjnych baz danych
Internetowe surfowanie
Prezentacja Adrian Pyza 4i.
Sieć komputerowa – grupa komputerów lub innych urządzeń połączonych ze sobą w celu wymiany danych lub współdzielenia różnych zasobów, na przykład: korzystania.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
INTERNET Sieć komputerowa o światowym zasięgu łącząca sieci lokalne, sieci rozległe i wszystkie komputery do nich podłączone. Służy do komunikacji między.
Wprowadzenie do HTML Informatyka Cele lekcji: Wiadomości:
Sieci komputerowe.
Rozdział V: Globalne sieci komputerowe
Projektowanie stron WWW WPROWADZENIE DO POZYCJONOWANIA STRON WWW
W W W Łukasz Stochniał.
Nieograniczone źródło informacji
Strona startowa Wybierz … co Cię interesuje Nasza szkoła Strona Pracowni Strony WWW Prezentacja Wykorzystanie Internetu O autorze Redakcja Zadanie Należy.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Projektowanie Aplikacji Internetowych
Temat 1: Ogólne cechy języka PHP
ZASADY TWORZENIA I WYKORZYSTANIA SERWISU WWW DO ZASTOSOWAŃ FIZYKI Anna Kierepka, Małgorzata Mergo informatyka + 2.
Projektowanie Aplikacji Internetowych Artur Niewiarowski Wydział Fizyki, Matematyki i Informatyki Politechnika Krakowska.
Treści multimedialne - kodowanie, przetwarzanie, prezentacjaOdtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Podstawowe usługi internetowe
Andrzej Majkowski 1 informatyka +. 2 Bezpieczeństwo protokołu HTTP Paweł Perekietka.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.
INTERNET jako „ocean informacji”
Historia i terminologia
Marcin Wojnowski.  To największa ogólnoświatowa sieć komputerowa. Łączy miliony ludzi na całym globie ziemskim. Dzięki internetowi stała się możliwa.
POZYCJONOWANIE – SEO (search engine optimization).
Bazy CINAHL Wyszukiwanie zaawansowane Przewodnik
HTML.  Wprowadzenie  Protokół HTTP  Język HTML  Definicja typu dokumentu  Nagłówek strony  Formatowanie treści dokumentu  Definiowanie struktury.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
Elementy przeglądarki internetowej Pasek menu Pasek kart Pasek adresowy Pasek wyszukiwania Okno z zawartością strony internetowej Zakładki (ulubione)
Sieć komputerowa Rodzaje sieci
Hipertekst HTML WWW.
Wydział Matematyki, Informatyki i Architektury Krajobrazu
REKLAMA INTERNETOWA Katarzyna Czepółkowska. Marketing internetowy ■ Marketing internetowy – forma marketingu, używająca jako medium Internetu i strony.
PROGRAMY DO KONTROLI RODZICIELSKIEJ
Sieci komputerowe Usługi sieciowe 27/09/2002.
PROGRAMY DO KONTROLI RODZICIELSKIEJ
Ovid LinkSolver.
Zapis prezentacji:

Usługi informacyjne w sieci Internet Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej Wykład dla Studium Podyplomowego „Informatyka w Szkole” Dr inż. Piotr Gronek Katedra Informatyki Stosowanej i Fizyki Komputerowej Wykład dla Studium Podyplomowego „Informatyka w Szkole”

Internet źródłem wiedzy u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu u Krótka historia Internetu u Systemy zcentralizowane u Instalacje zdalnego dostępu u Biuletyny elektroniczne u Poczta elektroniczna i listy dyskusyjne u Archiwa dokumentów - serwery FTP u Systemy katalogowe u Problemy konwersji zasobów u Systemy hipertekstowe i multimedialne u Systemy wyszukiwawcze u Systemy dystrybucyjne typu P2P u Niewidoczny świat Internetu

Przyrost liczby węzłów w Internecie

Przyrost liczby sieci

Przyrost liczby witryn WWW

Systemy zcentralizowane u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych. u Komputery mainframe u Powstały w latach 60-tych XX wieku. u Umożliwiały dostęp użytkownikom lokalnym (budynek, kampus). u Opracowane zostały pierwsze systemy baz danych. u Dane w trybie tekstowym, ograniczone wsparcie dla języków narodowych.

Instalacje zdalnego dostępu u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników. u Przełom lat 60 i 70 XX wieku. u Zaadaptowanie linii telekomunikacyjnych na potrzeby transmisji komputerowych. u Rozszerzenie dostępności systemów komputerowych poza daną lokalizację. u Standaryzacja urządzeń zdalnego dostępu. u Nowe kategorie użytkowników.

Biuletyny elektroniczne u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego. u Szczyt popularności – lata 80-te XX wieku. u Połączenie autonomicznych systemów komputerowych. u UUCP - Unix-to-Unix Copy u BBS - Bulletin Board System u Fora wymiany zasobów, informacji, poczty. u Dostęp on-line tylko do najbliższego węzła. u Systemy dostępu publicznego.

Poczta elektroniczna i listy dyskusyjne u Powstanie poczty elektronicznej u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet u Powstanie poczty elektronicznej u Rozwój infrastruktury połączeń sieciowych w ramach ARPANET, Usenet i in. u Automatyzacja dystrybucji przesyłek pocztowych – systemy list server u Listy dyskusyjne. u Grupy dyskusyjne Usenet

USENET

Przykłady  Lista dyskusyjna – interfejs WWW (przykłady):  Katalog list dyskusyjnych TileNet  Serwer news groups: news.neostrada.pl  URL: news://pl.internet.polip news://pl.internet.polip  News groups via www:   Lista dyskusyjna – interfejs WWW (przykłady):  Katalog list dyskusyjnych TileNet  Serwer news groups: news.neostrada.pl  URL: news://pl.internet.polip news://pl.internet.polip  News groups via www: 

Archiwa dokumentów - serwery FTP u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW). u Rozwój infrastruktury Internetu. u Usługa anonymous FTP. u Ogólnodostępne archiwa programów i dokumentów. u Automatyzacja wyszukiwania plików w zasobach publicznych serwerów FTP: usługa Archie – (obecnie dostęp via WWW).

Przykłady  Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/  System wyszukiwania plików Archie:  Inne systemy wyszukiwania plików –Plikoskop:  Publiczny serwer (anonymous) FTP: ftp://ftp.icm.edu.pl/ ftp://ftp.icm.edu.pl/  System wyszukiwania plików Archie:  Inne systemy wyszukiwania plików –Plikoskop:

Systemy katalogowe u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW. u Przenoszenie bibliotecznych danych katalogowych do systemów komputerowych. u Standaryzacja systemów katalogowych OPAC: np. CARL, VTLS. u Dostęp do zdalnych aplikacji za pomocą usługi Telnet – (przeszłość). u Narzędzia wyszukiwania katalogów - np. projekt LibDex. u Adaptacja systemów katalogowych do współpracy z WWW.

Przykłady  System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/  Katalog biblioteki AGH:  Rejestr systemów katalogowych LibDex:  Elektroniczna BIBlioteka - platforma cyfrowa SBP:  Bazy Biblioteki Narodowej:  System informacyjny National Capital Freenet: telnet://telnet.ncf.carleton.ca/ telnet://telnet.ncf.carleton.ca/  Katalog biblioteki AGH:  Rejestr systemów katalogowych LibDex:  Elektroniczna BIBlioteka - platforma cyfrowa SBP:  Bazy Biblioteki Narodowej:

Problemy konwersji zasobów z mediów tradycyjnych na elektroniczne u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier). u Ograniczone środki na projekty publiczne. u Nieustabilizowane standardy reprezentacji treści w postaci elektronicznej (grafika, PDF). u Nie zweryfikowana trwałość mediów komputerowych. u Pełna zależność od dostępności urządzeń. u Postępujący rozkład tradycyjnych nośników (tzw. kwaśny papier).

Systemy hipertekstowe i multimedialne u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW. u Narzędzia hipertekstowe w systemach komputerowych (przykład – system pomocy Microsoft Windows. u Rozpowszechnienie terminali komputerowych obsługujących pozatekstowe formaty danych. u Powstanie rozproszonych systemów informacyjnych w Internecie: Gopher, Hyper-G, Whois. u Integracja rozwiązań hipertekstowych i multi- medialnych w systemie World Wide Web. u Adaptacja interfejsów systemów informacyjnych do współpracy z WWW.

Przykłady  Baza danych jądrowych Nuclear Data Center:  System informacji o zarządzie sieci Whois:  Baza danych jądrowych Nuclear Data Center:  System informacji o zarządzie sieci Whois:

Systemy wyszukiwawcze u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych. u Dynamiczny rozrost zasobów Internetu – lata 90-te. u Systemy katalogowania strukturalnego witryn WWW. u Systemy automatycznego indeksowania stron WWW. u System archiwizowania i przeszukiwania grup dyskusyjnych Usenet. u Systemy metawyszukiwawcze – agregacja wyników. u Udostępnianie innych systemów wyszukiwania via WWW (np. Archie, FTPsearch). u Ograniczenia funkcjonalności systemów wyszukiwawczych.

Przykłady  Katalog strukturalny (portal) – Yahoo!:  System wyszukiwawczy – Google:  System archiwizacji grup dyskusyjnych: –GoogleGroups:  Meta-wyszukiwarka:  Katalog strukturalny (portal) – Yahoo!:  System wyszukiwawczy – Google:  System archiwizacji grup dyskusyjnych: –GoogleGroups:  Meta-wyszukiwarka:

Koncepcje Web 2.0  Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji.  Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service).  Rozwój mechanizmów interaktywnej komunikacji między odbiorcą, a wieloma dostawcami, pośrednikami i agregatorami informacji.  Przekształcenie „przeglądarki” w platformę dostępu do aplikacji serwowanych zdanie w modelu usług (Software As A Service).

Właściwości Web 2.0  Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom).  Mechanizmy typu SLATES: –Search – narzędzia wyszukiwania treści; –Links – przewodniki do powiązanych zagadnień; –Authoring – możliwość tworzenia/modyfikacji zawartości inspirująca wspólnoty autorskie; –Tags – prosta kategoryzacja treści dokonywana przez twórców/odbiorców (folksonomy); –Extensions – mechanizmy platformy serwerowej; –Signals – kanały dystrybucji powiadomień on-line (np. strumienie RSS/Atom).

Porównanie rozwiązań Web Web 1.0 (~  2000 r) dominujące modele  osobiste strony WWW (statyczne)  spekulacja domenami (skojarzenia)  zliczanie odsłon  odświeżanie okna przeglądarki  publikowanie  systemy zarządzania treścią (CMS)  katalogowanie (taxonomy)  przywiązywanie do witryny przykłady serwisów WWW  DoubleClick (reklamy na zamówienie)  Ofoto (serwis firmowy)  Akamai (serwis dystrybucji WWW)  mp3.com (witryna WWW)  Britannica Online (nieliczni eksperci) Web 1.0 (~  2000 r) dominujące modele  osobiste strony WWW (statyczne)  spekulacja domenami (skojarzenia)  zliczanie odsłon  odświeżanie okna przeglądarki  publikowanie  systemy zarządzania treścią (CMS)  katalogowanie (taxonomy)  przywiązywanie do witryny przykłady serwisów WWW  DoubleClick (reklamy na zamówienie)  Ofoto (serwis firmowy)  Akamai (serwis dystrybucji WWW)  mp3.com (witryna WWW)  Britannica Online (nieliczni eksperci) Web 2.0 (~ > 2000 r)  blogi (aktualizacja / komentarze)  optymalizacja stron dla wyszukiwarek  wycena pojedynczych kliknięć  modułowe usługi sieciowe (web services)  uczestnictwo  interaktywne systemy typu wiki  znacznikowanie ("folksonomy")  kanały informacyjne (RSS/Atom)  Google AdSense (wg kontekstu)  Flickr (wspólnota użytkowników)  BitTorrent (system P2P)  Napster (pośrednik w modelu P2P)  Wikipedia (armia woluntariuszy) wg Tim O'Reilly:

Technologie modelu Web 2.0  AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript.  Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON.  AJAX – interaktywne modyfikowanie zawartości okna przeglądarki WWW: –opis i prezentacja treści wg standardów XHTML i CSS; –organizacja treści w oparciu o Document Object Model; –wymiana danych w formacie XML; –asynchroniczne odświeżanie za pomocą XMLHttpRequest; –integracja powyższych funkcji za pomocą JavaScript.  Dynamiczne narzędzia budowania treści po stronie serwerów usług Web: –języki skryptowe: Perl, PHP, ASP, Python, Ruby; –formaty wymiany danych: XML, RSS, JSON.

Krytyka Web 2.0  Czy jest to istotnie nowa funkcjonalność?  Czy jest to tylko zestaw rozwiązań technologicznych?  Czy model społecznościowy jest wiarygodny i trwały?  Czy jest to zabieg marketingowy?  Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści  Czy jest to istotnie nowa funkcjonalność?  Czy jest to tylko zestaw rozwiązań technologicznych?  Czy model społecznościowy jest wiarygodny i trwały?  Czy jest to zabieg marketingowy?  Czy będzie Web 3.0 ? –Semantic Web – samo-opisywanie się treści

Systemy dystrybucyjne typu P2P  Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami.  Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego.  Lokalizowanie zasobów może być zcentralizowane lub rozproszone.  Rozproszone systemy przesyłania plików pomiędzy równorzędnymi węzłami.  Model „każdy z każdym” – Peer-to-Peer: dany węzeł może pełnić jednocześnie funkcję klienta pobierającego dane i serwera je udostępniającego.  Lokalizowanie zasobów może być zcentralizowane lub rozproszone.

Systemy dystrybucyjne typu P2P  System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny.  System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący  Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów  System z centralnym rejestrem zasobów –podatny na awarię, nieskalowalny.  System z rozproszonymi rejestrami zasobów –każdy zasób ma swój własny serwer inicjujący  Systemy w pełni zdecentralizowane –wyposażone w algorytm wyszukiwania położenia zasobów

PrzykładPrzykład  BitTorrent – system dystrybucji plików.  Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP.  Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich.  Obsługiwane przez programy: Opera, Azureus/Vuze,  Torrent i i in.  BitTorrent – system dystrybucji plików.  Inicjowany za pomocą plików kontrolnych typu.torrent pobieranych via HTTP.  Umożliwia efektywną dystrybucję dużych plików przez „roje” systemów klienckich.  Obsługiwane przez programy: Opera, Azureus/Vuze,  Torrent i i in.

BitTorrent  Przykład dystrybucji pliku (podzielonego na fragmenty) w systemie P2P.

Niewidoczny świat Internetu  Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW.  Interaktywne schematy dostępu np. AJAX/Flash.  Komercyjne systemy informacyjne.  Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów.  Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów.  Zawartość systemów bazodanowych niedostępnych dla wyszukiwarek WWW.  Interaktywne schematy dostępu np. AJAX/Flash.  Komercyjne systemy informacyjne.  Surface Web – rozmiar indeksu Google: ok. 8 miliardów dokumentów.  Deep Web – szacowany rozmiar zasobówok. 500 miliardów dokumentów.

Rejestry zasobów Deep Web  Katalog CompletePlanet:  Infomine:  Weblens - The Invisible Web:  Katalog CompletePlanet:  Infomine:  Weblens - The Invisible Web:

Archiwa programów  CHIP CHIP  PCWK - ftp PCWK - ftp PCWK - ftp  CNET - Shareware CNET - Shareware CNET - Shareware  FreewareWeb FreewareWeb  Winsite Winsite  SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet  CHIP CHIP  PCWK - ftp PCWK - ftp PCWK - ftp  CNET - Shareware CNET - Shareware CNET - Shareware  FreewareWeb FreewareWeb  Winsite Winsite  SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet SimtelNet i inne - kopia Cyfronet

Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1  Ranking stron WWW –mechanizm przypisywania wagi stronie na podstawie ilości łącz hipertekstowych na nią wskazujących PR(A) = (1-d) + d (PR(T 1 )/C(T 1 )+...+PR(T n )/C(T n )) PR(A) – ranking strony A, T i – strona zawierająca łącze do strony A, C(T i ) – ilość linków ze strony T i, d – empiryczny współczynnik tłumienia (np. d=0.85); ∑ i PR(i) = 1

Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego.  Wykorzystanie treści tekstowej odnośników –treść opisu tekstowego umieszczonego w odnośniku ( text ); –może ona stanowić lepszy opis dokumentu docelowego niż jego własna treść; –możliwość opisania dokumentów nie mających charakteru tekstowego.

Zasady działania wyszukiwarki internetowej (na podstawie prototypu Google)  Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką).  Googol =  Inne cechy: –oszacowanie odległości występowania elementów zapytania w zwracanych odpowiedziach; –uwzględnianie niektórych elementów wizualnych związanych z analizowanym tekstem (większą wagę uzyskuje tekst wytłuszczony lub zapisany większą czcionką).  Googol =

URL Server Crawler Store Server Sorter SearcherPagerank IndexerURI Resolver Architektura prototypu Google Barrels Links Anchors Doc Index Lexicon Repository

Architektura prototypu Google  URL Server – generuje listę URL do przejrzenia.  Crawlers – pobierają zawartość witryn WWW.  Store Server – wstępnie magazynuje i kompresuje pobrane strony.  Repository – główny magazyn stron.  Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników.  Barrels – przechowują wstępnie posortowany indeks lokalizacji słów.  Anchors – magazyn zarejestrowanych odnośników.  URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników.  Links – baza odnośników tj. par identyfikatorów dokumentów.  Pagerank – oblicza ranking dokumentów wg bazy odnośników.  Sorter – sortuje główną bazę wg identyfikatorów słów.  Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron.  URL Server – generuje listę URL do przejrzenia.  Crawlers – pobierają zawartość witryn WWW.  Store Server – wstępnie magazynuje i kompresuje pobrane strony.  Repository – główny magazyn stron.  Indexer – oznacza dokumenty w repozytorium identyfikatorami, wyznacza pozycje występowania słów i ich wagę – zapisuje wyniki do bazy indeksów; położenie i treść odnośników zapisuje w bazie odnośników.  Barrels – przechowują wstępnie posortowany indeks lokalizacji słów.  Anchors – magazyn zarejestrowanych odnośników.  URI Resolver – przekształca odnośniki w formę bezwzględną, a następnie w identyfikatory dokumentów; dołącza treść odnośników do opisu dokumentów w głównym indeksie; generuje bazę odnośników.  Links – baza odnośników tj. par identyfikatorów dokumentów.  Pagerank – oblicza ranking dokumentów wg bazy odnośników.  Sorter – sortuje główną bazę wg identyfikatorów słów.  Searcher – połączony z serwerem WWW, odpowiada na zapytania w oparciu o posortowaną bazę słów, leksykon i ranking stron.

1. Używanie operatorów logicznych kot AND piesmuszą wystąpić słowa "kot" i "pies" kot OR piesmuszą wystąpić słowa "kot" lub "pies" kot AND NOT piesmusi wystąpić słowo "kot" ale nie "pies" PHRASE kot z charakteremmusi wystąpić fraza "kot z charakterem" 2. To samo jako opcje: +kot +piesmuszą wystąpić słowa "kot" i "pies" kot piesmuszą wystąpić słowa "kot" lub "pies" +kot -piesmusi wystąpić słowo "kot" ale nie "pies" "kot z charakterem"musi wystąpić fraza "kot z charakterem" 3. Niektóre wyszukiwarki dodatkowo akceptują: symbole zastępcze wieloliterowe (*) i jednoliterowe(?), wyszukiwanie podciągów (części wyrazów), rozróżnianie dużych i małych liter, wybór języka stron wyszukiwanych, wybór pola (segmentu) strony: tytuł, nagłówek, odnośniki, tekst. Kryteria wyszukiwania

Projektowanie stron WWW współpraca z systemami wyszukiwania  Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta":  krótki opis:  krótki opis:  słowa kluczowe:  słowa kluczowe:  informacja o prawach autorskich:  informacja o prawach autorskich:  informacja o autorze:  informacja o autorze:  informacja o adresie pocztowym autora:  informacja o adresie pocztowym autora:  data powstania dokumentów:  data powstania dokumentów:  data ostatniej modyfikacji dokumentu:  data ostatniej modyfikacji dokumentu:  Dodatkowe informacje o dokumencie w nagłówku dokumentu HTML w polach "meta":  krótki opis:  krótki opis:  słowa kluczowe:  słowa kluczowe:  informacja o prawach autorskich:  informacja o prawach autorskich:  informacja o autorze:  informacja o autorze:  informacja o adresie pocztowym autora:  informacja o adresie pocztowym autora:  data powstania dokumentów:  data powstania dokumentów:  data ostatniej modyfikacji dokumentu:  data ostatniej modyfikacji dokumentu: Współpraca z przeszukiwarkami --- meta-informacje Warto dostosować swoje dokumenty do istnienia przeszukiwarek i innych robotów przez zdefiniowanie dodatkowej informacji o dokumencie w nagłówku dokumentu w polach "meta":

Koniec