Repozytoria instytucjonalne a wyszukiwarki akademickie Jak zwiększyć widoczność zasobów repozytoryjnych Tomasz Lewandowski Platforma Otwartej Nauki, ICM, UW 7. Seminarium Open Access, Biblioteka Uniwersytetu Łódzkiego, 25.10.2016
Misja repozytoriów instytucjonalnych
Misja repozytoriów instytucjonalnych 1. Indeksacja
Misja repozytoriów instytucjonalnych 1. Indeksacja 2. Archiwizacja
Misja repozytoriów instytucjonalnych 1. Indeksacja 2. Archiwizacja 3. Rozpowszechnianie
Misja repozytoriów instytucjonalnych 1. Indeksacja 2. Archiwizacja 3. Rozpowszechnianie
Misja repozytoriów instytucjonalnych 3. Rozpowszechnianie środowisko: Internet
Misja repozytoriów instytucjonalnych 3. Rozpowszechnianie środowisko: Internet trzeba dostosować się do reguł gry
Misja repozytoriów instytucjonalnych 3. Rozpowszechnianie środowisko: Internet trzeba dostosować się do reguł gry Ruch użytkowników przekierowywany przez wyszukiwarki
Dlaczego Google Scholar?
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny z aktywnymi użytkownikami
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny z aktywnymi użytkownikami 3. ...
Dlaczego Google Scholar?
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny z aktywnymi użytkownikami 3. Google Scholar mniej faworyzuje język angielski
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny z aktywnymi użytkownikami 3. Google Scholar mniej faworyzuje język angielski 4. Widoczna potrzeba społeczności naukowej ( repozytorium CeON)
Dlaczego Google Scholar? 1. Aktualnie to jedyna rozpoznawalna wyszukiwarka akademicka na rynku 2. Działa jak agregator rozpoznawalny z aktywnymi użytkownikami 3. Google Scholar mniej faworyzuje język angielski 4. Widoczna potrzeba społeczności naukowej ( repozytorium CeON)
Dostępność a Widoczność
Dostępność a Widoczność
Dostępność a Widoczność E. Orduna-Malea, D. López-Cózar The Dark Side of Open Access Repositories in Google and Google Scholar: the case of Latin-American Repositories.
Dostępność a Widoczność E. Orduna-Malea, D. López-Cózar The Dark Side of Open Access Repositories in Google and Google Scholar: the case of Latin-American Repositories. K. Arlitsch, P.S. O'Brien Invisible institutional repositories: addressing the low indexing ratios of IRs in Google.
1. Konstrukcja akademickiej wyszukiwarki internetowej
1. Konstrukcja akademickiej wyszukiwarki internetowej 2. Świat według crawlera
1. Konstrukcja akademickiej wyszukiwarki internetowej 2. Świat według crawlera 3. Kilka porad praktycznych
1. Konstrukcja akademickiej wyszukiwarki internetowej 2. Świat według crawlera 3. Kilka porad praktycznych + podsumowanie
1. Konstrukcja wyszukiwarki
1. Konstrukcja wyszukiwarki SERP – Search Engine Result Page
1. Konstrukcja wyszukiwarki SERP – Search Engine Result Page Dlaczego powstaje tak szybko?
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet.
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet. Porusza się po Sieci podążając za linkami.
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet. Porusza się po Sieci podążając za linkami. Pieszczotliwie nazywany 'pajączkiem'.
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet. Porusza się po Sieci podążając za linkami. Indeks – spis stron internetowych przygotowywany przez flotę crawlerów.
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet. Porusza się po Sieci podążając za linkami. Indeks – spis stron internetowych przygotowywany przez flotę crawlerów. Ranking – dowolny sposób oceny zawartości indeksu.
1. Konstrukcja wyszukiwarki Crawler – robot przeszukujący internet. Porusza się po Sieci podążając za linkami. Indeks – spis stron internetowych przygotowywany przez flotę crawlerów. Ranking – dowolny sposób oceny zawartości indeksu. Google długo używał PageRank.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Raczej poza zasięgiem repozytoriów.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Raczej poza zasięgiem repozytoriów. 2. Konta naukowców w Google Scholar.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Raczej poza zasięgiem repozytoriów. 2. Konta naukowców w Google Scholar. Zachęcać zainteresowanych deponujących.
1. Konstrukcja wyszukiwarki Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Raczej poza zasięgiem repozytoriów. 2. Konta naukowców w Google Scholar. Zachęcać zainteresowanych deponujących. 3. Crawlery. Loteria. Można jednak zwiększyć szanse.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar. Indeksowanie artykułów, a nie stron internetowych.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar. Indeksowanie artykułów, a nie stron internetowych. Wiąże się to z rozpoznawaniem zasobów naukowych.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar. Indeksowanie artykułów, a nie stron internetowych. Wiąże się to z rozpoznawaniem zasobów naukowych. Ranking artykułów według ilości cytowań.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar. Indeksowanie artykułów, a nie stron internetowych. Wiąże się to z rozpoznawaniem zasobów naukowych. Ranking artykułów według ilości cytowań. Prawie brak klasycznych problemów SEO
1. Konstrukcja wyszukiwarki Specyfika Google Scholar. Indeksowanie artykułów, a nie stron internetowych. Wiąże się to z rozpoznawaniem zasobów naukowych. Ranking artykułów według ilości cytowań. Prawie brak klasycznych problemów SEO Jakość deponowanych plików ma znaczenie
1. Konstrukcja wyszukiwarki Specyfika Google jako całości. Nastawienie na pozytywne doświadczenia użytkownika.
1. Konstrukcja wyszukiwarki Specyfika Google jako całości. Nastawienie na pozytywne doświadczenia użytkownika. Scholar widzi więcej niż pokazuje w SERPach.
1. Konstrukcja wyszukiwarki Specyfika Google jako całości. Nastawienie na pozytywne doświadczenia użytkownika. Scholar widzi więcej niż pokazuje w SERPach. Część linków odrzuca ze względu na spodziewane złe doświadczenia użytkownika, niespełnienie jego oczekiwań.
1. Konstrukcja wyszukiwarki Specyfika Google Scholar jako części Google. Ograniczone zasoby crawlerów: czas i moc obliczeniowa.
2. Świat według crawlera Strona to tekst HTML.
2. Świat według crawlera Strona to tekst HTML. Najważniejsze dla crawlera jest to, co nie wyświetla się jako tekst w przeglądarce: sekcja <head>, tagi <meta> itp.
2. Świat według crawlera GET, nie POST
2. Świat według crawlera GET, nie POST Bez formularzy.
2. Świat według crawlera GET, nie POST Bez formularzy. Bez logowania (nawet jako gość).
2. Świat według crawlera GET, nie POST Bez formularzy. Bez logowania (nawet jako gość). Browse (przeglądaj) zamiast Search (szukaj).
2. Świat według crawlera Gdzie crawler szuka danych?
2. Świat według crawlera Gdzie crawler szuka danych?
3. Kilka porad praktycznych
3. Kilka porad praktycznych otwartanauka.pl Jak poprawić widoczność rekordów w Google Scholar?
3. Kilka porad praktycznych otwartanauka.pl Jak poprawić widoczność rekordów w Google Scholar? D. Dapra, A. Acharya Indexing Repositories: Pitfalls and Best Practices.
3. Kilka porad praktycznych robots.txt
3. Kilka porad praktycznych robots.txt zazwyczaj tworzony rutynowo, więc łatwo o nim zapomnieć
3. Kilka porad praktycznych robots.txt zazwyczaj tworzony rutynowo, więc łatwo o nim zapomnieć może całkowicie zablokować dostęp crawlerów do pewnych obszarów strony
3. Kilka porad praktycznych robots.txt zazwyczaj tworzony rutynowo, więc łatwo o nim zapomnieć może całkowicie zablokować dostęp crawlerów do pewnych obszarów strony GS rekomenduje skasowanie wszystkich parametrów dissalow
3. Kilka porad praktycznych Łatwy dostęp crawlera do artykułów.
3. Kilka porad praktycznych Łatwy dostęp crawlera do artykułów. Odpowiedni kształt 'drzewa linków' w sekcji Browse.
3. Kilka porad praktycznych Łatwy dostęp crawlera do artykułów. Odpowiedni kształt 'drzewa linków' w sekcji Browse. Za szerokie zbyt zwiększy losowość nawigacji.
3. Kilka porad praktycznych Łatwy dostęp crawlera do artykułów. Odpowiedni kształt 'drzewa linków' w sekcji Browse. Za szerokie zbyt zwiększy losowość nawigacji. Za wysokie utrudni pracę crawlerom.
3. Kilka porad praktycznych Łatwy dostęp crawlera do artykułów. Odpowiedni kształt 'drzewa linków' w sekcji Browse. Za szerokie zbyt zwiększy losowość nawigacji. Za wysokie utrudni pracę crawlerom. GS rekomenduje układ 'rok – miesiąc'.
3. Kilka porad praktycznych
3. Kilka porad praktycznych Podsumowanie
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Warto zadbać o ogólną zgodność systemu repozytoryjnego z wytycznymi Google. (HTTPS, tagi <meta> w systemie Highwire lub podobnym, odpowiednie odpowiedzi HTTP)
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Każdy plik PDF powinien posiadać warstwę tekstową.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Każdy plik PDF powinien posiadać warstwę tekstową. Oraz posiadać objętość nie większą niż 5MB.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Każdy plik PDF powinien posiadać warstwę tekstową. Oraz posiadać objętość nie większą niż 5MB. Na początku pliku: tytuł i autor zgodne z metadanymi.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Każdy plik PDF powinien posiadać warstwę tekstową. Oraz posiadać objętość nie większą niż 5MB. Na początku pliku: tytuł i autor zgodne z metadanymi. Na końcu pliku: bibliografia.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Zasoby dostępne lokalnie.
3. Kilka porad praktycznych Podsumowanie Konstrukcja wyszukiwarki internetowej. Zasoby dostępne lokalnie. Linków zewnętrznych GS nie bierze pod uwagę.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Strona w całości nawigowalna dla crawlerów.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Strona w całości nawigowalna dla crawlerów. Jeśli dane są w rekordzie bibliograficznym, to jeszcze nie znaczy, że są też tam, gdzie będzie szukał crawler.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Javascript i POST wykluczone. Tylko GET.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Javascript i POST wykluczone. Tylko GET. GET rozpoznajemy po tym, że wszystko jest w URL.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Dostęp do zasobu powinien być bezpośredni.
3. Kilka porad praktycznych Podsumowanie Świat według crawlera. Dostęp do zasobu powinien być bezpośredni. Wyskakujące okna, strony rejestracji / logowania, strony z regulaminem użytkowania, ankiety - to wszystko stanowić będzie przeszkodę.
Dziękuję za uwagę.