Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Tomasz Lewandowski Platforma Otwartej Nauki, ICM, UW

Podobne prezentacje


Prezentacja na temat: "Tomasz Lewandowski Platforma Otwartej Nauki, ICM, UW"— Zapis prezentacji:

1 Jak zwiększyć widoczność publikacji naukowych w Internecie z pomocą Google Scholar
Tomasz Lewandowski Platforma Otwartej Nauki, ICM, UW „Otwórz, aby inspirować”, Białystok,

2 Co nas czeka?

3 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych.

4 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych. a) Jak GS gromadzi dane o publikacjach.

5 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych. a) Jak GS gromadzi dane o publikacjach. b) Jak GS prezentuje dane.

6 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych. a) Jak GS gromadzi dane o publikacjach. b) Jak GS prezentuje dane. c) Najważniejsze zalety i wady GS.

7 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych. a) Jak GS gromadzi dane o publikacjach. b) Jak GS prezentuje dane. c) Najważniejsze zalety i wady GS. 2. Repozytorium akademickie jako pomoc w dostarczeniu danych do Google Scholar.

8 Co nas czeka? 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych. a) Jak GS gromadzi dane o publikacjach. b) Jak GS prezentuje dane. c) Najważniejsze zalety i wady GS. 2. Repozytorium akademickie jako pomoc w dostarczeniu danych do Google Scholar. 3. Co my sami możemy zrobić, by pomóc.

9 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych

10 1. Google Scholar jako narzędzie rozpowszechniania publikacji naukowych
a) Konstrukcja wyszukiwarki.

11 Konstrukcja wyszukiwarki

12 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet

13 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Przegląda strony internetowe i analizuje ich zawartość.

14 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Przegląda strony internetowe i analizuje ich zawartość. Porusza się między nimi podążając za linkami.

15 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Przegląda strony internetowe i analizuje ich zawartość. Porusza się między nimi podążając za linkami. Pieszczotliwie nazywany „pajączkiem”.

16 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Przegląda strony internetowe i analizuje ich zawartość. Porusza się między nimi podążając za linkami. Pieszczotliwie nazywany „pajączkiem”.

17 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Indeks – spis stron internetowych przygotowywanych przez flotę crawlerów

18 Konstrukcja wyszukiwarki
Crawler – robot przeszukujący Internet Indeks – spis stron internetowych przygotowywanych przez flotę crawlerów Ranking – dowolna hierarchia na zawartości indeksu

19 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron.

20 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery.

21 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Google decyduje, dla kogo ustawia.

22 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Google decyduje, dla kogo ustawia. 2. Konta naukowców.

23 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Google decyduje, dla kogo ustawia. 2. Konta naukowców. Warto o nie zadbać.

24 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Google decyduje, dla kogo ustawia. 2. Konta naukowców. Warto o nie zadbać. 3. Crawlery.

25 Konstrukcja wyszukiwarki
Google Scholar ma trzy źródła indeksowanych stron. 1. Harvestery. Google decyduje, dla kogo ustawia. 2. Konta naukowców. Warto o nie zadbać. 3. Crawlery. Główne źródło danych.

26 Internet z punktu widzenia crawlera

27

28 Internet z punktu widzenia crawlera
[ryc 2 – stara przeglądarka starego internetu]

29 Internet z punktu widzenia crawlera

30 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną

31 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego

32 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse

33 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis

34 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis (zazwyczaj pomaga sobie mapą strony)

35 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis (porozumiewa się z serwerem tylko metodą GET)

36 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis (porozumiewa się z serwerem tylko metodą GET) (wszystkie formularze, logowania itp. wykorzystują metodę POST)

37 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis - artykuły to liście drzewa, po którym się wspina

38 Internet z punktu widzenia crawlera
- crawler wchodzi na stronę główną - czyta robots.txt i stosuje się do niego - jeśli jest w repozytorium, znajduje browse - jeśli to nie repo, musi skanować cały serwis - artykuły to liście drzewa, po którym się wspina - kształt drzewa zależy od segregacji zasobów

39 Internet z punktu widzenia crawlera
[ryc 3 – optymalny dla GS kształt drzewa]

40 Internet z punktu widzenia crawlera
- crawler odnajduje stonę z rekordem

41 Internet z punktu widzenia crawlera
- crawler odnajduje stonę z rekordem - crawler stara się odczytać metadane

42 Internet z punktu widzenia crawlera
[ryc 4 – cztery źródła metadanych]

43 Internet z punktu widzenia crawlera
[ryc 5 – tagi w html, czyli metadane dla crawlera]

44 Internet z punktu widzenia crawlera
- crawler odnajduje stonę z rekordem - crawler stara się odczytać metadane GS ma swoje preferencje odnośnie do metadanych

45 Internet z punktu widzenia crawlera
- crawler odnajduje stonę z rekordem - crawler stara się odczytać metadane GS ma swoje preferencje odnośnie do metadanych Preferuje: Highwire Press (citation_title) Eprints (eprints.title) BE Press (bepress_citation_title)

46 Internet z punktu widzenia crawlera
- crawler odnajduje stonę z rekordem - crawler stara się odczytać metadane GS ma swoje preferencje odnośnie do metadanych Odradza: Dublin Core (dc.creator)

47 2. Zalety i wady Google Scholar

48 2. Zalety i wady Google Scholar 2.1. Zalety

49 2.1. Zalety Google Scholar a) Ogromny corpus tekstów

50 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014)

51 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014) milionów tekstów naukowych

52 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014) milionów tekstów naukowych (+/- 10%)

53 2.1. Zalety Google Scholar [ryc 5 – 500 internal server error po próbie replikacji wyników z About the Size of Google Scholar #1]

54 2.1. Zalety Google Scholar [ryc 6 – 500 internal server error po próbie replikacji wyników z About the Size of Google Scholar #2]

55 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014) milionów tekstów naukowych (+/- 10%) w 2014

56 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014) milionów tekstów naukowych (+/- 10%) w mln w 2015, + 6 mln w 2016 i + 3 mln w 2017

57 2.1. Zalety Google Scholar a) Ogromny corpus tekstów E. Orduna-Malea i in., About the Size of Google Scholar (…) (2014) milionów tekstów naukowych (+/- 10%) w mln w 2015, + 6 mln w 2016 i + 3 mln w ok milionów tekstów naukowych

58 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów

59 2.1. Zalety Google Scholar [ryc 7 – wykres liczby publikacji naukowych w skali czasu w GS, WoS i starym MAS (dane z 2014)] Źródło: E. Orduna-Malea i in., About the Size of Google Scholar (…)

60 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim

61 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim (inaczej niż WoS i Scopus)

62 2.1. Zalety Google Scholar [ryc 8 – o braku nadreprezentacji tekstów angielskich]

63 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim (inaczej niż WoS i Scopus) d) działa tak, jak w teorii agregator działać powinien

64 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim (inaczej niż WoS i Scopus) d) działa tak, jak w teorii agregator działać powinien

65 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien

66 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien - integruje wszystkie dostępne rekordy danego tekstu

67 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien - integruje wszystkie dostępne rekordy danego tekstu (o ile może rozpoznać tożsamość)

68 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien - integruje wszystkie dostępne rekordy danego tekstu (o ile może rozpoznać tożsamość) - przeprowadza deduplikację autorów

69 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien - integruje wszystkie dostępne rekordy danego tekstu (o ile może rozpoznać tożsamość) - przeprowadza deduplikację autorów - automatyczna detekcja cytowań

70 2.1. Zalety Google Scholar d) działa tak, jak w teorii agregator działać powinien - integruje wszystkie dostępne rekordy danego tekstu (o ile może rozpoznać tożsamość) - przeprowadza deduplikację autorów - automatyczna detekcja cytowań - wylicza h-index, prezentuje statystyki

71 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim (inaczej niż WoS i Scopus) d) działa tak, jak w teorii agregator działać powinien e) powszechnie używany

72 2.1. Zalety Google Scholar e) powszechnie używany A. Martin-Martin i in., Back to the past: on the shoulders of an academic search engine giant. Scientometrics (2016): GS może być odpowiedzialny za trend częstszego cytowania starszych artykułów.

73 2.1. Zalety Google Scholar a) ok. 175 mln tekstów naukowych b) nadreprezentacja najnowszych tekstów c) brak nadreprezentacji tekstów w języku angielskim (inaczej niż WoS i Scopus) d) działa tak, jak w teorii agregator działać powinien e) powszechnie używany f) za darmo

74 2. Zalety i wady Google Scholar 2.2. Wady

75 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów

76 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów - niekiedy zbyt trudno dostać się „na indeks”

77 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów - niekiedy zbyt trudno dostać się „na indeks” - niekiedy zbyt łatwo dostać się „na indeks”

78 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów - niekiedy zbyt trudno dostać się „na indeks” - niekiedy zbyt łatwo dostać się „na indeks” b) całkowity brak ludzkiego nadzoru

79 2.2. Wady Google Scholar [ryc 9 – author:Vietnam]

80 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów - niekiedy zbyt trudno dostać się „na indeks” - niekiedy zbyt łatwo dostać się „na indeks” b) całkowity brak ludzkiego nadzoru c) brak wyszukiwania semantycznego - tylko słowa kluczowe

81 2.2. Wady Google Scholar a) kłopoty z inkluzją artykułów - niekiedy zbyt trudno dostać się „na indeks” - niekiedy zbyt łatwo dostać się „na indeks” b) całkowity brak ludzkiego nadzoru c) brak wyszukiwania semantycznego - tylko słowa kluczowe d) za darmo...

82 Repozytoria akademickie a GS

83 Repozytoria akademickie a GS
Repozytorium akademickie: usługa internetowa pozwalająca na długoterminowe przechowywanie publikacji naukowych i/lub danych badawczych oraz dostęp do zdeponowanych zasobów za pomocą WWW.

84 Repozytoria akademickie a GS
Z punktu widzenia crawlera wyszukiwarki akademickiej repozytorium wyróżnia się względnie dużą ilością zasobów zgromadzonych w jednym miejscu.

85 Repozytoria akademickie a GS
Z punktu widzenia crawlera wyszukiwarki akademickiej repozytorium wyróżnia się względnie dużą ilością zasobów zgromadzonych w jednym miejscu. Ponieważ crawler dysponuje ograniczoną ilością zasobów (mocy obliczeniowej i czasu), strony o słabej wydajności lub złej architekturze mogą efektywnie nie udostępniać części zdeponowanych zasobów.

86 Repozytoria akademickie a GS
Z punktu widzenia crawlera wyszukiwarki akademickiej repozytorium wyróżnia się względnie dużą ilością zasobów zgromadzonych w jednym miejscu. Jeśli jednak strona jest dobrze zaprojektowana, Google może rozpoznać repozytorium jako cenny zasób.

87 Repozytoria akademickie a GS
Z punktu widzenia crawlera wyszukiwarki akademickiej repozytorium wyróżnia się względnie dużą ilością zasobów zgromadzonych w jednym miejscu. Jeśli jednak strona jest dobrze zaprojektowana, Google może rozpoznać repozytorium jako cenny zasób. GS prowadzi na bieżąco „wewnętrzny” ranking stron i preferuje te miejsca w Sieci, z których można szybko wydobyć wysokiej jakości dane.

88 Repozytoria akademickie a GS
Istnieje szereg rekomendacji Google na temat tego, jak uczynić repozytorium akademickie bardziej widocznym poprzez dopasowanie go do wymagań crawlerów.

89 Repozytoria akademickie a GS
Istnieje szereg rekomendacji Google na temat tego, jak uczynić repozytorium akademickie bardziej widocznym poprzez dopasowanie go do wymagań crawlerów. D. Dapra, A. Acharya Indexing Repositories: Pitfalls and Best Practices

90 Repozytoria akademickie a GS
Istnieje szereg rekomendacji Google na temat tego, jak uczynić repozytorium akademickie bardziej widocznym poprzez dopasowanie go do wymagań crawlerów. D. Dapra, A. Acharya Indexing Repositories: Pitfalls and Best Practices Google Scholar Inclusion Guide

91 Repozytoria akademickie a GS
Istnieje szereg rekomendacji Google na temat tego, jak uczynić repozytorium akademickie bardziej widocznym poprzez dopasowanie go do wymagań crawlerów. D. Dapra, A. Acharya Indexing Repositories: Pitfalls and Best Practices Google Scholar Inclusion Guide Jak poprawić widoczność rekordów w Google Scholar (otwartanauka.pl)

92 Repozytoria akademickie a GS
Istnieje szereg rekomendacji Google na temat tego, jak uczynić repozytorium akademickie bardziej widocznym poprzez dopasowanie go do wymagań crawlerów. D. Dapra, A. Acharya Indexing Repositories: Pitfalls and Best Practices Google Scholar Inclusion Guide Jak poprawić widoczność rekordów w Google Scholar (otwartanauka.pl)

93 Co można zrobić osobiście?

94 Co można zrobić osobiście?
a) Założyć konto w Google Scholar

95 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom

96 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS

97 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy

98 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane (autor/autorzy, afiliacje itp.)

99 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane (autor/autorzy, afiliacje itp.) Wiele komercyjnych programów (Adobe, InDesign)

100 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane (autor/autorzy, afiliacje itp.) Wiele komercyjnych programów (Adobe, InDesign) Również wiele programów darmowych.

101 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane (autor/autorzy, afiliacje itp.) Wiele komercyjnych programów (Adobe, InDesign) Również wiele programów darmowych. (Autometadata, PDF Metadata Editor, Pdftk [ubuntu])

102 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane c) Rozpowszechniać publikacje z pomocą social media

103 Co można zrobić osobiście?
a) Założyć konto w Google Scholar - możliwość wskazywania tekstów crawlerom - widać rezultat przetworzenia danych przez GS b) Odpowiednio przygotowywać deponowane pdfy - metadane c) Rozpowszechniać publikacje z pomocą social media - większość social media jest dość wysoko w rankingach Google. Zawiadamiamy więc nie tylko kolegów i koleżanki, ale także i roboty.

104 Dziękuję za uwagę.


Pobierz ppt "Tomasz Lewandowski Platforma Otwartej Nauki, ICM, UW"

Podobne prezentacje


Reklamy Google