Impactfactor Normalizacjadanych Cytowalność Bibliometryczna trylogia trylogia Statystyczno-porównawcze metody oceny działalności naukowej Cieszyn XI 2001 r. Andrzej Kajetan Wróblewski Wydział Fizyki UW
Jakie konsekwencje ma zasada „whole counting”, to znaczy zaliczanie danej publikacji Jakie konsekwencje ma zasada „whole counting”, to znaczy zaliczanie danej publikacji i jej cytowań z taką samą (jednostkową) wagą wszystkim współautorom tej publikacji i wszystkim krajom z których pochodzą ?
Produkty Institute of Scientific Information (ISI)
Rozważmy hipotetyczny świat, w którym są tylko dwa kraje 1 i publikacji autorów z kraju publikacji autorów z kraju publikacji autorów z kraju publikacji autorów z kraju publikacji wspólnych autorów z obu krajów 100 publikacji wspólnych autorów z obu krajów Cała baza danych zawiera zatem 300 publikacji tego ”świata” Cała baza danych zawiera zatem 300 publikacji tego ”świata” Autorzy z kraju 1 opublikowali = 200 prac Autorzy z kraju 1 opublikowali = 200 prac czyli 2/3 produkcji „światowej” czyli 2/3 produkcji „światowej” To samo odnosi się do autorów z kraju 2 To samo odnosi się do autorów z kraju 2 Zatem nieznormalizowane wkłady obu krajów dodają się do 4/3 ”produkcji światowej” Zatem nieznormalizowane wkłady obu krajów dodają się do 4/3 ”produkcji światowej” Procent prac z autorami z danego kraju jest większy od procentowego wkładu tego kraju do produkcji światowej Konsekwencje reguły ”whole counting”
Definicja: SUMA P = Zsumowanie liczby publikacji z autorami z poszczególnych krajów Wtedy: SUMA P Całkowita liczba publikacji Intensywność Intensywność = IWM Współpracy = IWM Współpracy Międzynarodowej Międzynarodowej Istotnie, w omawianym hipotetycznym świecie IWM wynosi 400/300 = 1,5 i rzeczywiście dobrze wyraża to, że 50% prac powstało we współpracy autorów z krajów 1 i 2. Jeśli jest więcej niż dwa kraje, to wprowadzona intensywność współpracy międzynarodowej nie ma tak prostej interpretacji, ale nadal może być stosowana do charakteryzowania współpracy
Suma 115,18%
Wnioski z bazy NSI 2000
Załóżmy dalej, że 100 publikacji z kraju 1 uzyskało łącznie 200 cytowań, 100 publikacji z kraju 2 uzyskało łącznie 200 cytowań 100 publikacji wspólnych uzyskało łącznie 400 cytowań Kraj 1 zebrał łącznie 600 cytowań, kraj 2 także 600 cytowań, ale całkowita liczba cytowań wynosiła tylko 800. Można wprowadzić wielkość SUMA C jako zsumowanie wszystkich cytowań przypisanych poszczególnym krajom i wprowadzić definicję SUMA C Całkowita liczba cytowań Efektywność Efektywność = EWM Współpracy Międzynarodowej Międzynarodowej
Wnioski z bazy NSI 2000
Gdyby publikacje wspólne były cytowane tak samo często jak publikacje autorów z jednego kraju, to mielibyśmy IWM = EWM Można więc wprowadzić trzecią wielkość EWMIWM Jakość = JWMWspółpracy Międzynarodowej
Wnioski z bazy NSI 2000
Wniosek: Należy starannie sprawdzać normalizację danych
Czego miarą jest cytowalność („impact”) dla poszczególnych krajów ? Czego miarą jest cytowalność („impact”) dla poszczególnych krajów ?
Liczba cytowań Liczba cytowań Impact factor (IF) = Liczba publikacji Liczba publikacji IF bywa rozważany dla krajów, instytucji, dziedzin nauki, czasopism, poszczególnych badaczy Polskie tłumaczenia IF: wpływ, współczynnik wpływu, cytowalność
Rozważmy ponownie hipotetyczny świat, w którym są tylko dwa kraje 1 and 2 oraz dwie dziedziny nauki, A and B prace cytowania IF Kraj 1A B A + B A + B Kraj 2 A B A + B A + B Jeśli wartość IF dla krajów traktować jako parametr, który może być miarą jakości ich nauki, to kraj 2 ma naukę lepszą od kraju 1, chociaż w obu dziedzinach kraj 1 ma większy IF niż kraj 2
Wniosek: Wartości cytowalności (impact) dla różnych krajów świadczą w największym stopniu o strukturze nauki, głównie o względnej sile dyscyplin biomedycznych w porównaniu z innymi, a w mniejszym stopniu są miarą jakości badań naukowych w tych krajach
Jaki sens ma ocenianie Jaki sens ma ocenianie i klasyfikowanie badaczy na podstawie wartości „Impact factor” czasopism, w których publikują swoje prace ?
N c - liczba cytowań w roku T do prac opublikowanych w tym czasopiśmie w latach T – 1 oraz T – 2 N p - liczba prac opublikowanych w tym czasopiśmie w latach T – 1 i T – 2 1. Ta definicja jest ułomna, ponieważ N c zawiera cytowania artykułów oraz listów do redakcji, podczas gdy N p zawiera tylko artykuły 2. Wartości IF dla czasopism wykazują ogromne różnice, choćby ze względu na bardzo różną średnią liczbę cytowań jednej pracy w różnych dziedzinach oraz różny „obrót” („turnover”) w różnych dziedzinach Impact factor czasopisma N c (T) N c (T) IF = N p (T – 1, T – 2)
Mimo to, w pewnych dziedzinach, na przykład w naukach biomedycznych, wartości IF czasopism są wykorzystywane do oceny jakości pracy indywidualnych badaczy Postępowanie to wydaje się nieuzasadnione, ponieważ w tym podejściu mającą paręset cytowań publikację w czasopiśmie o niskiej wartości IF, ceni się mniej od pracy w ogóle nie cytowanej, ale opublikowanej w czasopismie o wysokim IF !!!
Wyobrażenia liczba cytowań 0 małyIFdużyIF liczbaprac logliczbyprac duży IF mały IF Rzeczywistość
Field Concentration Percent ( ) uncited ( ) uncited Computer Science Economics/Business Molecular Biology/Genetics Education Engineering Materials Science Physics Psychology/Psychiatry Mathematics Clinical Medicine Pharmacology Immunology Biology/Biochemistry Geosciences Ecology/Environment Microbiology Neuroscience Agricultural Sciences Chemistry Plant/Animal Science Astrophysics „Koncentracja” = Procent publikacji do których jest 50% cytowań w danej dziedzinie (Science Watch, January/February 1999) Rozkład liczby cytowań jest bardzo skośny
Na podstawie danych w bazie NCR Poland zbadano cytowania prac polskich autorów w 20 czasopismach fizycznych o różnych wartościach IF (1994). Rozkład liczby cytowań zbadano w próbce prac opublikowanych w latach , a więc mających co najmniej trzy lata ( ) na zebranie cytowań. Ogólny wynik przedstawiony na następnych wykresach: niezależnie od wartości IF w każdym czasopiśmie mamy wykładniczo spadające „tło” oraz „ogon” prac cytowanych znacznie więcej razy. Można postawić hipotezę, że do postępu nauki przyczyniają się głównie (czy wyłącznie ?) prace z tego „ogona”.
Jedna z klasyfikacji amerykańskich (SPIRES w SLAC) Renowned papers 500 cytowań Famous papers 100 – 499 cytowań Well-known papers 50 – 99 cytowań Known papers 10 – 49 cytowań Less known papers 1 – 9 cytowań Unknown papers 0 cytowań
Współczynnik korelacji = 0,57
Współczynnik korelacji = 0,59
Per O. Seglen (Oslo), Why the impact factor of journals should not be used for evaluating research, BMJ 314, 497 (1997)
Baza NSI
Trzeba pamiętać, że nawet w obrębie tej samej dziedziny poszczególne dyscypliny różnią się znacząco pod względem średniej liczby cytowań jednej publikacji oraz obrotu („turnover”) informacji. Ma to wpływ na IF czasopism charakterystycznych dla tych dyscyplin.
Wnioski: 1. W świetle przedstawionych wyników wydaje się mało uzasadnione klasyfikowanie badaczy tylko na podstawie wartości IF czasopism, w których publikują prace.
2. Wobec dużego procentu jaki we wszystkich czasopismach stanowi „tło” prac mało lub wcale cytowanych, a więc zapewne niewiele wnoszących do nauki, sam fakt opublikowania pracy w czasopiśmie o dużej wartości IF nie powinien stanowić podstawy do wyróżniania jej autora.
3. W zasadzie powinno się liczyć tylko prace, których liczba cytowań znacząco przekracza wykładnicze „tło”. Granica może być umowna (na przykład 10, 50 lub 100 cytowań - wykorzystywane w SPIRES).
4. Zatem zamiast pytać o całkowitą liczbę cytowań prac danego badacza należałoby podawać wyłącznie liczbę jego prac „wybitnych”, które były cytowane więcej razy niż wynosi umowna granica. Ta granica może być różna w różnych dziedzinach.