Wikiźródła – oddolna cyfryzacja Tomasz Ganicz Wikimedia Polska Wikiźródła – oddolna cyfryzacja
Idea Pierwotny zamysł: projekt siostrzany Wikipedii gromadzący źródłowe teksty potrzebne do ilustrowania treści tej encyklopedii, tworzony w takim samym trybie jak Wikipedia Rozrósł się do: samodzielnie funkcjonującej biblioteki tekstów źródłowych, która skupiła wokół siebie społeczność wolontariuszy. Tworzyć go: może każdy, komu się chce i zaakceptuje zasady projektu Wikipedia – wikipedysta, Wikiźródła – wikiskryba Wikipedia – „Kawiarenka pod wesołym wikipedystą” Wikiźródła – „Skryptorium” http://www.wikizrodla.pl/
Zawartość Co zawiera: oryginalne teksty literackie uznanych autorów wcześniej opublikowane oryginalne teksty naukowe dokumenty państwowe (historyczne i aktualne) tłumaczenia oryginalnych tekstów (w tym własne) kody źródłowe oprogramowania Warunek: utwór musi być w domenie publicznej lub udostępniony na wolnej licencji http://www.wikizrodla.pl/
Historia Początek: 2003 (jako Project Sourceberg) Polska wersja: początkowo rozwijana jako podprojekt na stronach wersji angielskiej – w 2005 własna domena i nazwa „wikiźródła”. 27.11.2005 wersja en 10 000 tekstów 14.03.2008 wersja en 100 000 tekstów Aktualnie: 101 wersji językowych – 15 wersji ma ponad 10 000 tekstów, 3 mają ponad 100 000 Polska: 14 700 tekstów (10-ta największa) http://www.wikizrodla.pl/
Jak to działa Oprogramowanie: MediaWiki, z paroma dodatkowymi narzędziami wspierającymi OCR Źródła tekstów: przenoszenie z Wikipedii inne strony WWW ręczne przepisywanie ze źródeł papierowych własne tłumaczenia OCR ze skanów + tzw. proofreading http://www.wikizrodla.pl/
Proces produkcyjny z OCR Robimy skany książki samemu i ładujemy je do Wikimedia Commons lub pobieram skany w formacie djv z którejś z bibliotek cyfrowych Tworzymy strukturę index dla danej książki (jest ona tworzona półautomatycznie) Robimy surowy OCR strona po stronie – albo oprogramowaniem własnym, albo on-line przez system udostępniony na serwerze Wikimedia Foundation Strona po stronie poprawiamy tekst z OCR na specjalnych stronach „proofread” Druga osoba przegląda tekst ponownie i go zatwierdza Finalny tekst przenosimy do „oficjalnej” przestrzeni Wikiźródeł. http://www.wikizrodla.pl/
Powielanie pracy bibliotek cyfrowych? Nie do końca: Nasze treści są dość starannie sformatowane, przejrzane i udostępnione w formie otwartego tekstu, który można w prosty sposób skopiować i po którym się łatwo nawiguje Mamy sporo tekstów nie-literackich - zwłaszcza historycznych – ręcznie przepisanych i/lub przetłumaczonych Mamy sporo tekstów ustaw i innych aktualnych dokumentów państwowych Nasze teksty są często bezpośrednio powiązane z artykułami w Wikipedii na ich temat (lub ich autorów) Są skategoryzowane – kliknięcie na kategorię kieruje do zbioru wszystkich tekstów na dany temat http://www.wikizrodla.pl/
Zamiast podsumowania Oczywiście, nigdy w tym trybie nie dogonimy ilościowo bibliotek cyfrowych – ale opracujemy najważniejsze/najciekawsze teksty w formie znacznie bardziej przyjaznej dla czytelnika niż proste zestawienia skanów w formacie djv. Po to mamy domenę publiczną aby na różne sposoby wykorzystywać i udostępniać zawarte tam treści, a nie aby one kurzyły się na bibliotecznych półkach i w szafach archiwów. http://www.wikizrodla.pl/
Prawa autorskie Copyright: Tomasz Ganicz 2010 Autor udostępnia ten utwór na licencji CC-BY 3.0 pl Logo Wikiźródeł i Wikipedii są zastrzeżonymi znakami towarowymi należącymi do Wikimedia Foundation Inc. http://www.wikizrodla.pl/