Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
1
Wikiźródła – oddolna cyfryzacja
Tomasz Ganicz Wikimedia Polska Wikiźródła – oddolna cyfryzacja
2
Idea Pierwotny zamysł: projekt siostrzany Wikipedii gromadzący źródłowe teksty potrzebne do ilustrowania treści tej encyklopedii, tworzony w takim samym trybie jak Wikipedia Rozrósł się do: samodzielnie funkcjonującej biblioteki tekstów źródłowych, która skupiła wokół siebie społeczność wolontariuszy. Tworzyć go: może każdy, komu się chce i zaakceptuje zasady projektu Wikipedia – wikipedysta, Wikiźródła – wikiskryba Wikipedia – „Kawiarenka pod wesołym wikipedystą” Wikiźródła – „Skryptorium”
3
Zawartość Co zawiera: oryginalne teksty literackie uznanych autorów
wcześniej opublikowane oryginalne teksty naukowe dokumenty państwowe (historyczne i aktualne) tłumaczenia oryginalnych tekstów (w tym własne) kody źródłowe oprogramowania Warunek: utwór musi być w domenie publicznej lub udostępniony na wolnej licencji
4
Historia Początek: 2003 (jako Project Sourceberg)
Polska wersja: początkowo rozwijana jako podprojekt na stronach wersji angielskiej – w 2005 własna domena i nazwa „wikiźródła”. wersja en tekstów wersja en tekstów Aktualnie: 101 wersji językowych – 15 wersji ma ponad tekstów, 3 mają ponad Polska: tekstów (10-ta największa)
5
Jak to działa Oprogramowanie: MediaWiki, z paroma dodatkowymi narzędziami wspierającymi OCR Źródła tekstów: przenoszenie z Wikipedii inne strony WWW ręczne przepisywanie ze źródeł papierowych własne tłumaczenia OCR ze skanów + tzw. proofreading
6
Proces produkcyjny z OCR
Robimy skany książki samemu i ładujemy je do Wikimedia Commons lub pobieram skany w formacie djv z którejś z bibliotek cyfrowych Tworzymy strukturę index dla danej książki (jest ona tworzona półautomatycznie) Robimy surowy OCR strona po stronie – albo oprogramowaniem własnym, albo on-line przez system udostępniony na serwerze Wikimedia Foundation Strona po stronie poprawiamy tekst z OCR na specjalnych stronach „proofread” Druga osoba przegląda tekst ponownie i go zatwierdza Finalny tekst przenosimy do „oficjalnej” przestrzeni Wikiźródeł.
7
Powielanie pracy bibliotek cyfrowych?
Nie do końca: Nasze treści są dość starannie sformatowane, przejrzane i udostępnione w formie otwartego tekstu, który można w prosty sposób skopiować i po którym się łatwo nawiguje Mamy sporo tekstów nie-literackich - zwłaszcza historycznych – ręcznie przepisanych i/lub przetłumaczonych Mamy sporo tekstów ustaw i innych aktualnych dokumentów państwowych Nasze teksty są często bezpośrednio powiązane z artykułami w Wikipedii na ich temat (lub ich autorów) Są skategoryzowane – kliknięcie na kategorię kieruje do zbioru wszystkich tekstów na dany temat
8
Zamiast podsumowania Oczywiście, nigdy w tym trybie nie dogonimy ilościowo bibliotek cyfrowych – ale opracujemy najważniejsze/najciekawsze teksty w formie znacznie bardziej przyjaznej dla czytelnika niż proste zestawienia skanów w formacie djv. Po to mamy domenę publiczną aby na różne sposoby wykorzystywać i udostępniać zawarte tam treści, a nie aby one kurzyły się na bibliotecznych półkach i w szafach archiwów.
9
Prawa autorskie Copyright: Tomasz Ganicz 2010
Autor udostępnia ten utwór na licencji CC-BY 3.0 pl Logo Wikiźródeł i Wikipedii są zastrzeżonymi znakami towarowymi należącymi do Wikimedia Foundation Inc.
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.