Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Wikiźródła – oddolna cyfryzacja

Podobne prezentacje


Prezentacja na temat: "Wikiźródła – oddolna cyfryzacja"— Zapis prezentacji:

1 Wikiźródła – oddolna cyfryzacja
Tomasz Ganicz Wikimedia Polska Wikiźródła – oddolna cyfryzacja

2 Idea Pierwotny zamysł: projekt siostrzany Wikipedii gromadzący źródłowe teksty potrzebne do ilustrowania treści tej encyklopedii, tworzony w takim samym trybie jak Wikipedia Rozrósł się do: samodzielnie funkcjonującej biblioteki tekstów źródłowych, która skupiła wokół siebie społeczność wolontariuszy. Tworzyć go: może każdy, komu się chce i zaakceptuje zasady projektu Wikipedia – wikipedysta, Wikiźródła – wikiskryba Wikipedia – „Kawiarenka pod wesołym wikipedystą” Wikiźródła – „Skryptorium”

3 Zawartość Co zawiera: oryginalne teksty literackie uznanych autorów
wcześniej opublikowane oryginalne teksty naukowe dokumenty państwowe (historyczne i aktualne) tłumaczenia oryginalnych tekstów (w tym własne) kody źródłowe oprogramowania Warunek: utwór musi być w domenie publicznej lub udostępniony na wolnej licencji

4 Historia Początek: 2003 (jako Project Sourceberg)
Polska wersja: początkowo rozwijana jako podprojekt na stronach wersji angielskiej – w 2005 własna domena i nazwa „wikiźródła”. wersja en tekstów wersja en tekstów Aktualnie: 101 wersji językowych – 15 wersji ma ponad tekstów, 3 mają ponad Polska: tekstów (10-ta największa)

5 Jak to działa Oprogramowanie: MediaWiki, z paroma dodatkowymi narzędziami wspierającymi OCR Źródła tekstów: przenoszenie z Wikipedii inne strony WWW ręczne przepisywanie ze źródeł papierowych własne tłumaczenia OCR ze skanów + tzw. proofreading

6 Proces produkcyjny z OCR
Robimy skany książki samemu i ładujemy je do Wikimedia Commons lub pobieram skany w formacie djv z którejś z bibliotek cyfrowych Tworzymy strukturę index dla danej książki (jest ona tworzona półautomatycznie) Robimy surowy OCR strona po stronie – albo oprogramowaniem własnym, albo on-line przez system udostępniony na serwerze Wikimedia Foundation Strona po stronie poprawiamy tekst z OCR na specjalnych stronach „proofread” Druga osoba przegląda tekst ponownie i go zatwierdza Finalny tekst przenosimy do „oficjalnej” przestrzeni Wikiźródeł.

7 Powielanie pracy bibliotek cyfrowych?
Nie do końca: Nasze treści są dość starannie sformatowane, przejrzane i udostępnione w formie otwartego tekstu, który można w prosty sposób skopiować i po którym się łatwo nawiguje Mamy sporo tekstów nie-literackich - zwłaszcza historycznych – ręcznie przepisanych i/lub przetłumaczonych Mamy sporo tekstów ustaw i innych aktualnych dokumentów państwowych Nasze teksty są często bezpośrednio powiązane z artykułami w Wikipedii na ich temat (lub ich autorów) Są skategoryzowane – kliknięcie na kategorię kieruje do zbioru wszystkich tekstów na dany temat

8 Zamiast podsumowania Oczywiście, nigdy w tym trybie nie dogonimy ilościowo bibliotek cyfrowych – ale opracujemy najważniejsze/najciekawsze teksty w formie znacznie bardziej przyjaznej dla czytelnika niż proste zestawienia skanów w formacie djv. Po to mamy domenę publiczną aby na różne sposoby wykorzystywać i udostępniać zawarte tam treści, a nie aby one kurzyły się na bibliotecznych półkach i w szafach archiwów.

9 Prawa autorskie Copyright: Tomasz Ganicz 2010
Autor udostępnia ten utwór na licencji CC-BY 3.0 pl Logo Wikiźródeł i Wikipedii są zastrzeżonymi znakami towarowymi należącymi do Wikimedia Foundation Inc.


Pobierz ppt "Wikiźródła – oddolna cyfryzacja"

Podobne prezentacje


Reklamy Google