Elektroniczne bazy danych
Tematyka zajęć Bazy danych – definicje, rodzaje; Systemy informacyjno-wyszukiwawcze, języki informacyjno- wyszukiwawcze (przede wszystkim hasła przedmiotowe i słowa kluczowe); Bazy bibliograficzne, np.: Nukat, WorldCat, Karo; BZCz; Przewodnik Bibliograficzny; katalogi biblioteczne; Bazy częściowo pełnotekstowe, np.: Bazhum, BazEkon; Bazy bibliograficzno-abstraktowe, np.: Springer Link, ScienceDirect, EBSCO, BazTech (w kierunku pełnotekstowej bazy); Scopus; Bazy pełnotekstowe, np.: LEX Omega; Legalis; ScienceDiret; EMIS; EBSCO (wybór); ScienceDirect; WoS;
Tematyka zajęć Bazy cytowań: WoS, Scopus. Zasoby głębokiego Internetu, Google (usługi wyszukiwawcze) – Google Books, Google Scholar Open Access, np.: biblioteki cyfrowe (np. Europeana; Federacja Bibliotek Cyfrowych); repozytoria instytucjonalne (np. eRIKA); archiwa cyfrowe (Narodowe Archiwum Cyfrowe); bramy dziedzinowe (subject gateways); Ćwiczenia praktyczne
Opracowanie na podstawie W. Babik, Słowa kluczowe, Kraków 2010. M. Nahotko, Języki informacyjno-wyszukiwawcze (JIW) oraz język słów kluczowych [online]. Dostępny: http://skryba.inib.uj.edu.pl/~nahotko/jiw/slowa-kluczowe.pdf (odczyt: 11.10.2016). R. Wrembel, Wprowadzenie do problematyki baz danych [online]. Dostęp: http://wazniak.mimuw.edu.pl/images/7/74/BD-2st-1.2-w01.tresc-1.1.pdf (odczyt: 11.10.2016).
Baza danych – definicje i rodzaje Baza danych – zbiór powiązanych ze sobą (wiarygodnych) danych, służący do zbierania, przechowywania oraz organizowania informacji, a także prowadzenia efektywnego wyszukiwania i aktualizowania informacji. Zbiór danych to wyłącznie zestaw danych dotyczących określonego zagadnienia, natomiast baza danych to zbiór danych zarządzany przez System Zarządzania Bazą Danych (ang. Data Base Management System, DBMS). Potoczne rozumienie elektronicznej bazy danych to: dane + odpowiedni program komputerowy (zapewniający gromadzenie i przetwarzanie danych) + interfejs dla użytkownika.
Baza danych – definicje i rodzaje System zarządzania bazą danych (ang. DBMS — Data Base Management System) — oprogramowanie służące do operowania na bazie danych: wyszukiwania, aktualizowania zawartych w niej danych, sporządzania raportów itp.; umożliwia (wielo)dostęp przez sieć. System taki może współpracować z tradycyjnymi językami programowania lub wykorzystywać własne języki, w których tworzone są aplikacje. System bazy danych (ang. data base system) — zestaw programów i języków umożliwiających przechowywanie i przetwarzanie dużych zbiorów danych zorganizowanych w bazie danych.
Baza danych – definicje i rodzaje Dane – informacje prawidłowo odzwierciedlające rzeczywistość; zorganizowane w sposób zgodny z tzw. modelem danych, m.in.: hierarchicznym, sieciowym, relacyjnym, obiektowym, obiektowo- relacyjnym, semistrukturalnym (opartym na drzewie). Schemat bazy danych – zbiór schematów relacji, powiązań między danymi, np.: schematem mogą być wszystkie dane dotyczące studentów KA, a relacją może być tabela zawierająca dane dotyczące kierunków studiowanych przez konkretne osoby.
Baza danych – powiązane zagadnienia 1. Problem modelowania i reprezentacji danych. Poprawne modelowanie świata rzeczywistego to wyselekcjonowanie typu/typów informacji, potrzebnego/potrzebnych przyszłym użytkownikom bazy (proces konceptualizacji świata rzeczywistego, tworzenia pojęć), a następnie zapisanie ich w ustrukturalizowanej formie akceptowanej przez komputer (proces tworzenia schematu danych, np.: jeśli rzeczywistość opisujemy przy użyciu grafów, czyli wzajemnych powiązań, wówczas wykorzystujemy model sieciowy itp.).
Baza danych – powiązane zagadnienia 2. Zapewnienie wiarygodności oraz spójności danych (istotne zwłaszcza podczas aktualizacji). 3. Określenie języków wyszukiwania dla różnych typów baz danych. Metadane (dane o danych; tu: dane o bazie danych). 4. Efektywne przetwarzanie danych. Kontrola redundancji (nadmiaru). 5. Ochrona danych, autoryzacja dostępu do danych. 6. Równoległy, współbieżny dostęp do danych przez różnych użytkowników + kwestie odczytu-zapisu.
Baza danych jako zbiór informacji 2 typy zbiorów: zbiór prosty, czyli złożony z rekordów zbiór inwersyjny (odwrócony), czyli złożony z indeksów. Rekord – pojedynczy wpis do bazy (zestaw danych posiadających przeważnie ustaloną strukturę; stanowiących pewną całość, ale mogących wejść w skład większych zbiorów analogicznych rekordów).
Rodzaje baz danych Podział ze względu na typ danych: baza tekstowa baza graficzna baza tekstowo-graficzna baza multimedialna baza liczbowa itp.
Rodzaje baz danych Podział ze względu na zawartość: baza odsyłająca baza bibliograficzna (opisy dokumentów) baza biblioteczna (opisy dokumentów + lokalizacja w bibliotece) baza faktograficzna baza pełnotekstowa
Rodzaje baz danych Podział ze względu na zakres: baza jednodziedzinowa baza wielodziedzinowa
Rodzaje baz danych Podział ze względu na zasięg geograficzny: polskie bazy danych zagraniczne bazy danych międzynarodowe bazy danych
Rodzaje baz danych Podział ze względu na liczbę baz danych: rozproszone (zespół baz danych na dwóch i większej liczbie nośników danych) scentralizowane
Rodzaje baz danych Podział ze względu na przeznaczenie: analityczne – do przechowywania danych, informacji historycznych operacyjne – zawierają dane dynamiczne
Rodzaje baz danych Podział ze względu na model danych: relacyjna baza danych – opisany i zorganizowany zbiór tabel połączonych relacjami; opiera się na grupach jednostek – relacje są zakładane zawsze na jednostkach z grupy (np. PESEL); obiektowa baza danych – dane przechowywane są w strukturach obiektowych tworzonych zgodnie z paradygmatem programowania obiektowego obiektowo-relacyjna baza danych
Rodzaje baz danych Podział ze względu na model danych cd.: semistrukturalna (XML) baza danych hierarchiczna baza danych – o drzewiastej strukturze powiązań; oparta na opisach jednostek – zachodzą w nich relacje nadrzędności i podrzędności; sieciowa baza danych – zmodyfikowana wersja modelu hierarchicznego, pozwalająca na definiowanie relacji wiele-wiele w postaci struktury drzewiastej bez powtarzania poszczególnych wartości w ramach obiektu danych; oparta o grupy jednostek, których opisy mogą składać się z różnych pól i podpól; relacje zakładane są na poziomie całych grup jednostek, np. USOS;
Etapy tworzenia bazy danych a.) planowanie (strategia): ogólna analiza problemu, analiza ryzyka, studium wykonalności, harmonogram i wycena projektu, analiza ofert i wybór wykonawcy, akceptacja przedsięwzięcia; b.) analiza: wywiady, modele pojęciowe – specyfikacja wymagań, akceptacja wymagań;
Etapy tworzenia bazy danych c.) projektowanie: - projektowanie wstępne – wybór architektury, specyfikacje sprzętu i oprogramowania, specyfikacja systemu, - projektowanie szczegółowe – modele logiczne akceptacja projektu; d.) wykonanie: realizacja struktur danych w bazie danych, generowanie lub programowanie aplikacji, integracja, testowanie, akceptacja produktu; e.) wdrożenie: instalacja i uruchomienie, ładowanie danych, testy u użytkownika, końcowa akceptacja.
Systemy informacyjno-wyszukiwawcze System informacyjno-wyszukiwawczy (SIW) – system informacyjny, który przetwarza informację wejściową w ustrukturyzowany zbiór wyszukiwawczy poprzez szereg dokonywanych transformacji informacji. Zbiór informacji wyjściowej (udostępnianej użytkownikowi) powstaje na podstawie relewancji technicznej. Relewancja techniczna określa podobieństwo elementów zbioru wyszukiwawczego do instrukcji wyszukiwawczej, która jest wynikiem zapytania informacyjnego użytkownika systemu.
Systemy informacyjno-wyszukiwawcze Podział ze względu na rodzaj informacji wejściowej: system informacji dokumentacyjnej – zbiór wyszukiwawczy SIW składa się z dokumentów pochodnych (zbiera dostępne informacje), np. bibliografie narodowe, system informacji faktograficznej – zbiór wyszukiwawczy SIW składa się z odpowiednio opracowanych informacji faktograficznych (generuje nową informację), np. bazy OPI (Ośrodek Przetwarzania Informacji), bazy teleadresowe itp. systemy mieszane
Systemy informacyjno-wyszukiwawcze Podział ze względu na funkcję wyszukiwawczą: systemy dokumentacyjne, systemy faktograficzne, systemy pełnotekstowe
Wyszukiwanie 1.) analiza potrzeby informacyjnej , 2.) identyfikacja źródeł informacji, 3.) wybór metody wyszukiwawczej, budowa zapytania wyszukiwawczego, stosowanie JIW, 4.) ocena relewancji wyników wyszukiwania w odniesieniu do zapytania.
Aparat wyszukiwawczy (przykładowe narzędzia SIW) Operatory logiczne (na podst. algebry Boole’a): + (and) - (not/and not) or
Aparat wyszukiwawczy (przykładowe narzędzia SIW) Operatory specjalne (przede wszystkim w wyszukiwarkach internetowych), np.: site: url: bądź inurl: title: bądź intitle: image:
Aparat wyszukiwawczy – JIW Języki informacyjno-wyszukiwawcze (JIW) – sztuczne języki o wyspecjalizowanych funkcjach: odtwarzania treści i formy dokumentów oraz treści zapytań użytkowników, wyszukiwania dokumentów w zbiorze informacyjnym w odpowiedzi na zapytanie użytkownika. Termin pojawił się na przełomie l. 50 i 60. XX wieku, wcześniej tego typu systemy znakowe tworzono na potrzeby opracowania rzeczowego zbiorów bibliotecznych i utożsamiano je z ich zastosowaniem, czyli katalogami systematycznym, działowymi, klasowymi, przedmiotowymi.
Cechy JIW sztuczny – syntaktyka zwykle nie ma niczego wspólnego z żadnym istniejącym językiem naturalnym, JIW powstaje w wyniku czyjegoś celowego działania uboższy od języków naturalnych, ulega zmianom, przekształceniom, pełni wyspecjalizowane funkcje.
Elementy JIW alfabet – zestaw znaków graficznych służących do zapisywania wyrażeń, leksykalny zasób (słownictwo), gramatyka (reguły generowania wyrazów i wypowiedzeń/zdań).
Charakterystyka wyszukiwawcza dokumentu (ChWD) Treść dokumentu można wyrazić w postaci krótkiego tekstu w języku naturalnym (np. abstrakt, streszczenie) lub tekstu języka sztucznego, czyli ChWD. ChWD tworzona jest na podstawie analizy informacyjno-logicznej treści dokumentu, ustalenia najistotniejszych elementów: głównego tematu i przedmiotu, sposobu zaprezentowania przedmiotu oraz pobocznych przedmiotów.
JIW w SIW
Rodzaje JIW Języki deskryptorowe (słowo bądź grupa słów określające/-a treść dokumentu), Języki słów kluczowych, Języki haseł przedmiotowych: Język haseł przedmiotowych Biblioteki Narodowej Język Haseł Przedmiotowych KABA Kartoteka Haseł Wzorcowych Języki klasyfikacyjne: Uniwersalna Klasyfikacja Dziesiętna, Języki opisu formalnego – opis bibliograficzny, Języki kodów semantycznych, Języki syntagmatyczne, Języki systemów faktograficznych.
Słowo kluczowe Słowo o ponadprzeciętnej frekwencji w konkretnym tekście (w językoznawstwie); Słowo identyfikujące określony rozkaz czy instrukcję w programie komputerowym (w informatyce); Słowo/wyrażenie charakteryzujące treść dokumentu (w informatologii).
Słowo kluczowe – znaczenie w informatologii Dowolne wyrażenie/dowolny wyraz z tytułu bądź z tekstu dokumentu, bądź z zapytania informacyjnego, umożliwiające odtworzenie treści dokumentu; Jednostka leksykalna języka słów kluczowych. Język słów kluczowych – początki w śrdw. (katalogi, w których hasłem był główny wyraz z tytułu); JIW utworzony z wyrażeń (słów kluczowych) wybranych z tekstu dokumentu bądź treści zapytania informacyjnego; słownictwo nie jest kontrolowane lub tylko częściowo; słownik uporządkowany jest alfabetycznie (bez uwzględniania relacji między jednostkami leksykalnymi); kierujące się regułami indeksowania współrzędnego/kojarzeniowego.
3 rodzaje języków słów kluczowych O słownictwie niekontrolowanym słownikiem (swobodne słowa kluczowe). O słownictwie częściowo kontrolowanym słownikiem, np. wykaz terminów. O słownictwie kontrolowanym słownikiem.
Funkcje języka słów kluczowych metainformacja wyszukiwanie porządkowanie, organizowanie informacji i dokumentów, określanie zakresów tematycznych dokumentów, informacji.
Języki słów kluczowych łatwe w stosowaniu i we wprowadzeniu nowych terminów, intuicyjny – użytkowników nie trzeba szkolić; nie można wyeliminować synonimów, toteż dokumenty o podobnej treści mogą zostać rozmaicie opisane => subiektywizm indeksowania, zależne od języków narodowych
Tworzenie słów kluczowych Słowa kluczowe mają przede wszystkim charakteryzować temat główny (ewentualnie tematy poboczne) dokumentu oraz aspekt, w jakim omówiono temat. Charakterystyka ma być kompletna (wyczerpująca) i możliwie szczegółowa. Słowa kluczowe tworzone są na podstawie języka naturalnego, słownika słów kluczowych (w przypadku kontrolowanych bądź częściowo kontrolowanych języków) oraz instrukcji indeksowania.
Tworzenie słów kluczowych Najbardziej rozpowszechnione terminy w literaturze naukowej, specjalistycznej; poprawne i aktualne, powszechnie używane akronimy; Dopuszczalne są nazwiska, nazwy instytucji, nazwy geograficzne itp., Przy terminach wieloznacznych należy podać w nawiasie wyjaśnienie, najczęściej odwołujące się do dziedziny/dyscypliny, np.: rak (zoologia), rak (medycyna). Kolejność: rzeczownik -- przymiotnik określający ten rzeczownik -- rzeczownik -- dalszy przymiotnik itd.
Tworzenie słów kluczowych Kolejność słów w opisie jest w zasadzie dowolna – występują jedne za drugimi; Traktowane są jako terminy równorzędne, nawet jeśli zachodzą między nimi relacje hierarchiczne bądź asocjacyjne. Nie zawierają znaków specjalnych, interpunkcyjnych. Mogą być rozdzielane przecinkami, myślnikami, kropkami, dwiema spacjami itd. Liczba słów kluczowych jest w zasadzie dowolna, rozsądnie jednak wybierać maksymalnie 15 słów.
Indeksowanie 1.) Analiza treści dokumentu. 2.) Ustalenie przedmiotu/głównego tematu oraz zakresu tematu, 3.) Wybór oraz sformułowanie słów kluczowych (pochodzących z tekstu bądź spoza niego, tzw. słowa kluczowe ukryte), dotyczących głównego tematu oraz zakresu. 4.) Przekład słów na jednostki leksykalne języka słów kluczowych. 5.) Wykonanie pełnej charakterystyki wyszukiwawczej dokumentu za pomocą wybranych słów kluczowych, a następnie zapisanie ich w bazie danych itp.
Hasła przedmiotowe W polskich katalogach bibliotecznych używa się przede wszystkim: JHP KABA (Język haseł przedmiotowych Katalogów Automatycznych Bibliotek Akademickich), JHP BN (Język haseł przedmiotowych Biblioteki Narodowej) MeSH (Medical Subject Headings) W repozytoriach i archiwach cyfrowych stosuje się zwykle języki słów kluczowych.