XML i nowoczesne technologie zarządzania treścią Michał Kuciapski
2 Tematyka Rozwój technik znakowania tekstu Koncepcja XML-a
3 Markup – znakowanie Markup Languages: – SGML – Standard Generalized Markup Language – HTML – Hypertext Markup Language – XML – Extensible Markup Language Markup: the process of marking manuscript copy for typesetting with directions for use of type fonts and sizes, spacing, indentation, etc. (The Chicago Manual Of Style).
4 Początki znakowania tekstu Nie lubię chodzić na wybory. Za to na imprezy jak najbardziej.
5 Znakowanie tekstu w epoce komputerów Nie lubię chodzić na wybory. Za to na imprezy jak najbardziej. Treść {pogróbienie} {wyłącz_pogrubienie} {nowy_wiersz} {wcięcie} Formatowanie + Dokument = Nie lubię chodzić na wybory. Za to na imprezy jak najbardziej. {pogróbienie} Nie lubię {wyłącz_pogrubienie} lubię chodzić na wybory {nowy_wiersz} {wcięcie} Za to na imprezy jak najbardziej | Wynik
6 Przykłady języków znakowania Frame (MIF) > RTF{\b\f5\cf1 Jan} PostScript /Times-BoldR 900 ff (Jan)W TeX/LaTeX\textbf{Jan} Ventura Jan HTML Jan
7 Korzenie Lata 60-te XX wieku: – 1967 – William Tunnicliffe, prezes Graphic Communications Association prezentuje ideę oddzielenia zawartości merytorycznej dokumentów od formatu – Stanley Rice proponuje użycie uniwersalnych znaczników do znakowania struktury tekstu,
8 Formaty aplikacji Większość aplikacji wprowadza własny wewnętrzny format. Nowe wersje aplikacji często w raz z rozbudową funkcjonalności wprowadzają zmiany do używanego formatu: – wsteczna kompatybilność – brak możliwości zapisu do formatu poprzednich wersji Konwertery: – tylko do najpopularniejszych formatów, – możliwość utraty danych podczas konwersji.
9 Standardy Brak uznanych standardów Istnieją pesudostandardy w różnych dziedzinach: – biurowe: Microsoft Word, – naukowe: Postscript, TeX, – Internetowe: HTML, GIF, JPG, – wymiany danych: EDIFACT. Standard musi być: – własnością publiczną, – otwarty i jawny, – niezależny od producenta oprogramowania.
10 Potrzeby w zakresie standardów Wiele informacji elektronicznych powoduje potrzebę struktury: – Trudność dopasowania jednego formatu dokumentu do wszystkiego – Problemy z niekompatybilnymi formatami
11 Ewolucja Internetu czas człowiek | aplikacja | człowiek aplikacja | aplikacja sytuacja obecna początek
12 Historia języków uogólnionego znakowania tekstu 1969: GML – Generalized Markup Language 1986: SGML – Standard Generalized Markup Language 1991: powstaje World Wide Web. 1994: HTML 2.0 zdefiniowany jako zastosowanie SGML-a. 1998: XML – Extensible Markup Language, World Wide Web Consortium.
13 SGML Pierwsze szerzej znane zastosowania SGML: – Electronic Manuscript Project, Association of American Publishers, 1987 – CALS – Computer-Aided Acquisition and Logistic Support, US Department of Defense, MIL-M-28001, February Standardy pokrewne: – DSSSL – Document Style Semantics and Specification Language, – HyTime: meta-notacja dla linków, opis struktur multimedialnych, rozciągniętych w czasie.
14 World Wide Web Consortium (W3C) Wiele standardów internetowych: – HTML – Hyper Text Markup Language – HTTP – Hyper Text Transfer Protocol – CSS – Cascading StyleSheets XML – Extensible Markup Language
15 World Wide Web Consortium (W3C) - XML – Najważniejsza rekomendacja ostatnich lat – Twórcy: Tim Bray (Netscape), Jean Paoli (Microsoft), C.M. Sperberg-McQueen (University of Illinois) – Obecne dominują prace nad standardami związanymi XML-em
16 SGML / XML Cel - Oddzielenie znaczenia tekstu od sposobu prezentacji Andrzej Lepper I tak jeszcze wrócę do władzy
17 Prezentacja – przykład 1 POLITYK – nowy akapit – do lewej – pobrubienie WYPOWIEDŹ – nowy wiersz – wcięcie 1,5 cm – Wyrównanie do lewej Lepper I tak jeszcze wrócę do władzy
18 Prezentacja – przykład 2 POLITYK – na marginesie – tekst pionowo – kolor niebieski – hiperlink do biografi WYPOWIEDŹ – nowy wiersz – kursywa I tak jeszcze wrócę do władzy LEPPER
19 Modele Przykłady: – encyklopedia:,, – ubezpieczenie:, – atrykuł:,,,, – samochód:,,,
20 Koncepcja metajęzyku Stan wyjściowy: – Brak wspólnego języka – Pytanie czy jest możliwe jego opracowanie Wspólny metajęzyk: – znana gramatyka, – jednolita metodologia – identyczne narzędzia Tworzenie języków pochodnych dla specyficznych zastosowań.
21 Genealogia XML GML SGML XML HTML...VRMLSVGRDFCDF...
22 Czym jest XML XML nie jest językiem programowania XML jest sposobem zapamiętywania danych wraz ze strukturą: – otwarty – elastyczny – bezpłatny – niezależny od platformy sprzętowej XML ma format tekstowy XML jest podstawą do tworzenia języków specyficznych dla zastosowań.
23 Struktura XML Deklaracja XML Atrybut Zawartość tekstowa Element główny Element Znacznik początkowy Znacznik końcowy
24 SGML vs XML Koncepcja: jeden duży system zarządzania treścią. Konieczność definiowania struktury. Skomplikowana składnia, wiele opcji. Trudność tworzenia parserów. Bardzo drogie narzędzia. Koncepcja: wiele małych komunikujących się ze sobą modułów. Opcjonalne definiowanie struktury. Uproszczona składnia. Łatwość tworzenia parserów. Darmowe narzędzia.
25 HTML vs XML Znaczenie elementów i ich atrybutów z góry określone. Interpretację elementów określa standard, a w praktyce przeglądarki internetowe. To, co jest poprawne również określają przeglądarki internetowe. Znaczenie elementów i ich atrybutów określa użytkownik lub aplikacja. może w jednym dokumencie oznaczać paragraf, w drugim pomoc, a w trzecim pismo odręczne. Poprawność XML-a jest ściśle określona przez specyfikację.
26 Zastosowania XML Zarządzanie dokumentami, przechowywanie danych: Dokumenty tworzone przez człowieka i przeznaczone dla człowieka Długi czas życia dokumentów Elektroniczna wymiana danych i integracja aplikacji: Dokumenty tworzone i przetwarzane automatycznie Dokumenty tworzone tylko na czas komunikacji – serwisy XML Typowy model mieszany zawartości Konieczność dokładnego kontrolowania struktury i zawartości - SOAP Pierwotne zastosowanie SGML Nowa klasa zastosowań
27 Dwie twarze XML-a Baza danych: Dokument tekstowy: Laptop szt 3 Anna Płocka UG