Projekt ICONS System inteligentnego zarządzania treścią (Intelligent CONtent management System) Kazimierz Subieta Instytut Podstaw Informatyki PAN
Plan prezentacji Co to jest "treść" i "zarządzanie treścią"? Pojęcia związane z systemami zarządzania treścią Opis podstawowych założeń projektu ICONS Polityczne uwarunkowania projektów finansowanych z funduszy Unii Europejskiej (EU) i ich konsekwencje dla projektów realizowanych w Polsce
Wprowadzenie do systemów zarządzania treścią
Co to jest "zarządzanie treścią"? content management Komercyjny buzzword związany z ekspansją zastosowań Internetu (WWW) oraz rozwojem narzędzi służących do budowy aplikacji internetowych. Istnieją w tej chwili dziesiątki (a może już i setki) systemów określanych jako "systemy zarządzania treścią" (Content Management Systems, CMS). Nie istnieje wyróżnik określający, co CMS ma zawierać. Poszczególne systemy różnią się zarówno oferowaną funkcjonalnością, jak i ceną (0$ kilku mln.$). Istnieje duży chaos w zakresie terminologii, standardów, technologii i biznesowej retoryki związanej z systemami CMS oraz ich zastosowaniami.
Co to jest "treść"? content Termin "treść" nie ma jednej definicji. Niektóre rodzaje: Treść ukazująca się na ekranie przeglądarki: tekst, grafika, tło, dźwięk, animacja, video, przyciski, pola do zapełnienia, menu do wybrania, wykonywane na ekranie skrypty,...; Odpowiedniki, elementy składowe lub generatory tej treści przechowywane po stronie serwera (np. w bazie danych); Procesy, programy, reguły, metody, algorytmy pozwalające na generowanie treści z określonych źródeł, np. z bazy danych serwera lub z innych stron Web. Różne formy opisu treści lub metadanych dotyczących treści, formaty, schematy, opisy dotyczące autorów treści, daty utworzenia, daty obowiązywania, własności, itd. Różne formy kontroli i organizacji treści oraz usprawnienia dostępu: katalogi, klasyfikacje, indeksy, słowniki, ...
Treść vs. dane, informacja, wiedza content, data, information, knowledge Jest dość trudno podać definicje różnicujące te terminy. Są często używane jako synonimy. Niekiedy odzwierciedlają emocjonalny stosunek do przedmiotu, np. dla ludzi AI "wiedza" lepiej pasuje do "inteligencji". Niekiedy odzwierciedlają specyfikę celu przetwarzania i jakąś jego nową jakość: np: "wydobywanie wiedzy", a nie "wydobywanie danych"; "baza wiedzy", a nie "baza danych". Niekiedy odzwierciedlają stosunek do procesów decyzyjnych zachodzących w ludzkim umyśle (dane muszą zamienić się w informację, ta zaś w wiedzę, aby mogła być podjęta decyzja). Treść jest rozumiana jako informacja, dane lub wiedza: przekazywana do końcowego użytkownika przeglądarki, zawarta w repozytorium serwera aplikacji internetowej.
Formaty i standardy treści Setki formatów i standardów obowiązujących w zakresie reprezentacji, przechowywania, przetwarzania i udostępniania treści. Klasycznym standardem jest HTML, z licznymi rozszerzeniami w kierunku dynamizacji stron (JavaScript, aplety, ASP, JSP, ...) Najnowszym buzzwordem jest XML oraz związane z nim technologie lub standardy (DTD, RDF, XSL, XSLT, XQL, SOAP, ...) Wiele formatów reprezentacji tekstu: .txt, .doc, .rtf, .pdf, .ppt,... Dziesiątki formatów graficznych (grafiki wektorowej i pikselowej), formatów animacji, audio i video. Formaty, modele i standardy baz danych. Formaty i standardy języków programowania stron Webu (Java, SQL, ODBC, JDBC, PHP, Perl, Python, ...).
Twórczy chaos w dziedzinie CMS Nowość technologiczna i rynkowa oraz możliwość zarobienia wielkich pieniędzy rodzi na początku chaos. Jeżeli dla danego typu treści są popularne formaty A, B, C, to potrzebne będą odwzorowania A B, B A, A C, ... Liczba odwzorowań rośnie w kwadracie do liczby formatów. Brak standardów i niekompatybilne rozwiązania implikuje oprogramowanie pośredniczące (middleware), bazujące najczęściej na nowym formacie (patrz CORBA, również XML). Syndrom "dwóch programistów w garażu": sukces rozwiązania dla mikro-skali powoduje rozszerzanie bottom-up tego rozwiązania dla makro-skali (patrz HTML, XML, PHP, ...). Skutek: 1000-stronicowe podręczniki "prostego" języka XML. Twórczy chaos był już w innych dziedzinach (np. w językach programowania). Zwykle po pewnym czasie ustępuje.
Techniczna architektura CMS Content Management System interakcja poprzez HTTP klient zapytania SQL i ich wyniki Serwer bazy danych Serwer Web: generacja dynamicznych stron HTML dla klienta, zlecenia do bazy danych klient klient zapytania SQL i ich wyniki klient pracownik Zaplecze (back office): Wewnętrzne procesy podtrzymywania i obsługi aplikacji internetowej pracownik pracownik
SYSTEM TWORZENIA I GROMADZENIA Główne komponenty CMS SYSTEM TWORZENIA I GROMADZENIA Procesy pozyskiwania i rozkładania pierwotnej informacji na składowe treści SYSTEM ZARZĄDZANIA Odpowiedzialny za automatyzację manipulacji treścią przez użytkowników biznesowych SYSTEM PUBLIKOWANIA Zautomatyzowany proces wyciągania treści i zasobów z repozytorium do publikacji SYSTEM STEROWANIA PROCESAMI PRACY Koordynacja, planowania i wprowadzanie w życie pracowniczych harmonogramów oraz zadań systemu REPOZYTORIUM TREŚCI Treść, dane biznesowe, metainformacje SYSTEM ADMINISTRACYJNY Proces podtrzymywania eksploatacji, ustawiania i utrzymywania parametrów i struktury systemu
System tworzenia i gromadzenia treści Składa się z narzędzi, procedur oraz personelu, który jest zatrudniony w celu tworzenia i zbierania treści oraz wykonywania czynności redakcyjnych. Zadania: Wytwarzanie treści "od zera": autorzy projektują, tworzą i poprawiają treść w wybranych przez siebie narzędziach. Pozyskiwanie: dostosowywanie i redakcja treści z zewnętrznych źródeł. Agregacja: formatowanie stylistyki informacji i ustalanie jej przeznaczenia: użyteczne składowe, meta-dane. Konwersja: zmiany formatu i struktury informacji tak, aby spełniała ona wymagane standardy przechowywania treści; oddzielanie niepotrzebnych informacji np., nagłówków i stopek; odwzorowania tego formatu na wymagany standard, np. XML, który może być wprowadzony do systemu. Usługi: są częścią logiki aplikacji oraz usług biznesowych dostarczonych przez CMS, wspomagających gromadzenie informacji oraz jej transformację. Usługi wspierają tworzenie, aktualizację i usuwanie składowych treści.
System zarządzania Odpowiada za gromadzenie, przechowywanie, udostępnianie, pielęgnację i administrację składowych treści i innych zasobów informacji. Jest oparty na bazie danych treści, meta-informacji oraz danych biznesowych. Obejmuje procesy i narzędzia umożliwiające dostęp, aktualizację i administrowanie zgromadzoną informacją. Jest odpowiedzialny za bezpieczeństwo i autoryzację dostępu do treści. Jest odpowiedzialny za połączenia z innymi systemami.
System sterowania procesami pracy Realizuje koordynację, planowanie i wprowadzanie w życie harmonogramów oraz zadań pracowników. Obejmuje narzędzia, procedury i ludzi zatrudnionych w celu zapewnienia skutecznych procesów zbierania, przechowywania i publikacji treści. System sterowania przepływem ma wpływ na system gromadzenia treści, system zarządzania oraz system publikowania. Każdy krok procesu, od wytwarzania po ostateczną publikację, powinien być możliwy do zamodelowania i śledzenia w obrębie tego samego systemu. Aspekty procesów pracy włączają: pracowników, zadania, czynności, standardowe procesy, narzędzia, czas, przepływ danych i dokumentów.
System publikowania Jest odpowiedzialny za wyciąganie składowych treści i innych zasobów z repozytorium, formatowanie ich i automatyczne tworzenie z nich publikacji. Składa się z narzędzi, procedur i ludzi pobierających treść z repozytorium i tworzących publikacje. Powinien zawierać: Szablony publikacji, Kompletny język programowania, Zależności pomiędzy treścią, Dobrze zorganizowany system plików i katalogów, Mechanizm ostatecznej publikacji.
Procesy zarządzania treścią Włączają projektowanie, tworzenie, pozyskiwanie, recenzowanie, zatwierdzanie, konwersję, składowanie, testowanie i wdrożenie treści we wszystkich wymaganych miejscach Webu. Włączają pielęgnowanie, monitorowani, uaktualnianie, wycofywanie i archiwizowanie treści. Włączają komponenty raportujące i analityczne, celem świadomego usprawniania i poszerzania procesów zarządzania treścią. Wymagają jasnego zdefiniowania ról personelu oraz udokumentowanych procesów pracy dla wszystkich form treści. Mogą lecz nie muszą być wspomagane komputerowo. Dla małych zastosowań wspomaganie jest często niepotrzebne. Dla dużych zastosowań wspomaganie jest zazwyczaj niezbędne.
Scenariusze i formy zarządzania treścią Udostępnianie wiadomości (portale), np. internetowe gazety, w tym wortale (vortals), czyli wiadomości ukierunkowane branżowo. Wyszukiwarki stron WWW (Yahoo, Altavista, Google, ...) Techniczne wspomaganie produktów danej firmy. B2C (Business-To-Customer): e-handel - sklepy internetowe. Portale wymiany informacji w danej dziedzinie, portale edukacyjne. B2B (Business-To- Business): e-biznes (portale biznesowe): transakcje, sprzedaż lub wymiana towarów i usług, w skali hurtowej. C2C (Customer-To-Customer): ogłoszenia drobne, aukcje, ... Portale korporacyjne (corporate portals) - organizują rozproszone i heterogeniczne zasoby i usługi informacyjne danej organizacji. Praca grupowa rozproszonych zespołów, wirtualne biura projektowe. .... wiele innych możliwości ....
Funkcje wspólne dla wielu form i scenariuszy zarządzania treścią (1) Projektowanie. Zasadniczo nie odbiega od metod projektowania baz danych np. poprzez diagramy encja-związek lub UML. Tworzenie. Rola wykonywana przez autorów tekstu, fotografów, artystów grafików, producentów video, producentów dźwięku, specjalistów od reklamy i marketingu, prawników, lub kogokolwiek innego, kto produkuje oryginalny materiał przeznaczony dla użytkownika WWW. Pozyskiwanie lub adoptowanie treści z istniejących źródeł. Klasyfikacja, indeksowanie. Treść musi mieć przypisane cechy formalne (np. datę utworzenia, autora, itd.) oraz cechy klasyfikacji przedmiotowej (np. kategorię przedmiotową lub słowa kluczowe). Funkcja jest często określana jako wiązanie treści i metadanych.
Funkcje wspólne dla wielu form i scenariuszy zarządzania treścią (2) Recenzje i przeglądy. Są wymagane dla wszystkich rodzajów udostępnianej treści. Zatwierdzenie. Formalne zatwierdzenie publikowanej treści jest niezbędnym składnikiem prawnej odpowiedzialności za treść. Konwersja. Tekst, grafika, dźwięk, i inne formy treści musza być przystosowane do formatu najwygodniejszego lub obowiązującego w danym CMS, np. do formatu HTML lub XML. Przechowywanie. Treść jest zwykle przechowywana w plikach lub w bazie danych. Dla większych zastosowań treść musi podlegać zarządzaniu konfiguracji (Software Configuration Management, SCM), w szczególności musi podlegać zarządzaniu wersjami oraz śledzeniu i kontrolowaniu zmian.
Funkcje wspólne dla wielu form i scenariuszy zarządzania treścią (3) Testowanie. Może dotyczyć różnych aspektów: błędnych lub nieaktualnych linek, stron wolno ładujących się, błędów w skryptach lub apletach, np. pętli, błędów w komunikacji od klienta do serwera Dojrzewanie. Rodzaj testowania, polegający na weryfikacji kompletności i spójności większego zespołu treści, np. informacji o różnych aspektach nowej usługi. Wdrożenie. Obejmuje wszelkie fizyczne aspekty udostępnienia treści dla jej użytkowników, w tym replikacje treści na różnych serwerach. Pielęgnacja, aktualizacja, zmiany. Obserwowanie udostępnianej treści i reakcja na wszelkie sygnały i potrzeby zmian.
Funkcje wspólne dla wielu form i scenariuszy zarządzania treścią (4) Wycofywanie i archiwizacja. Wycofanie może nastąpić z wielu powodów, np. utraty aktualności, utraty praw do treści, uatrakcyjnienie portalu nowszą treścią, niską frekwencją odwiedzania, itd. Przyjmuje się, że dowolna wycofywana treść podlega archiwizacji a/a. Raporty i analizy. Obejmuje różne formy raportów i analiz mających na celu lepszą obsługę użytkowników, zwiększenia atrakcyjności portalu, zbadania efektywności biznesowej, itd. Ponowne użycie. Wyodrębnienie i generalizacja pewnych elementów treści, metadanych, procesów, funkcji, szablonów formularzy, itd. jako udokumentowanych aktywów ponownego użycia w ramach danego repozytorium; opisywanie i propagowanie aktywów ponownego użycia wśród personelu.
Klasyfikacja i przegląd CMS (1) Duże pakiety obejmujące funkcjonalnością wszystkie etapy i aspekty tworzenia systemów internetowych. Przykłady: V/6 Content Management Suite (Vignette), One-To-One Publishing (Broadvision), Content Server (Divine). Produkty o cechach podobnych jw., o mniejszych możliwościach integracji z istniejącymi systemami produkcyjnymi Przykłady: Content Management Server (Microsoft), PVCS Content Manager(Merant), RedDot Solutions(RedDot), Mediasurface 3.5 (Mediasurface)) Narzędzia, w których główny nacisk położono na zarządzanie dużymi repozytoriami dokumentów i wspomaganie pracy grupowej Przykłady: Xpedio Content Management Suite (Stellent), 4I WCM Edition (Documentum), Panagon (FileNET)
Klasyfikacja i przegląd CMS (2) Systemy, które służą do zarządzania cyklem wytwarzania elementów stanowiących treść serwisu (zagadnienia związane z rolami użytkowników, przepływem prac) Przykłady: TeamSite (Interwoven), CommonSpot Content Server (PaperThin) Narzędzia wspierające końcową fazę powstawania serwisu internetowego czyli jego publikację, personalizację itp. Przykłady: WebLogic E-Business Platform (BEA), Dynamo e-business Platform (ATG), Oracle9iAS(Oracle) Systemy tworzone w ramach projektów „open-source”: Przykłady: Content Management Framework (Zope), Arsdigita Community System (ArsDigita)
Rodzaje rozwiązań CMS
CMS jako katalizator rozwoju Dla wspomagania funkcji zarządzania treścią dostawcy oprogramowania wytworzyli ogromną liczbę różnych narzędzi, zintegrowanych systemów, oraz rozszerzeń istniejących systemów. Tradycyjna dziedzina zarządzania dokumentami została w dużym stopniu zdominowana przez funkcje CMS. Pojawiły się obiektowe repozytoria do przechowywania treści dowolnego typu, w szczególności repozytoria XML. Dostawcy systemów zarządzania bazami danych, tacy jak Oracle, CA, Sybase, Informix, IBM, przesunęli punkt ciężkości oferowanych SZBD z tradycyjnego zarządzania danymi na zarządzanie treścią, ze wspomaganiem tworzenia i podtrzymywania aplikacji internetowych. Znaczenia nabrały różnorodne formy procesów pracy (workflows) jako środka kontroli funkcji CMS. Pojawiły się kompleksowe narzędzia typu "wszystko w jednym".
Cechy CMS: procesy pracy i automatyzacja procesów biznesowych workflow Workflow Management System Zarządzanie treścią wymaga rutynowych usług znanych z procesów pracy (workflows), takich jak: śledzenie, przypisywanie ról i odpowiedzialności, zintegrowane bezpieczeństwo, zautomatyzowane "odfajkowywanie", monitorowanie populacji procesów. Systemy zarządzania procesami prac umożliwiają zdefiniowanie wielo-krokowych procesów włączających różnorodną treść, personel, oraz akcje takie jak wysłanie, recenzja, zatwierdzenie, itd. Systemy zarządzania procesami prac zapewniają automatyzację takich zadań jak: ustalenie zespołów ludzkich i ról osób w zespołach projektowanie procesów pracy tworzenie i podtrzymywanie działania instancji procesów pracy.
Cechy CMS: personalizacja personalization Istotą personalizacji jest: Rejestracja i autentyfikacja użytkowników aplikacji internetowej. Dostosowanie się serwisu internetowego do indywidualnych preferencji użytkownika; np. jego preferencje tematyczne. Przechowywanie i udostępnianie spersonifikowanych treści wprowadzanych przez użytkownika lub sparametryzowanych przez użytkownika; np. jego notatki, zakładki, kalendarz, terminarz zdarzeń, terminarz przypomnień, itd. Przechowywanie historii odwiedzin serwisu przez użytkowników oraz transakcji lub zakupów, które oni dokonali. Syntetyczne analizy i raporty dotyczące użytkowników mające na celu zwiększenie jakości i efektywności treści i usług oferowanych przez aplikację internetową.
Cechy CMS: wyszukiwanie Sprawny mechanizm wyszukiwania informacji przez końcowych użytkowników jest czynnikiem powodzenia aplikacji internetowej. Wyszukiwanie oznacza konieczność klasyfikacji treści i inteligentnego jej zaindeksowania. Wyszukiwanie często odbywać się po cechach formalnych (data publikacji, autor, kategoria tematyczna, słowa kluczowe), które są niekiedy określane (w RDF) jako "metadane". Częściej wyszukiwanie odbywa się: w pełnym tekście przechowywanych składników treści poprzez asocjacje elementów treści z innymi elementami treści Klasyczne formy wyszukiwania (znane) z bibliotek są mało użyteczne. Konieczne są nowe paradygmaty, z reguły oparte o metafory graficzne.
Cechy CMS: ontologia ontology W filozofii: nauka o bytach, teoria bytu, opis charakteru i struktury rzeczywistości, specyfikacja konceptualizacji. W sztucznej inteligencji: formalna specyfikacja (przy użyciu logiki matematycznej) obiektów, pojęć i innych bytów, które istnieją w pewnej dziedzinie, oraz formalna specyfikacja związków, które pomiędzy tymi bytami zachodzą. Podejście sztucznej inteligencji jest naiwne. Np. Giełda Papierów Wartościowych: wiele tysięcy stron aktów prawnych, zarządzeń, regulacji, itd. Kto to zapisze przy użyciu formuł rachunku predykatów? W biznesie (ontologia biznesowa, business ontology): wszystko to, co projektanci systemów informatycznych powinni wiedzieć o biznesie, aby poprawnie napisać aplikacje wspomagające ten biznes. Wiedza ta powinna być formalnie zapisana. "Formalnie" oznacza zwykle pewien standardowy i uzgodniony język, np. XML/RDF.
Cechy CMS: metadane metadata Ogólna definicja: są to dane o danych - co dane zawierają, jaką mają budowę, jakie jest ich znaczenie, jakim podlegają ograniczeniom, jak są zorganizowane, przechowywane, zabezpieczane, udostępniane, itd. Metadane są pewnym rozszerzeniem pojęcia schematu bazy danych, albo też pewną implementacją tego schematu w postaci katalogów. Metadane przykrywają także informację niezależną od treści samych danych, np. kiedy pewna dana została utworzona, w jakim jest formacie, kto jest jej autorem, do kiedy jest ważna, itd. Opisy danych zawarte w metadanych mają dwie podstawowe zalety: Zawierają wspólne abstrakcje dotyczące reprezentacji danych, takie jak format; ogólnie "wyciągają przed nawias" wszystkie wspólne informacje, co redukuje znacznie objętość samych danych; Reprezentują wiedzę dziedzinową (ontologię); umożliwiają wnioskowanie o danych, mogą być przez to użyte do redukowania dostępu do samych danych.
Ontologia i metadane Głównym celem prac na biznesową ontologią jest standardyzacja następujących elementów: Gramatyki opisów poszczególnych bytów, Nazw i znaczeń nazw obowiązujących w ramach danego biznesu (np. co oznaczają słowa "autor", "klient", "instrument", "akcja", itd.), Ograniczeń związanych z opisywanymi bytami, Metadanych związanych z bytami (autor opisu, data stworzenia opisu, data ostatniej aktualizacji, itd.), Dopuszczalnych operacji na bytach. W tym zakresie zapis ontologii jest pewną meta-bazą danych, w które ustala się zarówno strukturę samej bazy danych, jak i pewne dodatkowe informacje (meta-atrybuty) będące podstawą przetwarzania bazy danych.
Wprowadzenie do projektu ICONS
Projekt ICONS - IST-2001-32429 Jest prowadzony w ramach programu Przyjazne Społeczeństwo Informacyjne (IST) będącego częścią 5-go Programu Ramowego. ICONS odpowiada na wymagania akcji IST2001 - II.1.2: Knowledge management. Rodan Systems SA ma status koordynatora projektu. Spośród 71 zgłoszonych projektów projekt ICONS otrzymał najwyższą ocenę za wartość naukową. Finansowanie uzyskało 7 projektów. Budżet projektu wynosi ponad 3 mln. EURO, w tym 1,9 mln. EURO sponsorowane przez Komisję Europejską. Część będzie dofinansowana przez Komitet Badań Naukowych. Czas trwania projektu - 2 lata.
Generalne cele ICONS Projekt ICONS jest ukierunkowany na połączenie w jednorodnej i internetowej architekturze zaawansowanych rezultatów badawczych, technologii i standardów oraz istniejących narzędzi. Opracowana architektura zostanie wykorzystana do budowy prototypu systemu zarządzania wiedzą i zawartością multimedialną. Celem jest integracja i rozszerzenie rezultatów z dziedzin sztucznej inteligencji oraz baz danych, połączone z zaawansowanymi cechami nowych technologii i architektur informatycznych. Trzy podstawowe kierunki działań: badania, prototyp, wdrożenie.
Szczegółowe cele ICONS Integracja heterogenicznych źródeł informacji. Reprezentacja wiedzy: paradygmaty takie jak logika (disjunctive Datalog), sieci semantyczne (UML oraz RDF) oraz wiedzę o procesach pracy opartą na zaleceniach WfMC. Budowa prototypu Systemu Inteligentnego Zarządzania Treścią w oparciu o wybraną platformę komercyjną. Prototyp ICONS ma: zarządzać multimedialnym repozytorium treści (opartym na XML); przechowywać złożone obiekty informacyjne i reprezentacje (proxy) zewnętrznych informacji znajdujących się w heterogenicznych bazach danych. Portal Dobrych Praktyk Dla Krajów Stowarzyszonych, dostępny poprzez Internet, będzie demonstrował wyniki projektu.
Rezultaty projektu ICONS Oryginalne rezultaty badawcze będą prezentowane w renomowanych czasopismach naukowych i na konferencjach. Osiągnięcia technologiczne będą prezentowane w formie działającego prototypu, który będzie dostępny (również do oceny) poprzez Internet. Realizowalność i wartość dodana nowej technologii będzie zademonstrowana przez Portal Dobrych Praktyk Dla Krajów Stowarzyszonych (NAS Best Practices Portal).
Partnerzy i ich główne zadania Partner przemysłowy Partner akademicki Rodan Systems S.A. (dr Witold Staniszkis, dr Bartosz Nowicki) – zarządzanie projektem, architektura ICONS, opracowanie prototypu. Instytut Podstaw Informatyki PAN, (doc. Kazimierz Subieta) – ocena narzędzi, standardów i metod, propozycje zaawansowanego interfejsu graficznego. Centro di Ingegneria Economica e Sociale (prof. Nicola Leone, prof. Pasquale Rullo) – paradygmaty zarządzania wiedzą. InfoVide (Marcin Lewandowski) – projektowanie i realizacja pilotowego wdrożenia Portalu Dobrych Praktyk Dla Krajów Stowarzyszonych. Sema Belgium (Jules Georges, Stoimir Djoudjev) – projektowanie i realizacja pilotowego wdrożenia Portalu Dobrych Praktyk Dla Krajów Stowarzyszonych. University Paris 9 Dauphine, Centre Des Etudes Et De Recherches En Informatique Appliquee (prof. Witold Litwin) – repozytorium rozproszonej treści. University of Ulster (prof. David Bell) – paradygmaty zarządzania wiedzą.
Wizja systemu zarządzania wiedzą System zarządzania wiedzą, realizowany jako portal korporacyjny, będzie umożliwiać jednorodny dostęp do wszystkich zasobów, procesów i usług danej organizacji z dowolnego miejsca. Interfejs przeglądarki pozwala w przyjazny sposób organizować środowisko pracy konkretnego użytkownika. Reprezentowana graficznie organizacja danych w obiektach oraz powiązaniach między obiektami pozwala na wykorzystanie silnych mechanizmów wyszukiwania. Zabezpieczanie rezultatów prac oraz pozyskiwanie i doskonalenie sposobów pracy (instrukcje, zalecenia) w repozytorium systemu pozwoli na zwiększenie efektywności poprzez ponowne użycie wypracowanych aktywów.
Pakiety robocze projektu (1) WP1. Ocena istniejących narzędzi, standardów, metod. WP2. Paradygmaty reprezentacji wiedzy: wyspecyfikowanie i formalne zdefiniowanie schematu reprezentacji wiedzy w ICONS. WP3. Graficzny interfejs użytkownika: prezentacja graficzna multimedialnych treści oraz wiedzy statycznej i proceduralnej. WP4. Architektura ICONS: kompletna specyfikacja architektury ICONS zawierająca wszystkie interfejsy oraz moduły funkcjonalne. WP5. Rozproszone repozytorium treści: algorytmy i struktury danych będących elementami architektury ICONS: Logiczne i fizyczne modele danych repozytorium ICONS; Dystrybucja danych i przetwarzania; Integracja istniejącymi źródłami informacji, takimi jak heterogeniczne bazy danych, systemy spadkowe oraz strony Web.
Pakiety robocze projektu (2) WP6. Prototyp ICONS: implementacja rozwiązań opracowanych w ramach prac badawczych i projektowych. WP7. Zaprojektowanie i stworzenie portalu najlepszych praktyk krajów nowo-stowarzyszonych: kolekcja wiedzy dotyczącej procedur, sposobów zarządzania i najlepszych praktyk fundowanych w ramach programów PHARE, ISPA i SAPARD. WP8. Wykorzystanie i rozpowszechnienie rezultatów: industrializacja rezultatów projektu ICONS. WP9. Zarządzanie projektem.
Wizja architektury ICONS Tekst Systemy biznesowej inteligencji Mapy wiedzy Własności Bazy danych Wyszukiwanie Sieci semantyczne Mapy wiedzy Modele semantyczne Reprezentacja czasu Integracja informacji Strony Web Pliki Reprezentacja wiedzy Wnioskowanie Drzewa koncepcyjne Sieci semantyczne Spadkowe systemy informacyjne Hiper-tekst Zarzadzanie dokumentami Modele semantyczne Grafy procesów System zarządzania wiedzą XML RDF Szyfrowanie Pliki Bezpieczeństwo Repozytorium Forum dyskusyjne Zarządzanie wersjami Podpis elektroniczny Kontrola dostępu Współpraca Inżynieria wiedzy Autentyfikacja HSM SZBD Zarządzanie procesami pracy Wymiana komunikatów Internet Intranet
Wstępna architektura prototypu ICONS Strona XML/ DHTML Definicja modelu treści (DTD, RDF) Mapa wiedzy Definicja reguł wnioskowania Poziom prezentacji wiedzy HTTP/ WebDav Serwer Odwzorowanie obiektów informacyjnych (XSL, SVG) Odwzorowanie struktury treści Odwzorowanie regyuł wnioskowania Silnik inferencyjny dyzjunktywnego Datalogu Rama zarządzania wiedzą Baza treści (XML) Baza ontologii (RDF) Poziom manipulacji wiedzą Ekstrakcja i asocjacja wiedzy Zarządca hierarchicznej pamięci (Hierarchical Storage Manager, HSM) Wielo-formatowy mechanizm odwzorowania informacji Poziom integracji Istniejące heterogeniczne bazy danych Systemy spadkowe Źródła informacji na WWW
Inna wizja architektury projektu ICONS Przedstawiona poprzednio architektura wydaje się zbyt eklektyczna i odzwierciedla bardziej stan obecnego chaosu w zakresie CMS niż docelową architekturę o logicznych i konsekwentnych założeniach. Inna wizja architektury projektu ICONS API oparte na obiektowym języku zapytań a la SQL Peryferia systemu Peryferia systemu Repozytorium aktywnej obiektowej bazy danych z dynamicznymi rolami obiektów Relacyjne bazy danych i inne spadkowe technologie XML, RDF i inne technologie Web Repozytorium metadanych zintegrowane z zarządzaniem konfiguracją
Architektura oparta całkowicie na XML - komercyjna aberacja? Narzędzia wspomagające XML : system autorski, itd. Przeglądarka WWW Warstwa klienta XML XML Serwer Web Serwer aplikacji Logiczna warstwa pośrednia Interakcja z aplikacjami poprzez protokoły oparte na XML Baza danych w XML (strukturalizowana) Serwer integrujący XML, serwer zapytań, serwer hurtowni danych XML XML XML XML Translatory formatów z/do XML, pomosty Zasoby danych Obiektowo-relacyjna baza danych wspomagająca XML Obiektowa baza danych wspomagająca XML Inne dokumenty na Webie: HTML Word,... Dokumenty XML na Webie Zasoby danych pod OLE/DB
Polityczne uwarunkowania projektów finansowanych z funduszy EU i ich konsekwencje dla projektów realizowanych w Polsce
Polityka ... Projekt ICONS jest trzecim spośród projektów EU, który był rozważany przeze mnie i moich partnerów. Dwa poprzednie projekty zostały odrzucone jako przedsięwzięcia niewarte zachodu. Ten jest eksperymentem. KBN zapłacił składkę ponad 100 mln. euro do Brukseli. Otrzymaliśmy dofinansowanie niewielu projektów, uzyskane dotacje nie przekroczyły połowy składki. KBN zaangażował kolejne środki (ok. 100 mln zł) w dofinansowanie biorących udział w projekcie ośrodków naukowych. Polscy politycy i decydenci besztają przeto naukowców za opieszałość, indolencję, niekompetencję w wyścigu do brukselskich pieniędzy. Jest w tym wiele racji, ale są też czynniki obiektywne. Zaryzykuję następującą tezę: Polski naukowiec nie jest idiotą. Natomiast Bruksela, polscy politycy i decydenci chcą, aby nim był.
Polityczne trudności z pieniędzmi z EU (1) Z ustaleń Brukseli wynika, że nie można przełożyć pieniędzy otrzymanych z Brukseli na uposażenie uczestników projektów. Polski naukowiec zarabia 10 razy mniej niż jego kolega na zachodzie. Brak zwiększonego wynagrodzenia stawia polskiego naukowca w roli idioty, który ma wykonywać dodatkowe prace za darmo. Ergo: polskiego naukowca nie stać na pracę w projekcie brukselskim. Oczywiście, zyskuje instytucja naukowa zatrudniająca naukowca, ale brak jasnej formy przełożenia zysku instytucji na zysk naukowca jest czynnikiem bardzo zniechęcającym do starań. Bruksela chce, aby projekty były robione w konsorcjach naukowo-przemysłowych, gdzie udział firm przemysłowych powinien być dominujący. Instytucje naukowe w Polsce są raczej w nikły sposób związane z jakimkolwiek przemysłem i są bardzo dalekie od wdrożeń.
Polityczne trudności z pieniędzmi z EU (2) Papierologia zgłoszenia projektu wymagana przez Brukselę jest monstrualna: wiele osobo-tygodni pracy, przy średnio 10% szans na dotację. Polski naukowiec ma często pewniejsze sposoby zarabiania dodatkowych pieniędzy (ew. z innych źródeł niż naukowe). Bruksela jest negatywnie nastawiona do badań teoretycznych. Słusznie ! Ale ponad 90% prac badawczych w ośrodkach naukowo-akademickich w Polsce to badania teoretyczne. Przeciętny polski naukowiec-informatyk jest bardzo słabo przygotowany do działalności na polu praktycznym. Wykonywanie badań o bezpośrednim znaczeniu praktycznym wymaga od naukowca innych kompetencji i innego stylu pracy. Te kompetencje i styl mają przełożenie na spore pieniądze, również w Polsce. Czyli: Teoretycy mogliby zgłosić projekty, ale Bruksela ich nie chce. Bruksela chce naukowców-praktyków, ale oni są nieliczni i nie są zainteresowani, bo zarabiają pieniądze w inny, pewniejszy sposób.
Optymizm Istnieje (podobno) w tej chwili formuła organizacyjno-prawna, w której polscy naukowcy mogą zarabiać na projektach brukselskich. Przy okazji projektu ICONS zobaczymy jak to będzie wyglądać w praktyce. Zapowiedziano rozpoczęcie 6-tego Programu Ramowego EU (ERA - European Research Area), nastawionego na duże, zintegrowane projekty. Pozytywną wizją jest pełna integracja polskiej nauki z nauką europejską czy nauką światową. Istnieje w tej chwili polityka zachęcania polskich naukowców do walnego zgłaszania swoich zainteresowań w ramach 6-tego programu EU.
... i pesymizm Pojedyncze instytucje i firmy będą miały nikłe szanse na uzyskanie dofinansowania zgłoszonych projektów. Celem jest tworzenie tzw. "sieci doskonałości", czyli grupowanie najlepszych ośrodków naukowo-badawczych i firm w poszczególnych branżach. Podnosi to poprzeczkę polskim naukowcom. Bruksela, KBN i inni decydenci nadają więc dla polskich naukowców następujący sygnał: Rozglądajcie się za chałturami - na Brukselę nie ma co liczyć. KBN straci 50-100 mln. euro na finansowanie naukowców z innych krajów. Domyślam się, że będą przy tym straszliwe gromy na polskich naukowców, jako tych, co zawinili... Roczny budżet IPI PAN to ok.3.5 mln. zł. Strata 100 mln. euro oznacza brak finansowania dla 20-tu takich instytutów przez 5 lat.
Pytania i komentarze