Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Plan prezentacji Wprowadzenie – trochę o Neurosofcie

Podobne prezentacje


Prezentacja na temat: "Plan prezentacji Wprowadzenie – trochę o Neurosofcie"— Zapis prezentacji:

1 System do przetwarzania informacji prawnych Cezary Dołęga, cezar@neurosoft.pl, Neurosoft® Sp. z o.o.

2 Plan prezentacji Wprowadzenie – trochę o Neurosofcie
Co w prawie piszczy, definicja problemu Co to jest Neurolex, elementy Architektura danych Generowanie i tagowanie danych Wyszukiwanie informacji (serwis-prawny.pl) Problemy do rozwiązania Pytania...

3 Wprowadzenie Neurosoft Sp. z o.o. Produkty Neurosoftu
Rok założenia 1992 Zaplecze to pracownicy PWr i UW Produkcja oprogramowania z zakresu AI Produkty Neurosoftu Neurosoft SynTalk® (1994 r. TTS) Neurosoft BIP® (1997 r. OCR, Archiwizacja) Neurosoft Gram (2000 r. NLP, Fulltext search) Neurosoft NeuroLex (2001 r., Prawo)

4 Co w prawie piszczy? Prawo dotyczy każdego obywatela i bardzo wielu dziedzin życia Liczba przepisów prawnych (aktów) i interpretacji (np. orzeczeń) jest bardzo duża i szybko się powiększa Zmienność przepisów w czasie jest duża Prawo stanowione jest przez wiele szczebli władzy „ustawodawczej” Państwo nie informuje obywatela W maju 2004 r. wchodzimy do UE

5 Co w prawie piszczy? (cd.1)
Prawo dotyczy każdego obywatela „Ignorantia iuris nocet” Prawo nie tylko dla prawników Świadomość prawna w Polsce rośnie

6 Co w prawie piszczy? (cd.2)
Liczba przepisów prawnych Promulgatory = ponad 210 tys. aktów + prawo lokalne + UE Dziennik Ustaw, Monitor Polski (A) = ok. 16 tys. str./rok Monitor Polski B 21 dzienników urzędów centralnych = ok. 5 tys. str./rok 16 dzienników urzędów wojewódzkich = ok. ? tys. str./rok Prawo Unii Europejskiej = OJ L: ok. 22 tys. str./rok + C: 26 tys. str./rok Orzeczenia (najważniejsze interpretacje prawa) Trybunał Konstytucyjny Sąd Najwyższy Naczelny Sąd Administracyjny Sądy apelacyjne Sąd antymonopolowy Przepisy niepromulgowane

7 Co w prawie piszczy? (cd.3)
Liczba przepisów prawnych

8 Co w prawie piszczy? (cd.4)
Zmienność przepisów w czasie Akty wchodzą w życie Akty są uchylane (pośrednio, bezpośrednio) Akty są zmieniane Codziennie następuje zmiana/uchylenie/wprowadzenie kilku aktów

9 Co w prawie piszczy? (cd.5)
Źródła przepisów prawnych

10 Co w prawie piszczy? (cd.5)
Źródła przepisów prawnych Konstytucja RP Sejm Ustawy Umowy Międzynarodowe

11 Co w prawie piszczy? (cd.5)
Źródła przepisów prawnych Konstytucja RP Sejm Ustawy Umowy Międzynarodowe Rząd Rozporządzenia

12 Co w prawie piszczy? (cd.5)
Źródła przepisów prawnych Konstytucja RP Sejm Ustawy Umowy Międzynarodowe Rząd Rozporządzenia Urzędy c. Zarządzenia Uchwały Inne akty wyk. Urzędy l. Regulaminy Statuty

13 Dyrektywy Komisji Europejskiej
Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Konstytucja UE Sejm Ustawy Umowy Międzynarodowe Uchwały Parlamentu UE Rząd Dyrektywy Komisji Europejskiej Rozporządzenia Urzędy c. Zarządzenia Uchwały Inne akty wyk. Urzędy l. Regulaminy Statuty

14 Dyrektywy Komisji Europejskiej
Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Konstytucja UE Sejm Ustawy Umowy Międzynarodowe Uchwały Parlamentu UE Rząd Dyrektywy Komisji Europejskiej Rozporządzenia Urzędy c. Zarządzenia Uchwały Inne akty wyk. Urzędy l. Regulaminy Statuty Decyzje urzędników Orzecznictwo sądów

15 Co w prawie piszczy? (cd.6)
Państwo nie informuje obywatela Rozproszony system promulgatorów Brak kodyfikacji (np. na wzór FNA) Stary system wyszukiwania aktów Niespójność przepisów Dezinformacja (np. krótkie Vacatio legis) Prawo dostępne tylko w obcym języku (UE)

16 Czego oczekuje użytkownik?
Dostępu do kompletnego zbioru dokumentów Szybki dostęp do najnowszych danych Dostępu do obowiązującego brzmienia dowolnego dokumentu (tekstu ujednoliconego) dowolnym dniu (stan prawny) Informacji na temat wszelkich powiązań między dokumentami Możliwości wyszukania dokumentów przez wskazanie (opisowe) zagadnienia (UE) Dostępu do różnego typu informacji syntetycznych

17 Neurolex Cel „Skonstruowanie systemu umożliwiającego szybkie dostarczenie użytkownikowi oczekiwanych przez niego, kompletnych i dobrych jakościowo informacji z zakresu prawa, za rozsądną cenę” Środki Technologia XML, XSLT, XPATH OCR (Neurosoft BIP) Przetwarzania tekstów, NLP (Neurosoft Gram) Internet

18 Neurolex - elementy Specjalna architektura danych (baza off-line)
Zestaw narzędzi do konwersji dokumentów z postaci papierowej lub/i prostej elektronicznej do pełnej postaci „wzbogaconej” Etap 1: dane pierwotne Etap 2: dane syntetyczne Zestaw narzędzi do wizualizacji i wyszukiwania dokumentów (www.serwis-prawny.pl)

19 Architektura danych Architektura bazy danych: Typ bazy danych:
hierarchiczny Silnik bazy danych: system plików Element bazy: pojedynczy plik (element dokumentu) Relacje: hiperlink Wizualizacja: Microsoft Internet Explorer 4.0+ Kontrola wersji: Microsoft SourceSafe 6.0

20 Architektura danych (cd.1)
Podstawowe formaty plików w bazie danych XML – schematy, treści i opisy dokumentów BIP – obrazy stron promulgatorów, IDX, IDT* – pliki tekstowe ze słowami kluczowymi, Pomocnicze formaty plików TIFF – zbiorcze obrazy całych numerów promulgatorów, CSV, TXT, CHN – pliki z informacjami pomocniczymi, PDF – oryginały promulgatorów, XLS, DOC – przetworzone, inteligentne formularze, XSL, GIF, JPEG, HTML, CSS – dodatki dla wizualizacji. * nie aktualne w wersji Neurolex 2.0

21 Architektura danych (cd.2)
Architektura bazy danych – hierarchia: Root Promulgator Pozycja = akt

22 Architektura danych (cd.3)
Zawartość pojedynczego dokumentu: Metryka, spis treści, powiązania (XML), Treść każdej z części oddzielnie (XML), (podział na części wg podziału na załączniki i wersje językowe) Słowa kluczowe dla całej treści części (IDX), Słowa kluczowe dla tytułów (IDT), Plik BIP „spinający” obrazy stron dla pozycji, Pliki BIP „spinające” obrazy dla każdej części, Informacje o zmianach (podkatalogi)

23 Architektura danych (cd.4)
Dodatkowe pliki pomocnicze*: Spis treści numeru (XML) „Spinacz” dla wszystkich stron numeru (BIP) Spis treści rocznika (XML) „Spinacz” dla wszystkich stron rocznika (BIP) Spis treści promulgatorów (HTML) * generowane na podstawie plików z zawartością dokumentów

24 Architektura danych (cd.5)
Struktura treści XML – poziomy „adresowalne*”: Artykuł Paragraf Ustęp Punkt Litera Sublitera * posiadają adres (bookmark) i można się na nich pozycjonować podczas przeglądania

25 Architektura danych (cd.6)
Struktura treści XML – poziomy „nieadresowalne*”: Część Księga Tytuł Dział Rozdział Jednostki tytularne w załącznikach lub w aktach zagranicznych Oddział + jednostki niższego poziomu * realizowane przy użyciu trzech elementów – JTC, JTL, JTN, nie posiadają bookmarków

26 Architektura danych (cd.7)
Struktura treści XML – elementy uniwersalne*: Tekst (z elementami formatowania), Wyliczenie (tiret), Objaśnienie (np. dla symboli we wzorach), Tabela (dwa poziomy – możliwość grupowania wierszy), Wzór matematyczny (w notacji XML+TEX), Przypis, Zastąpienie (zamiana), Cytat, Hyperlink, Dowolnie sformatowany fragment w HTML-u. * można je umieścić na każdym poziomie struktury

27 Architektura danych (cd.8)
prezentacja fragmentu bazy off-line

28 Konwersja danych (etap 1)
Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

29 Konwersja danych (etap 1)
Skanowanie oryginałów, pobranie dostępnych danych z Internetu: - Neurosoft BIP - Neurosoft LexSpreacz Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

30 Konwersja danych (etap 1)
Retusz skanów, OCR skanów do postaci HTML, korekta ortograficzna i porównawcza teksów, podział wolumenów i dokumentów, inicjacja struktury bazy off-line Neurosoft BIP - Neurosoft LexGram - FineReader - Neurosoft MLParser - Neurosoft InitLex - Neurosoft CsvCheck Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

31 Konwersja danych (etap 1)
Ręczne nanoszenie tagów w HTML-u usprawniających proces generowania XML-i, kontrola i weryfikacja niektórych błędów - Notepad - IE Explorer - Active Perl Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

32 Konwersja danych (etap 1)
Generowanie i weryfikacja porównawcza danych metrykalnych, generowanie struktury aktu XML (hierarchizacja), generowanie spisu treści aktu, tagowanie zmian, tagowanie i identyfikacja referencji, tagowanie i identyfikacja powiązań z innymi aktami: - Neurosoft Analex Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

33 Konwersja danych (etap 1)
Generowanie spisów treści dla wolumenu, rocznika itp., dowiązanie obrazów do dokumentów, generowanie protokołów powiązań: - Neurosoft InitLex Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

34 Konwersja danych (etap 2)
(w początkowej fazie implementacji) Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji

35 Konwersja danych (etap 2)
(w początkowej fazie implementacji) Ulokowanie dokumentu w analitycznym spisie prawa, generowanie i otagowanie słów kluczowych (EuroVoc) dla skorowidzów: - Neurosoft ConsoLex Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji

36 Konwersja danych (etap 2)
(w początkowej fazie implementacji) Określenie wszystkich momentów (dat), w których dany dokument się zmienia/wchodzi w życie/dezaktualizuje się: - Neurosoft TimeLex Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji

37 Konwersja danych (etap 2)
(w początkowej fazie implementacji) - Neurosoft ConsoLex Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstu ujednoliconego Synteza informacji

38 Konwersja danych (etap 2)
(w początkowej fazie implementacji) Określenie wpływu danego aktu na stan już istniejących syntetycznych zestawień, ew. utworzenie dodatkowego zestawienia Klasyfikacja treści Wyznaczenie „czasu życia” Wygenerowanie tekstów ujednoliconych Synteza informacji

39 Konwersja danych - NLP Neurosoft LexGram Neurosoft Analex
Weryfikacja ortograficzna i porównawcza tekstu Identyfikacja potencjalnych błędów OCR-u Neurosoft Analex Wyznaczanie struktury aktu na podstawie treści Generowanie informacji metrykalnych Tagowanie zmian Tagowanie powiązań z innymi aktami wraz z wykrywaniem rodzaju powiązania

40 Konwersja danych – NLP (cd. 1)
Neurosoft ConsoLex Generowanie tekstów ujednoliconych* Klasyfikacja aktu* Automatyczna synteza informacji – odpowiadanie na pytania * w trakcie implementacji

41 Wyszukiwanie informacji
(www.serwis-prawny.pl)

42 Wyszukiwanie informacji - NLP
Przeszukiwanie wg analitycznego spisu prawa oraz wg wybranych haseł – skorowidz* Przeszukiwanie pełnotekstowe odporne na język polski (Neurosoft Gram) wraz z kolorowaniem wyniku z „autodezambiguacją” Przeszukiwanie pełnotekstowe z użyciem sieci semantycznych (Polski WordNet)* BECKspert - inteligentny analizator zapytań w języku naturalnym* * w fazie implementacji, uruchomienie 1 czerwca 2003 r.

43 Wyszukiwanie informacji – NLP
prezentacja działania serwisu on-line

44 Problemy - NLP Korekta gramatyczna tekstu (po OCR)
Systematyczne braki w słowniku Grama Nazwy geograficzne i ich pochodne Przedrostkowe formy niektórych wyrazów (konieczna morfologia algorytmiczna) Grupy nazw własnych (np. leki) „Prawdziwy” polski WordNet Polska wersja EuroVoc’a (wersja 4.0) Bardziej automatyczne generowanie tekstów ujednoliconych Odpowiedni materiał językowy do wyszukiwania tyupu „cross-lingual search” (ang-pl)

45 Pytania Dziękuję za uwagę


Pobierz ppt "Plan prezentacji Wprowadzenie – trochę o Neurosofcie"

Podobne prezentacje


Reklamy Google