Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

System do przetwarzania informacji prawnych Cezary Dołęga, Neurosoft ® Sp. z o.o.

Podobne prezentacje


Prezentacja na temat: "System do przetwarzania informacji prawnych Cezary Dołęga, Neurosoft ® Sp. z o.o."— Zapis prezentacji:

1 System do przetwarzania informacji prawnych Cezary Dołęga, Neurosoft ® Sp. z o.o.

2 2 Plan prezentacji Wprowadzenie – trochę o Neurosofcie Co w prawie piszczy, definicja problemu Co to jest Neurolex, elementy Architektura danych Generowanie i tagowanie danych Wyszukiwanie informacji (serwis-prawny.pl) Problemy do rozwiązania Pytania...

3 3 Wprowadzenie Neurosoft Sp. z o.o. –Rok założenia 1992 –Zaplecze to pracownicy PWr i UW –Produkcja oprogramowania z zakresu AI Produkty Neurosoftu –Neurosoft SynTalk ® (1994 r. TTS) –Neurosoft BIP ® (1997 r. OCR, Archiwizacja) –Neurosoft Gram (2000 r. NLP, Fulltext search) –Neurosoft NeuroLex (2001 r., Prawo)

4 4 Co w prawie piszczy? Prawo dotyczy każdego obywatela i bardzo wielu dziedzin życia Liczba przepisów prawnych (aktów) i interpretacji (np. orzeczeń) jest bardzo duża i szybko się powiększa Zmienność przepisów w czasie jest duża Prawo stanowione jest przez wiele szczebli władzy ustawodawczej Państwo nie informuje obywatela W maju 2004 r. wchodzimy do UE

5 5 Co w prawie piszczy? (cd.1) Prawo dotyczy każdego obywatela –Ignorantia iuris nocet –Prawo nie tylko dla prawników –Świadomość prawna w Polsce rośnie

6 6 Co w prawie piszczy? (cd.2) Liczba przepisów prawnych –Promulgatory = ponad 210 tys. aktów + prawo lokalne + UE Dziennik Ustaw, Monitor Polski (A) = ok. 16 tys. str./rok Monitor Polski B 21 dzienników urzędów centralnych = ok. 5 tys. str./rok 16 dzienników urzędów wojewódzkich = ok. ? tys. str./rok Prawo Unii Europejskiej = OJ L: ok. 22 tys. str./rok + C: 26 tys. str./rok –Orzeczenia (najważniejsze interpretacje prawa) Trybunał Konstytucyjny Sąd Najwyższy Naczelny Sąd Administracyjny Sądy apelacyjne Sąd antymonopolowy –Przepisy niepromulgowane

7 7 Co w prawie piszczy? (cd.3) Liczba przepisów prawnych

8 8 Co w prawie piszczy? (cd.4) Zmienność przepisów w czasie –Akty wchodzą w życie –Akty są uchylane (pośrednio, bezpośrednio) –Akty są zmieniane Codziennie następuje zmiana/uchylenie/wprowadzenie kilku aktów

9 9 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych

10 10 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe

11 11 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia

12 12 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia ZarządzeniaUchwałyInne akty wyk. RegulaminyStatuty

13 13 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia ZarządzeniaUchwałyInne akty wyk. RegulaminyStatuty Konstytucja UE Uchwały Parlamentu UE Dyrektywy Komisji Europejskiej

14 14 Co w prawie piszczy? (cd.5) Źródła przepisów prawnych Konstytucja RP Ustawy Umowy Międzynarodowe Rozporządzenia ZarządzeniaUchwałyInne akty wyk. RegulaminyStatuty Konstytucja UE Uchwały Parlamentu UE Dyrektywy Komisji Europejskiej Decyzje urzędników Orzecznictwo sądów

15 15 Co w prawie piszczy? (cd.6) Państwo nie informuje obywatela –Rozproszony system promulgatorów –Brak kodyfikacji (np. na wzór FNA) –Stary system wyszukiwania aktów –Niespójność przepisów –Dezinformacja (np. krótkie Vacatio legis) –Prawo dostępne tylko w obcym języku (UE)

16 16 Czego oczekuje użytkownik? Dostępu do kompletnego zbioru dokumentów Szybki dostęp do najnowszych danych Dostępu do obowiązującego brzmienia dowolnego dokumentu (tekstu ujednoliconego) dowolnym dniu (stan prawny) Informacji na temat wszelkich powiązań między dokumentami Możliwości wyszukania dokumentów przez wskazanie (opisowe) zagadnienia (UE) Dostępu do różnego typu informacji syntetycznych

17 17 Neurolex Cel –Skonstruowanie systemu umożliwiającego szybkie dostarczenie użytkownikowi oczekiwanych przez niego, kompletnych i dobrych jakościowo informacji z zakresu prawa, za rozsądną cenę Środki –Technologia XML, XSLT, XPATH –OCR (Neurosoft BIP) –Przetwarzania tekstów, NLP (Neurosoft Gram) –Internet

18 18 Neurolex - elementy Specjalna architektura danych (baza off-line) Zestaw narzędzi do konwersji dokumentów z postaci papierowej lub/i prostej elektronicznej do pełnej postaci wzbogaconej –Etap 1: dane pierwotne –Etap 2: dane syntetyczne Zestaw narzędzi do wizualizacji i wyszukiwania dokumentów (www.serwis-prawny.pl)www.serwis-prawny.pl

19 19 Architektura danych Architektura bazy danych: – Typ bazy danych:hierarchiczny – Silnik bazy danych:system plików – Element bazy:pojedynczy plik (element dokumentu) – Relacje:hiperlink – Wizualizacja:Microsoft Internet Explorer 4.0+ – Kontrola wersji:Microsoft SourceSafe 6.0

20 20 Architektura danych (cd.1) Podstawowe formaty plików w bazie danych XML – schematy, treści i opisy dokumentów BIP – obrazy stron promulgatorów, IDX, IDT * – pliki tekstowe ze słowami kluczowymi, Pomocnicze formaty plików TIFF – zbiorcze obrazy całych numerów promulgatorów, CSV, TXT, CHN – pliki z informacjami pomocniczymi, PDF – oryginały promulgatorów, XLS, DOC – przetworzone, inteligentne formularze, XSL, GIF, JPEG, HTML, CSS – dodatki dla wizualizacji. * nie aktualne w wersji Neurolex 2.0

21 21 Architektura danych (cd.2) Architektura bazy danych – hierarchia: Root PromulgatorPozycja = akt

22 22 Architektura danych (cd.3) Zawartość pojedynczego dokumentu: –Metryka, spis treści, powiązania (XML), –Treść każdej z części oddzielnie (XML), (podział na części wg podziału na załączniki i wersje językowe) –Słowa kluczowe dla całej treści części (IDX), –Słowa kluczowe dla tytułów (IDT), –Plik BIP spinający obrazy stron dla pozycji, –Pliki BIP spinające obrazy dla każdej części, –Informacje o zmianach (podkatalogi)

23 23 Architektura danych (cd.4) Dodatkowe pliki pomocnicze * : –Spis treści numeru (XML) –Spinacz dla wszystkich stron numeru (BIP) –Spis treści rocznika (XML) –Spinacz dla wszystkich stron rocznika (BIP) –Spis treści promulgatorów (HTML) * generowane na podstawie plików z zawartością dokumentów

24 24 Architektura danych (cd.5) Struktura treści XML – poziomy adresowalne * : * posiadają adres (bookmark) i można się na nich pozycjonować podczas przeglądania Artykuł Paragraf Ustęp Punkt Litera Sublitera

25 25 Architektura danych (cd.6) Struktura treści XML – poziomy nieadresowalne * : Część Księga Tytuł Dział Rozdział Oddział + jednostki niższego poziomu Jednostki tytularne w załącznikach lub w aktach zagranicznych * realizowane przy użyciu trzech elementów – JTC, JTL, JTN, nie posiadają bookmarków

26 26 Architektura danych (cd.7) Struktura treści XML – elementy uniwersalne * : –Tekst (z elementami formatowania), –Wyliczenie (tiret), –Objaśnienie (np. dla symboli we wzorach), –Tabela (dwa poziomy – możliwość grupowania wierszy), –Wzór matematyczny (w notacji XML+TEX), –Przypis, –Zastąpienie (zamiana), –Cytat, –Hyperlink, –Dowolnie sformatowany fragment w HTML-u. * można je umieścić na każdym poziomie struktury

27 27 Architektura danych (cd.8) prezentacja fragmentu bazy off-line

28 28 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna

29 29 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna Skanowanie oryginałów, pobranie dostępnych danych z Internetu: - Neurosoft BIP - Neurosoft LexSpreacz

30 30 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna Retusz skanów, OCR skanów do postaci HTML, korekta ortograficzna i porównawcza teksów, podział wolumenów i dokumentów, inicjacja struktury bazy off-line - Neurosoft BIP - Neurosoft LexGram - FineReader - Neurosoft MLParser - Neurosoft InitLex - Neurosoft CsvCheck

31 31 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna Ręczne nanoszenie tagów w HTML-u usprawniających proces generowania XML-i, kontrola i weryfikacja niektórych błędów - Notepad - IE Explorer - Active Perl

32 32 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna Generowanie i weryfikacja porównawcza danych metrykalnych, generowanie struktury aktu XML (hierarchizacja), generowanie spisu treści aktu, tagowanie zmian, tagowanie i identyfikacja referencji, tagowanie i identyfikacja powiązań z innymi aktami: - Neurosoft Analex

33 33 Konwersja danych (etap 1) Pozyskanie surowców Wygenerowanie półproduktów Etykietowanie półproduktów Utworzenie danych wyjściowych Wzbogacanie danych wyjściowych Weryfikacja wewnętrzna Ekspedycja danych Weryfikacja zewnętrzna Generowanie spisów treści dla wolumenu, rocznika itp., dowiązanie obrazów do dokumentów, generowanie protokołów powiązań: - Neurosoft InitLex

34 34 Konwersja danych (etap 2) Klasyfikacja treści Wyznaczenie czasu życia Wygenerowanie tekstu ujednoliconego Synteza informacji (w początkowej fazie implementacji)

35 35 Konwersja danych (etap 2) Klasyfikacja treści Wyznaczenie czasu życia Wygenerowanie tekstu ujednoliconego Synteza informacji (w początkowej fazie implementacji) Ulokowanie dokumentu w analitycznym spisie prawa, generowanie i otagowanie słów kluczowych (EuroVoc) dla skorowidzów: - Neurosoft ConsoLex

36 36 Konwersja danych (etap 2) Klasyfikacja treści Wyznaczenie czasu życia Wygenerowanie tekstu ujednoliconego Synteza informacji (w początkowej fazie implementacji) Określenie wszystkich momentów (dat), w których dany dokument się zmienia/wchodzi w życie/dezaktualizuje się: - Neurosoft TimeLex

37 37 Konwersja danych (etap 2) Klasyfikacja treści Wyznaczenie czasu życia Wygenerowanie tekstu ujednoliconego Synteza informacji (w początkowej fazie implementacji) - Neurosoft ConsoLex

38 38 Konwersja danych (etap 2) Klasyfikacja treści Wyznaczenie czasu życia Wygenerowanie tekstów ujednoliconych Synteza informacji (w początkowej fazie implementacji) Określenie wpływu danego aktu na stan już istniejących syntetycznych zestawień, ew. utworzenie dodatkowego zestawienia

39 39 Konwersja danych - NLP Neurosoft LexGram –Weryfikacja ortograficzna i porównawcza tekstu –Identyfikacja potencjalnych błędów OCR-u Neurosoft Analex –Wyznaczanie struktury aktu na podstawie treści –Generowanie informacji metrykalnych –Tagowanie zmian –Tagowanie powiązań z innymi aktami wraz z wykrywaniem rodzaju powiązania

40 40 Konwersja danych – NLP (cd. 1) Neurosoft ConsoLex –Generowanie tekstów ujednoliconych * –Klasyfikacja aktu * Automatyczna synteza informacji – odpowiadanie na pytania * w trakcie implementacji

41 41 Wyszukiwanie informacji (www.serwis-prawny.pl)

42 42 Wyszukiwanie informacji - NLP Przeszukiwanie wg analitycznego spisu prawa oraz wg wybranych haseł – skorowidz * Przeszukiwanie pełnotekstowe odporne na język polski (Neurosoft Gram) wraz z kolorowaniem wyniku z autodezambiguacją Przeszukiwanie pełnotekstowe z użyciem sieci semantycznych (Polski WordNet) * BECKspert - inteligentny analizator zapytań w języku naturalnym * * w fazie implementacji, uruchomienie 1 czerwca 2003 r.

43 43 Wyszukiwanie informacji – NLP prezentacja działania serwisu on-line

44 44 Problemy - NLP Korekta gramatyczna tekstu (po OCR) Systematyczne braki w słowniku Grama –Nazwy geograficzne i ich pochodne –Przedrostkowe formy niektórych wyrazów (konieczna morfologia algorytmiczna) –Grupy nazw własnych (np. leki) Prawdziwy polski WordNet Polska wersja EuroVoca (wersja 4.0) Bardziej automatyczne generowanie tekstów ujednoliconych Odpowiedni materiał językowy do wyszukiwania tyupu cross-lingual search (ang-pl)

45 45 Pytania Dziękuję za uwagę


Pobierz ppt "System do przetwarzania informacji prawnych Cezary Dołęga, Neurosoft ® Sp. z o.o."

Podobne prezentacje


Reklamy Google