Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

System do analizy tekstów ortograficznych Cezary Dołęga, ®

Podobne prezentacje


Prezentacja na temat: "System do analizy tekstów ortograficznych Cezary Dołęga, ®"— Zapis prezentacji:

1 System do analizy tekstów ortograficznych Cezary Dołęga, ®

2 2 Plan prezentacji Wprowadzenie – trochę o nas i NLP Co to jest Gram ? Gram w działaniu Aplikacje Kierunki rozwoju Podsumowanie i pytania

3 3 Wprowadzenie Neurosoft Sp. z o.o. –Rok założenia 1992 –Zaplecze to pracownicy PWr i UW –Produkcja oprogramowania z zakresu AI Produkty Neurosoftu –Neurosoft SynTalk ® (1994 r. TTS) –Neurosoft BIP ® (1997 r. OCR, Archiwizacja) –Neurosoft Gram (2000 r. NLP, Fulltext search) Projekty w przygotowaniu –www.serwis-prawny.pl

4 4 Wprowadzenie cd. Dlaczego NLP ? –W OCR-ze wskazane przy złej jakości piśmie –W syntezie mowy niezbędne prozodia mowy –W przeszukiwaniu pełnotekstowym precyzja NLP w Neurosoft –1992 r. Początek prac nad słownikiem (OCR) –1994 r. Pierwszy słownik, słaby materiał, parser tekstu ortograficznego dla potrzeb TTS-u –1998 r. Rozpoznawanie bezsegmentacyjne, pierwszy kompletny materiał jezykowy (OCR) –2000 r. Pierwsza wersja Grama (UNIX-owa)

5 5 Neurosoft Gram Co to jest ? –komponent do przetwarzania tekstów pisanych w językach naturalnych - głównie w języku polskim, Potrafi dzielić tekst na zdania i słowa z uwzględnieniem różnych metod reprezentacji znaków Odszukuje leksemy i postaci kanoniczne dla każdego słowa w analizowanym tekście etykietując odpowiednio formy fleksyjne Identyfikuje wyrażenia regularne i może je interpretować Potrafi korygować tekst w zadanym zakresie Potrafi wykonać prostą klasyfikację semantyczną Posiada szereg funkcji wysokiego poziomu ułatwiających życie...

6 6 Neurosoft Gram Czym nie jest... –Nie jest systemem typu full-text search –Nie jest programem użytkowym –Nie korzysta z jakiejkolwiek bazy danych

7 7 Neurosoft Gram Cechy systemu –Architektura klient-serwer – dostępny dla Windows NT 4.0/2000 (DCOM) lub Linuxa (demon TCP/IP) –Wielowątkowość i dobra skalowolność –Optymalizacja pod kątem szybkości działania (ok. 30 tyś. słów/sek. – PIII/550MHz) –Względnie duża zasobochłonność (słowniki) –Przystosowanie do specyfiki języka polskiego –Przystosowanie do bezpośredniej integracji z aplikacjami WWW

8 8 Neurosoft Gram - słowniki Zastosowanie (wersja 2.2) –Informacja o leksemach i formach fleksyjnych –Informacja o powiązaniach morfologicznych –Podział słów według języka –Podział słów według kategorii semantycznych Zastosowanie (wersja 3.0) –Informacja o denotacji (słowniki pojęć) –Informacja o związkach frazeologicznych –Leksemy w różnych językach

9 9 Neurosoft Gram – słowniki cd. Typy –Skompilowany (skompresowane drzewo prefiksowe form fleksyjnych) –Tekstowy (niekompresowane drzewo prefiksowe tworzone przy starcie systemu) Właściwości –Atrybuty – język, unikatowy identyfikator itp. –Niezależna od języka reprezentacja form fleksyjnych i leksemów –Zależne od języka algorytmy identyfikacji słów –Informacje dodatkowe (szumy i wyjątki dla parsera) Liczba słowników w systemie –Nie więcej niż 255

10 10 Neurosoft Gram – leksemy Typy leksemów w języku naturalnym (odm.) –Rzeczownik (liczba,przypadek) –Czasownik (czas,liczba,osoba,tryb przyp.) –Imiesłów (liczba,przypadek,osoba) –Przymiotnik (liczba,przypadek,osoba) –Przysłówek –Zaimek (liczba,przypadek,osoba) –Liczebnik (liczba,przypadek,osoba) –Przyimek –Skrót lub skrótowiec (liczba,przypadek) –Inne

11 11 Neurosoft Gram – leksemy cd. Związki morfologiczne między leksemami (inne niż fleksja) opisuje relacja pochodzenia –Dany leksem pochodzi tylko od jednego leksemu –Nie tworzy cykli –Określona w niepełnej dziedzinie –Każdy typ relacji może być dynamicznie aktywowany –W wersji 2.2 w sumie 20 typów, np.: aktorka aktor jadący jechać ściągnąć ściągać lepszy dobry robotniczy robotnik

12 12 Neurosoft Gram – leksemy cd. Predefiniowane wyrażenia regularne –Liczby ( , 10e-3, 25 mln) –Daty (12 lutego 2001, 11/12/01) –Godziny (15:31) –URL (www.neuro.pl, –Sekwencje ( *************) –Symbole ( ;-) ) –Wyliczenia ( )

13 13 Neurosoft Gram – leksemy cd. Leksemy identyfikowane algorytmicznie –Słowa z wyliczeniem (-krotny, -lecie) –Rzeczowniki z określonymi przedrostkami (eks-, quasi-) –Zaprzeczenie rzeczowników odczasownikowych (niewykazanie) –Zaprzeczenie imiesłowów –Nazwiska ze standardowymi końcówkami –Słowa wieloczłonowe z myślnikiem –Odmieniane skrótowce (PRL-em)

14 14 Gram w działaniu Konfiguracja –Słowniki –Parametry przetwarzania Funkcje niskiego poziomu –Informacje o słowie (zdaniu) –Możliwość podmiany słowa (zdania) Funkcje kompleksowe –Ogólne informacje o tekście –Redukcja fleksji (normalizacja tekstu) –Wyróżnianie wybranych słów –Filtracja słów ze wskazanego słownika –Generowanie listy słów kluczowych –Generowanie prostych streszczeń

15 15 Aplikacje Grama Systemy wyszukiwania pełnotekstowego –Tworzenie indeksów –Analiza zapytań –Kolorowanie wyniku (HTML) Systemy alertów i automatycznej cenzury –Neurobot (kontrola zawartości Inetrnetu) Synteza i analiza mowy –Wyznaczanie prozodii przy generowaniu mowy –Wybór właściwego wyniku rozpoznawania Rozpoznawanie pisma –Wybór właściwego wyniku rozpoznawania

16 16 Kierunki rozwoju Grama Na najbliższy czas (wersja 2.X) –Definiowanie, identyfikacja i interpretacja dowolnych wyrażeń regularnych (zapytania do baz danych) –Słowniki związków frazeologicznych Na przyszłość (wersja 3.0) –Analiza składni –Słowniki pojęć i hierarchie semantyczne –Generowanie streszczeń –Automatyczne tłumaczenia

17 17 Pytania...


Pobierz ppt "System do analizy tekstów ortograficznych Cezary Dołęga, ®"

Podobne prezentacje


Reklamy Google