Pobierz prezentację
Pobieranie prezentacji. Proszę czekać
OpublikowałWawrzyniec Graf Został zmieniony 10 lat temu
1
System do analizy tekstów ortograficznych Cezary Dołęga,
2
Plan prezentacji Wprowadzenie – trochę o nas i NLP Co to jest Gram ?
Gram w działaniu Aplikacje Kierunki rozwoju Podsumowanie i pytania
3
Wprowadzenie Neurosoft Sp. z o.o. Produkty Neurosoftu
Rok założenia 1992 Zaplecze to pracownicy PWr i UW Produkcja oprogramowania z zakresu AI Produkty Neurosoftu Neurosoft SynTalk® (1994 r. TTS) Neurosoft BIP® (1997 r. OCR, Archiwizacja) Neurosoft Gram (2000 r. NLP, Fulltext search) Projekty w przygotowaniu
4
Wprowadzenie cd. Dlaczego NLP ? NLP w Neurosoft
W OCR-ze wskazane przy złej jakości piśmie W syntezie mowy niezbędne prozodia mowy W przeszukiwaniu pełnotekstowym precyzja NLP w Neurosoft 1992 r. Początek prac nad słownikiem (OCR) 1994 r. Pierwszy słownik, słaby materiał, parser tekstu ortograficznego dla potrzeb TTS-u 1998 r. Rozpoznawanie bezsegmentacyjne, pierwszy kompletny materiał jezykowy (OCR) 2000 r. Pierwsza wersja Grama (UNIX-owa)
5
Neurosoft Gram Co to jest ?
komponent do przetwarzania tekstów pisanych w językach naturalnych - głównie w języku polskim, Potrafi dzielić tekst na zdania i słowa z uwzględnieniem różnych metod reprezentacji znaków Odszukuje leksemy i postaci kanoniczne dla każdego słowa w analizowanym tekście etykietując odpowiednio formy fleksyjne Identyfikuje wyrażenia regularne i może je interpretować Potrafi korygować tekst w zadanym zakresie Potrafi wykonać prostą klasyfikację semantyczną Posiada szereg funkcji wysokiego poziomu „ułatwiających życie”...
6
Neurosoft Gram Czym nie jest ...
Nie jest systemem typu „full-text search” Nie jest programem użytkowym Nie korzysta z jakiejkolwiek bazy danych
7
Neurosoft Gram Cechy systemu
Architektura „klient-serwer” – dostępny dla Windows NT 4.0/2000 (DCOM) lub Linuxa (demon TCP/IP) Wielowątkowość i dobra skalowolność Optymalizacja pod kątem szybkości działania (ok. 30 tyś. słów/sek. – PIII/550MHz) Względnie duża zasobochłonność (słowniki) Przystosowanie do specyfiki języka polskiego Przystosowanie do bezpośredniej integracji z aplikacjami WWW
8
Neurosoft Gram - słowniki
Zastosowanie (wersja 2.2) Informacja o leksemach i formach fleksyjnych Informacja o powiązaniach morfologicznych Podział słów według języka Podział słów według kategorii semantycznych Zastosowanie (wersja 3.0) Informacja o denotacji (słowniki pojęć) Informacja o związkach frazeologicznych Leksemy w różnych językach
9
Neurosoft Gram – słowniki cd.
Typy Skompilowany (skompresowane drzewo prefiksowe form fleksyjnych) Tekstowy (niekompresowane drzewo prefiksowe tworzone przy starcie systemu) Właściwości Atrybuty – język, unikatowy identyfikator itp. Niezależna od języka reprezentacja form fleksyjnych i leksemów Zależne od języka algorytmy identyfikacji słów Informacje dodatkowe (szumy i wyjątki dla parsera) Liczba słowników w systemie Nie więcej niż 255
10
Neurosoft Gram – leksemy
Typy leksemów w języku naturalnym (odm.) Rzeczownik (liczba,przypadek) Czasownik (czas,liczba,osoba,tryb przyp.) Imiesłów (liczba,przypadek,osoba) Przymiotnik (liczba,przypadek,osoba) Przysłówek Zaimek (liczba,przypadek,osoba) Liczebnik (liczba,przypadek,osoba) Przyimek Skrót lub skrótowiec (liczba,przypadek) Inne
11
Neurosoft Gram – leksemy cd.
Związki morfologiczne między leksemami (inne niż fleksja) opisuje relacja pochodzenia Dany leksem pochodzi tylko od jednego leksemu Nie tworzy cykli Określona w niepełnej dziedzinie Każdy typ relacji może być dynamicznie aktywowany W wersji 2.2 w sumie 20 typów, np.: aktorka aktor jadący jechać ściągnąć ściągać lepszy dobry robotniczy robotnik
12
Neurosoft Gram – leksemy cd.
Predefiniowane wyrażenia regularne Liczby ( , 10e-3, 25 mln) Daty (12 lutego 2001, 11/12/01) Godziny (15:31) URL ( Sekwencje ( *************) Symbole ( ;-) ) Wyliczenia ( )
13
Neurosoft Gram – leksemy cd.
Leksemy identyfikowane algorytmicznie Słowa z wyliczeniem (-krotny, -lecie) Rzeczowniki z określonymi przedrostkami (eks-, quasi-) Zaprzeczenie rzeczowników odczasownikowych (niewykazanie) Zaprzeczenie imiesłowów Nazwiska ze standardowymi końcówkami Słowa wieloczłonowe z myślnikiem Odmieniane skrótowce (PRL-em)
14
Gram w działaniu Konfiguracja Funkcje niskiego poziomu
Słowniki Parametry przetwarzania Funkcje niskiego poziomu Informacje o słowie (zdaniu) Możliwość podmiany słowa (zdania) Funkcje kompleksowe Ogólne informacje o tekście Redukcja fleksji (normalizacja tekstu) Wyróżnianie wybranych słów Filtracja słów ze wskazanego słownika Generowanie listy słów kluczowych Generowanie prostych streszczeń
15
Aplikacje Grama Systemy wyszukiwania pełnotekstowego
Tworzenie indeksów Analiza zapytań Kolorowanie wyniku (HTML) Systemy alertów i automatycznej cenzury Neurobot (kontrola zawartości Inetrnetu) Synteza i analiza mowy Wyznaczanie prozodii przy generowaniu mowy Wybór właściwego wyniku rozpoznawania Rozpoznawanie pisma
16
Kierunki rozwoju Grama
Na najbliższy czas (wersja 2.X) Definiowanie, identyfikacja i interpretacja „dowolnych” wyrażeń regularnych (zapytania do baz danych) Słowniki związków frazeologicznych Na przyszłość (wersja 3.0) Analiza składni Słowniki pojęć i hierarchie semantyczne Generowanie streszczeń Automatyczne tłumaczenia
17
Pytania ...
Podobne prezentacje
© 2024 SlidePlayer.pl Inc.
All rights reserved.