® System do analizy tekstów ortograficznych Cezary Dołęga, cezar@neurosoft.pl.

Slides:



Advertisements
Podobne prezentacje
Wprowadzenie Niniejszy materiał szkoleniowy jest tłumaczeniem prezentacji dostępnej na stronie dramonline.org.
Advertisements

Wyszukiwanie w bazach - warsztaty szkoleniowe
Interfejs użytkownika do zarządzania konfiguracją oprogramowania
Wprowadzenie do C++ Zajęcia 2.
ADAM Active Directory w trybie aplikacyjnym
Komponenty bazy danych Baza danych Jest to uporządkowany zbiór powiązanych ze sobą danych charakterystycznych dla pewnej klasy obiektów lub zdarzeń,
WPROWADZENIE DO BAZ DANYCH
Fonetyka, ortografia, interpunkcja
POLSKIE TOWARZYSTWO FONETYCZNE Analiza, synteza i rozpoznawanie mowy w lingwistyce, technice i medycynie Szczyrk 2003 System Thetos w serwisie tekstów.
Generyczne Repozytorium Dokumentów w XML
PySBQL Język zapytań dla obiektowych baz danych. Aplikacje bazodanowe Główny nurt budowania aplikacji opiera się na połączeniu: SQL JDBC Java Jak wyświetlić
JĘZYK POLSKI KLASY IV - VI
PHP vs. ASP PHP – lider wydajności wśród języków skryptowych.
Klasyfikacja dokumentów tekstowych w oparciu o blogi
Wyszukiwanie w repozytoriach tekstowych w języku polskim
Techniki digitalizacji, organizowania oraz efektywnego wyszukiwania informacji z dokumentów tekstowych Remigiusz Baran, Andrzej Dziech, Paweł Fornalski,
ENCYKLOPEDIE I SŁOWNIKI
Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
Zaawansowane przetwarzanie tekstu dla potrzeb bibliotek cyfrowych Stanisław Osiński
1/18 LOGO Profil zespołu. 2/18 O nas Produkcja autorskich rozwiązań informatycznych dla małych i średnich firm w zakresie systemów: Baz danych Aplikacji.
Multimedialne bazy danych
Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.
RODZAJE WYDAWNICTW INFORMACYJNYCH
SŁOWNIKI.
Teoria relacyjnych baz danych
Atlantis INSPECTOR System wspomagania zarządzaniem i ewidencją obiektów sieciowych.
Gra Scrabble ® na urządzenie Nokia N800 Autor: Michał Filipowicz Promotor: dr inż. Jerzy Zaczek Konsultant: mgr inż. Krzysztof Rzecki.
Janusz Wrobel – Neurosoft Sp. z o.o.
VI KONFERENCJA EWALUACYJNA
WinPakSE/PE Zintegrowany System Ochrony Obiektów
ENCYKLOPEDIE I SŁOWNIKI
Informatyka I - Wykład ANSI C
Wanda Klenczon Biblioteka Narodowa
Budowanie tabel i relacji
Google Testing Radosław Smilgin, , TestWarez.
Prace dyplomowe studentów
Rozporządzenie MEN z 7 lutego 2012 roku Pojawia się tam zapis język obcy ukierunkowany zawodowo- Efekty kształcenia wspólne dla wszystkich zawodów Efekty.
Rozwiązanie zadań do zaliczenia I0G1S4 // indeks
Co to są alternatywne i wspomagające metody komunikacji?
Wybrane zagadnienia relacyjnych baz danych
KOMUNIKACJA ALTERNATYWNA - PIKTOGRAMY
ODMIENNE CZĘŚCI MOWY Aneta Woźniak.
ZWIĄZKI MIĘDZY KLASAMI KLASY ABSTRAKCYJNE OGRANICZENIA INTERFEJSY SZABLONY safa Michał Telus.
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Projektowanie stron WWW
Podstawy programowania
Czy wiesz już wszystko o częściach mowy?
System plików.
Andrzej Majkowski 1 informatyka +. 2 Telefon komórkowy „uczy się”. Metoda słownikowa T9 Paweł Perekietka.
GRAMATYKA ŁATWA I PRZYJEMNA.
Modelowanie Kognitywne
ZDYSCYPLINOWANY OPIS JĘZYKÓW NATURALNYCH Proseminarium doktoranckie 2014/2015, semestr letni Prof. dr hab. Marek Świdziński Zakład Językoznawstwa Komputerowego.
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Voice Portals – Portale Głosowe Krótkie wprowadzenie i omówienie.
10. Wiedza o języku Studia Podyplomowe „Polski Język Migowy”
Edytory tekstowe stron WWW
Podstawy programowania
Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.
Wstęp do programowania Wykład 9
1 WebCenter 14 – Co nowego? Rozwiązanie ESKO w zakresie zarządzania produkcją opakowań.
PRÓBNEGO SPRAWDZIANU SZÓSTOKLASISTY
Części mowy Edyta Sawicka.
WYSZUKIWANIE I OPTYMALIZACJA TRAS DLA URZĄDZEŃ MOBILNYCH ANDROID W OPARCIU O SIEĆ/GRAF DOSTĘPNYCH DRÓG Piotr Dąbrowski, Tomasz Pyśk, Piotr Wojciechowski.
Kształtowanie kompetencji komunikacyjnych wiedza o języku w szkole podstawowej i gimnazjum.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.
Próbny egzamin ÓSMOKLASISTy 2018/2019
Wyniki próbnego egzaminu gimnazjalnego – język obcy nowożytny.
Zapis prezentacji:

® System do analizy tekstów ortograficznych Cezary Dołęga, cezar@neurosoft.pl

Plan prezentacji Wprowadzenie – trochę o nas i NLP Co to jest Gram ? Gram w działaniu Aplikacje Kierunki rozwoju Podsumowanie i pytania

Wprowadzenie Neurosoft Sp. z o.o. Produkty Neurosoftu Rok założenia 1992 Zaplecze to pracownicy PWr i UW Produkcja oprogramowania z zakresu AI Produkty Neurosoftu Neurosoft SynTalk® (1994 r. TTS) Neurosoft BIP® (1997 r. OCR, Archiwizacja) Neurosoft Gram (2000 r. NLP, Fulltext search) Projekty w przygotowaniu www.serwis-prawny.pl

Wprowadzenie cd. Dlaczego NLP ? NLP w Neurosoft W OCR-ze wskazane przy złej jakości piśmie W syntezie mowy niezbędne  prozodia mowy W przeszukiwaniu pełnotekstowym  precyzja NLP w Neurosoft 1992 r. Początek prac nad słownikiem (OCR) 1994 r. Pierwszy słownik, słaby materiał, parser tekstu ortograficznego dla potrzeb TTS-u 1998 r. Rozpoznawanie bezsegmentacyjne, pierwszy kompletny materiał jezykowy (OCR) 2000 r. Pierwsza wersja Grama (UNIX-owa)

Neurosoft Gram Co to jest ? komponent do przetwarzania tekstów pisanych w językach naturalnych - głównie w języku polskim, Potrafi dzielić tekst na zdania i słowa z uwzględnieniem różnych metod reprezentacji znaków Odszukuje leksemy i postaci kanoniczne dla każdego słowa w analizowanym tekście etykietując odpowiednio formy fleksyjne Identyfikuje wyrażenia regularne i może je interpretować Potrafi korygować tekst w zadanym zakresie Potrafi wykonać prostą klasyfikację semantyczną Posiada szereg funkcji wysokiego poziomu „ułatwiających życie”...

Neurosoft Gram Czym nie jest ... Nie jest systemem typu „full-text search” Nie jest programem użytkowym Nie korzysta z jakiejkolwiek bazy danych

Neurosoft Gram Cechy systemu Architektura „klient-serwer” – dostępny dla Windows NT 4.0/2000 (DCOM) lub Linuxa (demon TCP/IP) Wielowątkowość i dobra skalowolność Optymalizacja pod kątem szybkości działania (ok. 30 tyś. słów/sek. – PIII/550MHz) Względnie duża zasobochłonność (słowniki) Przystosowanie do specyfiki języka polskiego Przystosowanie do bezpośredniej integracji z aplikacjami WWW

Neurosoft Gram - słowniki Zastosowanie (wersja 2.2) Informacja o leksemach i formach fleksyjnych Informacja o powiązaniach morfologicznych Podział słów według języka Podział słów według kategorii semantycznych Zastosowanie (wersja 3.0) Informacja o denotacji (słowniki pojęć) Informacja o związkach frazeologicznych Leksemy w różnych językach

Neurosoft Gram – słowniki cd. Typy Skompilowany (skompresowane drzewo prefiksowe form fleksyjnych) Tekstowy (niekompresowane drzewo prefiksowe tworzone przy starcie systemu) Właściwości Atrybuty – język, unikatowy identyfikator itp. Niezależna od języka reprezentacja form fleksyjnych i leksemów Zależne od języka algorytmy identyfikacji słów Informacje dodatkowe (szumy i wyjątki dla parsera) Liczba słowników w systemie Nie więcej niż 255

Neurosoft Gram – leksemy Typy leksemów w języku naturalnym (odm.) Rzeczownik (liczba,przypadek) Czasownik (czas,liczba,osoba,tryb przyp.) Imiesłów (liczba,przypadek,osoba) Przymiotnik (liczba,przypadek,osoba) Przysłówek Zaimek (liczba,przypadek,osoba) Liczebnik (liczba,przypadek,osoba) Przyimek Skrót lub skrótowiec (liczba,przypadek) Inne

Neurosoft Gram – leksemy cd. Związki morfologiczne między leksemami (inne niż fleksja) opisuje relacja pochodzenia Dany leksem pochodzi tylko od jednego leksemu Nie tworzy cykli Określona w niepełnej dziedzinie Każdy typ relacji może być dynamicznie aktywowany W wersji 2.2 w sumie 20 typów, np.: aktorka  aktor jadący  jechać ściągnąć  ściągać lepszy  dobry robotniczy  robotnik

Neurosoft Gram – leksemy cd. Predefiniowane wyrażenia regularne Liczby ( 129.32, 10e-3, 25 mln) Daty (12 lutego 2001, 11/12/01) Godziny (15:31) URL (www.neuro.pl, cezar@neuro.pl) Sekwencje ( *************) Symbole ( ;-) ) Wyliczenia ( 3.1.2-8 )

Neurosoft Gram – leksemy cd. Leksemy identyfikowane algorytmicznie Słowa z wyliczeniem (-krotny, -lecie) Rzeczowniki z określonymi przedrostkami (eks-, quasi-) Zaprzeczenie rzeczowników odczasownikowych (niewykazanie) Zaprzeczenie imiesłowów Nazwiska ze standardowymi końcówkami Słowa wieloczłonowe z myślnikiem Odmieniane skrótowce (PRL-em)

Gram w działaniu Konfiguracja Funkcje niskiego poziomu Słowniki Parametry przetwarzania Funkcje niskiego poziomu Informacje o słowie (zdaniu) Możliwość podmiany słowa (zdania) Funkcje kompleksowe Ogólne informacje o tekście Redukcja fleksji (normalizacja tekstu) Wyróżnianie wybranych słów Filtracja słów ze wskazanego słownika Generowanie listy słów kluczowych Generowanie prostych streszczeń

Aplikacje Grama Systemy wyszukiwania pełnotekstowego Tworzenie indeksów Analiza zapytań Kolorowanie wyniku (HTML) Systemy alertów i automatycznej cenzury Neurobot (kontrola zawartości Inetrnetu) Synteza i analiza mowy Wyznaczanie prozodii przy generowaniu mowy Wybór właściwego wyniku rozpoznawania Rozpoznawanie pisma

Kierunki rozwoju Grama Na najbliższy czas (wersja 2.X) Definiowanie, identyfikacja i interpretacja „dowolnych” wyrażeń regularnych (zapytania do baz danych) Słowniki związków frazeologicznych Na przyszłość (wersja 3.0) Analiza składni Słowniki pojęć i hierarchie semantyczne Generowanie streszczeń Automatyczne tłumaczenia

Pytania ...