Ontologie Monika Nawrot Agnieszka Janowska Akademia Górniczo-Hutnicza Kraków 2006.

Slides:



Advertisements
Podobne prezentacje
Data Mining w e-commerce
Advertisements

Wprowadzenie do budowy usług informacyjnych
Inteligentne Systemy Informacyjne
Nauka o informacji w XXI wieku
Simple Knowledge Organisation System
Wprowadzenie do eksploracji tekstu i technik płytkiej analizy tekstu
Maciej Piasecki CLARIN-PL Politechnika Wrocławska Instytut Informatyki
PROF. DR HAB. WIESŁAWA PRZYBYLSKA-KAPUŚCIŃSKA
XML w integracji aplikacji
11 RDF Wertykalne zastosowania XML-a. 22 RDF - Wprowadzenie Problemy Sieć jest nieczytelna dla programów komputerowych. Sieć zawiera zbyt wiele informacji.
Hurtownie Danych Mariusz Dołęga.
Propozycja metodyki nauczania inżynierii oprogramowania
Platforma .Net i Vs.Net.
Dokumentowanie wymagań w języku XML
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Klasyfikacja dokumentów tekstowych w oparciu o blogi
WekaSQL Język i aplikacja przetwarzania oraz eksploracji danych.
Zastosowanie pamięci semantycznej we wspomaganiu decyzji medycznych
Pamięć semantyczna Część pamięci długotrwałej, w której przechowuje się podstawowe znaczenie słów i pojęć.
Inteligentne Systemy Informacyjne
Wykład 7 Wojciech Pieprzyca
mgr inż. Adam Łukasz Kaczmarek Katedra Inżynierii Wiedzy, WETI PG
Wykład 6 Wojciech Pieprzyca
Marek Fertsch Systemy planowania i sterowania produkcją 1
Ukryte indeksowanie semantyczne SVD Struktury danych
Wzorce projektowe w J2EE
Praca Inżynierska „Analiza i projekt aplikacji informatycznej do wspomagania wybranych zadań ośrodków sportowych” Dyplomant: Marcin Iwanicki Promotor:
Multimedialne bazy danych
PROJEKTOWANIE TABEL W PROGRAMIE: ACCESS
IT Asset Management Service
Systemy zarządzania treścią Wykład 1
Prezentacja funkcjonalności dziennika e-klasa
Instytut Tele- i Radiotechniczny WARSZAWA
Technologia informacyjna
Prezentacja funkcjonalności dziennika e-klasa
Wanda Klenczon Biblioteka Narodowa
1 PREZENTACJA FUNKCJONALNOŚCI DZIENNIKA UCZNIA Moduł Dyrektora ZAPRASZAMY ZAPRASZAMY O&S Computer-Soft ul. Żwirki i Wigury 8-12, Wałbrzych, woj.
Mechanizm OLE ang. Object Linking and Embedding źródła:
OfficeObjects® Portal
Wybrane zagadnienia relacyjnych baz danych
Dr Karolina Muszyńska Na podst.:
1 Każdy obiekt jest scharakteryzowany poprzez: tożsamość – daje się jednoznacznie wyróżnić; stan; zachowanie. W analizie obiektowej podstawową strukturą
Mirosław Górny Maria Śliwińska
1. Współczesne generacje technologii
Podstawy programowania
UML W V ISUAL S TUDIO Mateusz Lamparski. UML D EFINICJA Unified Modeling Language (UML) to graficzny język do obrazowania, specyfikowania, tworzenia i.
W W W Łukasz Stochniał.
Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +
Wyszukiwanie informacji w internecie
Pojęcie sterowania przepływem produkcji
Modelowanie Kognitywne
Modelowanie obiektowe - system zarządzania projektami.
Treści multimedialne - kodowanie, przetwarzanie, prezentacjaOdtwarzanie treści multimedialnych Andrzej Majkowski informatyka +
Języki formalne i gramatyki Copyright, 2005 © Jerzy R. Nawrocki Teoretyczne podstawy.
Hurtownie i eksploracja danych
Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)
Waldemar Bartyna 1 Programowanie zaawansowane LINQ to XML.
4 lipca 2015 godz pok września 2015 godz pok. 212.
Wzorce Projektowe w JAVA
Platforma .Net.
Systemy zarządzania przepływem pracy i systemy zarządzania procesami biznesowymi Karolina Muszyńska.
Logical Framework Approach Metoda Macierzy Logicznej
BAZY DANYCH MS Access.
BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.
Bazy CINAHL Wyszukiwanie zaawansowane Przewodnik
Metody Inteligencji Obliczeniowej Adrian Horzyk Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii.
PROBLEMATYKA INFRASTRUKTUR INFORMACJI PRZESTRZENNEJ W POLSCE JERZY GAŹDZICKI POLSKIE TOWARZYSTWO INFORMACJI PRZESTRZENNEJ.
Graficzny Interfejs Użytkownika
Windows Workflow Foundation
Zapis prezentacji:

Ontologie Monika Nawrot Agnieszka Janowska Akademia Górniczo-Hutnicza Kraków 2006

Ontologia Ontologia - podstawowy dział filozofii, który stara się odpowiadać na pytania o strukturę rzeczywistości i problematykę związaną z pojęciami bytu, istoty, istnienia i jego sposobów, przedmiotu i jego własności, przyczynowości, czasu, przestrzeni, konieczności i możliwości.

Ontologia Ontologia – w informatyce oznacza określony sposób formalizacji wiedzy, którego celem jest zapewnienie jednoznaczności przekazu wiedzy na temat określonej rzeczywistości. W tym celu wykorzystuje się kategoryzację oraz hierarchizację.

Ontologia Kategoryzacja – zdolność przyporządkowania symbolu występującego w komunikacie do określonej grupy obiektów, które to obiekty posiadają określone cechy, np. „kot” – klasa kotów, pojęcie kot (ang. concept). Zestaw tych grup można określić jako zewnętrzny model pojmowania świata.

Ontologia Hierarchizacja – umiejscowienie określonej klasy w hierarchicznej strukturze. Instancja klasy poza oczywistymi charakterystykami wynikającymi z przynależności do klasy posiada także cechy dziedziczone z klas nadrzędnych.

Ontologie Języki: - RDF (Resource Description Framework) - OWL (Web Ontology Language)  OWL Lite  OWL DL (rozszerzenie OWL Lite)  OWL Full (rozszerzenie OWL DL) - DAML (DARPA Agent Markup Language)

Ontologie w tekstach  Automatyczna budowa ontologii na podstawie tekstu – Ontology Learning  Information Extraction – wspomaganie wydobywania wiedzy z tekstu  Information Retrieval – wspomaganie wyszukiwania i grupowania dokumentów  Automatyczne generowanie odpowiedzi na zapytania

Ontology Learning  Półautomatyczna generacja, eksploracja i ekstrakcja ontologii z różnych zasobów (ustrukturalizowanych i nieustrukturalizowanych)  Przetwarzanie języka naturalnego (Natural Language Processing)  Eksploracja danych (Data Mining)  Mnogość algorytmów

Ontologie a Inormation Extraction  Wykorzystanie ontologii przy ekstrakcji wiedzy: są niezbędne jako element procesu „zrozumienia” przy uzyskiwaniu informacji z tekstu  Wykorzystanie metod ekstrakcji wiedzy przy projektowaniu ontologii: pomogają w „zasiedlaniu” ontologii (wypełnianiu ontologii instancjami pojęć – ontology population) oraz wzbogacaniu ontologii o nowe pojęcia

Ontotext Laboratorium technologii semantycznych firmy Sirma prowadzące prace badawcze nad: - Ontologiami - Reprezentacją wiedzy (Information Retrieval) - Ekstrakcją wiedzy (Information Extraction) - Sieciami semantycznymi

Ontotext Współuczestniczy w projektach badawczych:  On-To-Knowledge  SWWS  Vision  OntoWeb  DIP  SEKT  Prestospace  Infrawebs

SEKT (Semantic Knowledge Technologies)

SEKT Cele SEKT: -zniesienie granic pomiędzy zarządzaniem dokumentem i jego zawartością -pożądana wiedza powinna być automatycznie dostarczana właściwym ludziom we właściwym czasie

SEKT SEKT łączy: -Metadane bazujące na ontologii (Ontology-based Metadata) -Technologię Języka Naturalnego (Human Language Technology) -Odkrywanie Wiedzy (Knowledge Discovery)

SEKT SEKT i Ontotext: -zarządzanie ontologią -generacja ontologii -generacja metadanych -architektura systemu -interfejs systemu

SEKT

To jest Sam, 33-letni makler z Londynu. Sam ma 200 klientów...

KIM (Knowledge and Information Management)

KIM  Semantyczne adnotacje jednostek nazwanych w nieustrukturyzowanych i na wpół ustrukturyzowanych tekstach  Automatyczne linkowanie do wpisów w bazie wiedzy  Indeksowanie i wydobywanie dokumentów  Obsługa zapytań i eksploracja zebranej wiedzy  Analiza popularności i ranking jednostek

KIM

Wykorzystane technologie:  Sesame RDF(S) repozytorium – przechowywanie i obsługa zapytań  GATE – Information Extraction, niektóre elementy  Lucene IR – indeksowanie i Information Retrieval  PROTON – wysoko-poziomowa ontologia stworzona na potrzeby projektu (250 klas, 100 właściwości)  KIM Knowledge Base – przechowywanie wpisów jednostek nazwanych (Named Entities) – wypełniona wstępnie ok. 200 tys. jednostek

KIM IE

 Adnotacje semantyczne w tekście  GATE (tokenizer, tagger części mowy, mechanizm podziału zdania)  Wbudowane leksykony  Gramatyki szablonów oparte na ontologiach, nie na konkretnych zbiorach nazwanych jednostek (instancjach)  Automatyczne uzupełnianie bazy wiedzy o nowo rozpoznane jednostki i relacje między nimi

KAON Text-To-Onto KAON (Karlsruhe Ontology Management Infrastructure) Text-To-Onto

KAON  Tworzenie, przechowywanie, edytowanie i rozwijanie ontologii  Wspomaganie tworzenia aplikacji opartych na ontologiach  Text-To-Onto – moduł wspomagający automatyczne tworzenie ontologii – Ontology Learning from Text

KAON Text-To-Onto Komponenty:  Zarządzanie ontologią: manualna obsługa ontologii – zarządzanie istniejącymi ontologiami, przeglądanie, modyfikacja, sprawdzanie poprawności  Przetwarzanie zasobów: zestaw narzędzi do wstępnej obróbki dostarczonych tekstów wejściowych  Biblioteka algorytmów: zestaw algorytmów do ekstrakcji informacji zgodnie z dostarczonym modelem ontologii  Moduł organizacyjny: pozwala na interakcję z innymi komponentami, np. przygotowanie zasobów, wybór algorytmów, itp.

Text-To-Onto Przetwarzanie zasobów:  Stworzenie zbioru wstępnie przetworzonych danych dostosowanych do algorytmów ekstraktujących dane dla ontologii  System przetwarzania języka naturalnego – obejmuje tokenizer, analizę leksykalną, morfologiczną, prunning, stemming, rozpoznawanie jednostek nazwanych, tagger części mowy, wbudowane leksykony wyrażeń (GATE)

Text-To-Onto Algorytmy ekstrakcji ontologii:  Działają na wstępnie przetworzonych danych  Różne algorytmy mogą dawać różne wyniki dla tych samych danych wejściowych  Działają w oparciu o dostarczony model ontologii

Text-To-Onto  Lexical Entry and Concept Extraction – metoda statystyczna (TFIDF – Term Frequency – Inverted Document Frequency), opiera się na założeniu, że w tekstach dotyczących danego obszaru wiedzy słowa kluczowe (terminy) pojawiają się często, a więc ekstrakcja instancji klas dla danej ontologii odbywa się na podstawie często powtarzających się terminów, na tej też podstawie tworzy się nowe pojęcia, którymi uzupełnia się ontologię danej domeny (jakkolwiek terminy pojawiające się często w zbyt wielu dokumentach są oceniane jako mniej ważne)

Text-To-Onto  Extraction of Taxonomic Relations  Klasteryzacja – łączenie podobnych terminów w klastry i tworzenie pojęć na ich podstawie, metoda statystyczna, mogą być różne miary podobieństwa terminów  Klasyfikacja – mając wstępną hierarchię możemy podporządkowywać nowe terminy pod istniejące już węzły, metoda statystyczna (Support Vector Machines, k Nearest Neighbor)  Wzorce leksykalno-syntaktyczne – skanowanie tekstu w poszukiwaniu predefiniowanych wzorców – wyrażeń regularnych, najczęściej pozwala to na ekstrakcję pewnych semantycznych relacji, metoda heurystyczna

Text-To-Onto  Ontology Pruning – metoda pozbywania się zbędnych terminów (np. zbyt ogólnych lub niecharakterystycznych) z ontologii danego obszaru wiedzy poprzez porównywanie częstotliwości ich występowania w tekstach specjalistycznych i ogólnych

Dziękujemy za uwagę