Wyszukiwanie w repozytoriach tekstowych w języku polskim

Slides:

Advertisements

Podobne prezentacje

Indeksy w bazie danych Oracle

Advertisements

Wyszukiwanie i zapisywanie informacji

W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ W ZBIORACH BIBLIOTEKI G Ł ÓWNEJ TEMATYCZNE WYSZUKIWANIE LITERATURY W KATALOGU ONLINE.

WPROWADZENIE DO BAZ DANYCH

Współprogramy III Ten wykład ma na celu pokazanie kolejnej ciekawej możliwości, którą oferują współprogramy. Wspólprogramy reprezentujące wyrażenia regularne.

® System do analizy tekstów ortograficznych Cezary Dołęga,

Wykorzystanie Platformy Moodle w dydaktyce języków obcych

OPERATORY WYSZUKIWAWCZE

WEDT Klasyfikacja i grupowanie dokumentów

(c) 1999, Instytut Informatyki Politechniki Poznańskiej Rozdział 2: Język bazy danych - SQL Proste zapytania.

Rozpoznawanie Twarzy i Systemy Biometryczne, 2005/2006

Klasyfikacja dokumentów tekstowych w oparciu o blogi

Metody wyszukiwania informacji

Wprowadzenie do budowy usług informacyjnych

Seminarium: Wyszukiwarki internetowe Marta Cylkowska

Jak pisać pracę dyplomową?

Ukryte indeksowanie semantyczne SVD Struktury danych

Algorytmika w drugim arkuszu maturalnym. Standardy wymagań I. WIADOMOŚCI I ROZUMIENIE I. WIADOMOŚCI I ROZUMIENIE II.KORZYSTANIE Z INFORMACJI II.KORZYSTANIE.

Modele baz danych - spojrzenie na poziom fizyczny

LIWC2001 Linguistic Inquiry and Word Count () LIWC2001 Linguistic Inquiry and Word Count (James W. Pennebaker Martha E. Francis & Roger J Booth;

Uniwersytet Jagielloński

Google – sposoby wyszukiwania

Bibliografia Geologiczna Polski Baza danych

FP-Growth Adam Pieśkiewicz Kamil Niezręcki Krzysztof Grześkowiak

Klasyfikacja dokumentów za pomocą sieci radialnych Paweł Rokoszny Emil Hornung Michał Ziober Tomasz Bilski.

Bibliotekarz – odkrywca. Agenda Proces tworzenia informacji Indeksy wyszukiwawcze Budowa rekordu w Promaxie Zapytania.

RODZAJE WYDAWNICTW INFORMACYJNYCH

Strategia skutecznego szukania informacji w Internecie

Podstawy programowania

Podstawy programowania II

IV OTWARTE MISTRZOSTWA OPOLA W PROGRAMOWANIU ZESPOŁOWYM

Algorytmy i struktury danych

Wyszukiwanie Informacji Na Stronach WWW

ENCYKLOPEDIE I SŁOWNIKI

Efektywne wyszukiwanie informacji w Internecie by Katarzyna Wilk is licensed under a Creative Commons Uznanie autorstwa-Użycie niekomercyjne-Bez utworów.

XML – eXtensible Markup Language

Present continuous tense

Rozwiązanie zadań do zaliczenia I0G1S4 // indeks

Komendy SQL do pracy z tabelami i bazami

Bazy danych - podstawowe pojęcia

Projektowanie stron WWW

Podstawy programowania

Aplikacje internetowe

Opracowała T. Głuszak Nauczyciel bibliotekarz Zespołu Szkół w Dydni.

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski 1 informatyka +

System plików.

Treści multimedialne - kodowanie, przetwarzanie, prezentacja Odtwarzanie treści multimedialnych Andrzej Majkowski informatyka +

Modelowanie Kognitywne

Encyklopedie i słowniki jako podstawowe źródło informacji Oprac

Szczęśliwego Nowego roku!!!

Najczęściej popełniane błędy formalne w pracy dyplomowej

Poznajemy zasoby internetu

Automatyczna interpretacja pytań i udzielanie odpowiedzi (Question & Answering)

Temat Prezentacji : ZNACZNIKI META TAGS wyk.H. Kozłowski.

TEMAT: ACCESS - KWERENDY.

Pętle – instrukcje powtórzeń

 Praktyczne sposoby wpisywania adresu:  pomijanie autouzupełnianie  próba samodzielnego tworzenia poprzez sprawdzanie podstawowych kombinacji.

Spotkanie 5 Poliqarp.. Znakowanie – tagging Narzędzie do znakowania – tager Znakowanie: przypisywanie jednostkom tekstowym jakichś kodów (tagów): 1. lokalizacja.

Wyszukiwanie informacji w Internecie Marcin Wojnowski.

BAZY DANYCH Microsoft Access Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i.

czas teraźniejszy ciągły

Poradnik: Polska Bibliografia Lekarska - Jak szukać literatury na wybrany temat w Bibliotece i Centrum Informacji Naukowej PMWSZ w Opolu.

Wprowadzenie do edytorów tekstu.

Egzamin gimnazjalny z języka angielskiego - poziom podstawowy.

Wstęp do Informatyki - Wykład 14

Strukturalny język zapytań SQL - historia

Próbny egzamin ÓSMOKLASISTy 2018/2019

Zapis prezentacji:

Wyszukiwanie w repozytoriach tekstowych w języku polskim inż. Maciej Klubiński Opiekun pracy: prof. dr hab. Henryk Rybiński

Plan prezentacji Sens tworzenia wyszukiwarek Budowa wyszukiwarki Zasada działania wyszukiwarki Miary jakości wyszukiwania Problemy natury językowej

Po co nam wyszukiwarki? Eksplozja informacyjna Internet jako najpopularniejszy kanał dystrybucji informacji Większość ludzkiej wiedzy zapisana jest w postaci dokumentów w języku naturalnym „Potrafimy liczyć znacznie szybciej niż na początku XX wieku, ale czy potrafimy szybciej czytać?”

Budowa wyszukiwarki tułów -> repozytorium dokumentów, korpusy, zbiory danych, sieć WWW serce -> indekser głowa -> moduł budowy zapytań mózg -> moduł wyszukujący

Jak zbudować indeks? (1/7) Rozpoznanie języka Na podstawie: unikalnych dla danego języka ciągów znaków (np. eux - Francuski, cchi - Włoski, der - Niemiecki) występowanie określonych znaków np. ü - Niemiecki, ć - Polski wykorzystując cechy składniowe sylab danego języka wykorzystanie rozkładu prawdopodobieństwa występowania liter oraz dłuższych ciągów znaków (n-gramów) porównywanie dokumentów ze słowami ze stop-listy

Jak zbudować indeks? (2/7) Tokenizacja Podział tekstu na: akapity zdania -> język chiński, znaki interpunkcyjne wyrażenia (związki frazeologiczne) słowa –> skróty, apostrof, myślnik wybór termów – Prawo Zipfa Jeżeli weźmiemy wystarczający zbiór dokumentów z typowymi angielskimi słowami i posortujemy te słowa według częstości występowania, to iloczyn częstości występowania słowa i numeru w tym uporządkowaniu będzie stały.

Jak zbudować indeks? (3/7) Usunięcie STOP WORDS – 30% wszystkich słów a, an, and, are, as, at, be, but, by, for, if, in, into, is, it, no, not, of, on, or, such, that, the, their, then, there, these, they, this, to, was, will, with a, aby, ale, bardziej, bardzo, bez, bo, bowiem, był, była, było, były, będzie, co, czy, czyli, dla, dlatego, do, gdy, gdzie, go, i, ich, im, innych, iż, jak, jako, jednak, jego, jej, jest, jeszcze, jeśli, już, kiedy, kilka, która, które, którego, której, który, których, którym, którzy, lub, ma, mi, między, mnie, mogą, może, można, na, nad, nam, nas, naszego, naszych, nawet, nich, nie, nim, niż, o, od, oraz, po, pod, poza, przed, przede, przez, przy, również, się, sobie, swoje, są, ta, tak, takie, także, tam, te, tego, tej, ten, też, to, tu, tych, tylko, tym, u, w, we, wiele, wielu, więc, wszystkich, wszystkim, wszystko, właśnie, z, za, zawsze, ze, że

Jak zbudować indeks? (4/7) Stemming Trzy podejścia: stemmer algorytmiczny Pierwszy skuteczny algorytm dla angielskiego - Lovin’s stemmer (1968) – stemmer jednoprzebiegowy, wykorzystujący tablicę 250 możliwych podstawień końcówek oraz dodatkowy etap postprocessingu – był projektowany jako uniwersalny Obecnie najpopularniejszy stemmer – Porter’s stemmer, specjalizowany dla IR, wieloprzebiegowy, nie generuje poprawnych językowo rdzeni Inne – Krovets (1993) – trójprzebiegowy stemmer wyłącznie fleksyjny, Dawson (1974) – poprawiona wersja stemmera Lovins, zawiera tablicę 1200 podstawień, Paice/Husk (1990) – stemmer oparty na dopasowywaniu reguł, nie ma ograniczenia na liczbę kroków podstawień

Jak zbudować indeks? (5/7) Stemming stemmer słownikowy wykorzystuje słownik zawierający znaczną liczbę różnych form gramatycznych poszczególnych słów oraz odpowiadającej każdej z nich formę podstawową (lemat lub rdzeń) bezbłędne znajdywanie rdzeni słów zawartych w słowniku brak wyników w przypadku, gdy słowa w słowniku brakuje konieczność przechowywania i przeszukiwania słownika o dużych rozmiarach stemmer mieszany (hybrydowy) dla słów występujących w słowniku – stemmer słownikowy dla słów spoza słownika – stemmer algorytmiczny i próba dopasowania rdzenia do rdzeni zesłownikowanych w przypadku poprawnej klasyfikacji – uzupełnienie słownika

Jak zbudować indeks? (6/7) Usuwanie synonimów - użycie tezaurusa Zastąpienie terminów bardziej ogólnymi - np. pies -> ssak (użycie ontologii) Rozbijanie zlepków wyrazowych - np. nazw chemicznych, związków frazeologicznych Obliczanie wag dla słów kluczowych - np. miejsce wystąpienia słowa w tytule, streszczeniu, bibliografii

Jak zbudować indeks? (7/7) Tworzenie indeksu o czym trzeba pamiętać? – częste przeszukiwanie, rozmiar fizyczny, szybki i bezpośredni dostęp co zapamiętać? – id dokumentu, klucz (słowo, leksem, rdzeń), położenie w tekście, położenie fizyczne (adres URL), częstość występowania słowa, słowo po inwersji, … jak zorganizować? – budowa logiczna (podział na rekordy, segmentacja itp.), sortowanie alfabetyczne (statystyczne, częstotliwościowe), optymalizacja, kompresja jak przeszukiwać? – zależnie od organizacji danych w indeksie, byle szybko i wydajnie 

Jak szukać? po słowach kluczowych Boolowskie (zbiory odwrócone) koncepcyjne (tezaurus) szukanie frazy szukanie z określeniem odległości pomiędzy słowami szukanie z zastosowaniem masek szukanie dokumentów podobnych do już znalezionych szukanie dokumentów po statystykach odwiedzin inne

Miary jakości wyszukiwania Legenda ds - znalezione dokumenty przez system dr - dokumenty w bazie uznane za relewantne (arbitralnie) DB - liczebność bazy danych precyzja – wyszukane relewantne do znalezionych (|ds  dr|) / |ds| odzysk – wyszukane relewantne do relewantnych (|ds  dr|) / |dr| dokładność – uznane za nierelewantne do wszystkich (|ds  dr| + |DB – (ds  dr )|) / |DB| szum – wyszukane nierelewantne do wszystkich nierelewantnych |ds - dr| / |DB –dr|

Problemy Fleksja – np. umią zamiast umieją Pojęcia wielowyrazowe – np. kwas dezoksyrybonukleinowy Homonimia – np. ranny (zraniony, o poranku), zamek (budowla, mechanizm w drzwiach, suwak) Synonimia – np. problem, zagadnienie, zadanie Niezgodność semantyki słów z semantyką tekstu (brak analizy składniowej i semantycznej) – np. potoczne określenie policjanta i radiowozu, „zakręcony jak słoik na zimę”  Błędy ortograficzne Swobodna składnia – np. Wczoraj kupiłem auto, Kupiłem wczoraj auto, Kupiłem auto wczoraj

Pytania? Dziękuję za uwagę.

Co robię w ramach pracy mgr? używam Apache Lucene buduję polski stemmer hybrydowy implementuję moduł do analizy tekstów w języku polskim przeprowadzam testy dla różnych rozwiązań postać i zawartość indeksu modyfikacja zapytań wykorzystanie słownika w stemmingu

Pytania? Dziękuję za uwagę.