Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej,

Slides:



Advertisements
Podobne prezentacje
Temat 2: Podstawy programowania Algorytmy – 1 z 2 _________________________________________________________________________________________________________________.
Advertisements

Proces doboru próby. Badana populacja – (zbiorowość generalna, populacja generalna) ogół rzeczywistych jednostek, o których chcemy uzyskać informacje.
Największy potencjał gruntów inwestycyjnych w ofercie ANR Leszek Świętochowski Prezes ANR Warszawa, 15 kwietnia 2015 roku.
1 FRAZEOTRANSLACJA ORAZ JEJ ZNACZENIE W KSZTAŁCENIU I DOSKONALENIU TŁUMACZY MONIKA SUŁKOWSKA Instytut Języków Romańskich i Translatoryki Uniwersytet Śląski,
1 Relacje między jednostkami języka Monika Sułkowska.
Ekonometria WYKŁAD 10 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
1 Mój sposób na efektywną naukę Opracowała: Agnieszka Terebus studentka V roku Akademii Pedagogiki Specjalnej w Warszawie na kierunkach: Pedagogika Zdolności.
Modele biznesowe. Podręcznik Model biznesowy to w pewnym sensie szkic strategii, która ma zostać wdrożona w ramach struktur, procesów i systemów organizacji.
PRZYKŁADY WEBQUESTÓW DLA KLAS I – III SZKOŁY PODSTAWOWEJ „Cztery pory roku” Projekt „Razem i osobno” Stowarzyszenie Nauczycieli Edukacji Początkowej Projekt.
1 Dr Galina Cariowa. 2 Legenda Iteracyjne układy kombinacyjne Sumatory binarne Sumatory - substraktory binarne Funkcje i układy arytmetyczne Układy mnożące.
PROSTE ZASADY NA ODPADY Magdalena Mirosław kl IIIB.
Ekonometria stosowana WYKŁAD 4 Piotr Ciżkowicz Katedra Międzynarodowych Studiów Porównawczych.
Tworzenie odwołania zewnętrznego (łącza) do zakresu komórek w innym skoroszycie Możliwości efektywnego stosowania odwołań zewnętrznych Odwołania zewnętrzne.
Stężenia Określają wzajemne ilości substancji wymieszanych ze sobą. Gdy substancje tworzą jednolite fazy to nazywa się je roztworami (np. roztwór cukru.
Mirek Ostrowski, Radio Wrocław SA Radio hybrydowe wprowadzenie.
Wyszukiwanie informacji w Internecie. Czym jest wyszukiwarka? INTERNET ZASOBY ZAINDEKSOWANE PRZEZ WYSZUKIWARKI Wyszukiwarka to mechanizm, który za pomocą.
Umowy Partnerskie w projektach zbiór najważniejszych składników Uwaga! Poniżej znajdują się jedynie praktyczne wskazówki dotyczące tworzenia umów. Dokładne.
POZYCJA – USYTUOWANIE SĘDZIEGO NA POLU GRY. Marek Kowalczyk Przewodniczący Centralnej Komisji Szkoleniowej KS PZPN Luty 2005.
Ćwiczenia Zarządzanie Ryzykiem Renata Karkowska, ćwiczenia „Zarządzanie ryzykiem” 1.
Mam prawo do ochrony swoich danych osobowych Twoje dane – Twoja sprawa. Skuteczna ochrona danych osobowych. Inicjatywa edukacyjna skierowana do nauczycieli.
EWALUACJA PROJEKTU WSPÓŁFINANSOWANEGO ZE ŚRODKÓW UNII EUROPEJSKIE J „Wyrównywanie dysproporcji w dostępie do przedszkoli dzieci z terenów wiejskich, w.
Nadleśnictwo Wichrowo. Adres : Wichrowo 2, Dobre Miasto (województwo warmińsko - mazurskie ). Przynależność : Regionalna Dyrekcja Lasów Państwowych.
Zastosowania Słowosieci i systemu zasobów leksykalnych
 Normy prawne dotyczące rozpowszechniania programów komputerowych Normy prawne dotyczące rozpowszechniania programów komputerowych  Formy ograniczeń.
Jak świadomie budować markę osobistą?. Agenda Definicja Wstęp do budowania marki Formułowanie strategii marki Narzędzia budowania marki Monitoring działań.
EWALUACJA JAKO ISTOTNY ELEMENT PROJEKTÓW SYSTEMOWYCH Sonia Rzeczkowska.
Zmienne losowe Zmienne losowe oznacza się dużymi literami alfabetu łacińskiego, na przykład X, Y, Z. Natomiast wartości jakie one przyjmują odpowiednio.
Co to jest jakość? Rozumienie, definiowanie i ocena jakości.
OPTYMALNY CEL I PODSTAWY ROZWOJU SZKOŁY. PRZEDE WSZYSTKIM DZISIEJSZA SZKOŁA POWINNA PRZYGOTOWYWAĆ DO ŻYCIA W DRUGIEJ POŁOWIE XXI WIEKU.
Analiza tendencji centralnej „Człowiek – najlepsza inwestycja”
CLARIN-PL Słowosieć i enWordNet – duże leksykalne sieci semantyczne i ich zastosowania Marek Maziarz, Maciej Piasecki, Ewa Rudnicka, Politechnika Wrocławska.
© Prof. Antoni Kozioł, Wydział Chemiczny Politechniki Wrocławskiej MATEMATYCZNE MODELOWANIE PROCESÓW BIOTECHNOLOGICZNYCH Prezentacja – 4 Matematyczne opracowywanie.
Michał Nowiński 1D.  Czym jest komunikacja? Czym jest komunikacja?  Wybrane rodzaje komunikacji Wybrane rodzaje komunikacji  Komunikacja człowieka.
Źródła informacji. Społeczeństwo informacyjne społeczeństwo charakteryzujące się przygotowaniem i zdolnością do użytkowania systemów informatycznych,
STYLE FUNKCJONALNE.
- nie ma własnego kształtu, wlana do naczynia przybiera jego kształt, - ma swoją objętość, którą trudno jest zmienić tzn. są mało ściśliwe (zamarzając.
KOMBINATORYKA.
Metody Analizy Danych Doświadczalnych Wykład 9 ”Estymacja parametryczna”
Analiza spektralna. Laser i jego zastosowanie.
WYKŁAD 6 Regionalizacja 1. Regionalizm a regionalizacja 2 Proces wyodrębniania regionów nazywany jest regionalizacją, w odróżnieniu od regionalizmu, który.
BADANIA STATYSTYCZNE. WARUNKI BADANIA STATYSTYCZNEGO musi dotyczyć zbiorowościstatystycznej musi określać prawidłowościcharakteryzujące całą zbiorowość.
Teoria masowej obsługi Michał Suchanek Katedra Ekonomiki i Funkcjonowania Przedsiębiorstw Transportowych.
Komunikatory Zespół Szkół Zawodowych Nr 3 im. Adama Kocura w Katowicach - Janowie.
W społeczności ludzkiej i zwierzęcej funkcjonują rozmaite systemy znaków, za pomocą których jednostka nawiązuje więź z gromadą i przekazuje jej informacje.
Opis przymiotnika i przysłówka w Słowosieci Marek Maziarz *, Maciej Piasecki*, Stanisław Szpakowicz #, Justyna Wieczorek *, Michał Kaliński * * Katedra.
Zarządzanie startupem internetowym Michał Burda, Michał Łuszczek, Agnieszka Gajownik.
Metody sztucznej inteligencji - Technologie rozmyte i neuronowe 2015/2016 Perceptrony proste nieliniowe i wielowarstwowe © Kazimierz Duzinkiewicz, dr hab.
Symbol a alegoria.
BURZA MÓZGÓW  Pierwszym etapem w pracy nad filmem były długie godziny rozmyślań nad doświadczeniem, które by nas naprawdę zaciekawiło i spełniało wymogi.
Każdy człowiek ma prawo do... - problem łamania praw człowieka w Azji.
CLARIN-PL System do wydobywania z korpusów kolokacji i konstruowania słowników frazeologicznych i słowników terminów Marek Maziarz, Maciej Piasecki, Michał.
Zapożyczenia w języku polskim
O ascezie i ascetach. 1.Prawidłowa definicja ascezy to: a. cienkie płaty drewna lub innego materiału służące do oklejania wyrobów stolarskich b. charakterystyczna.
Pojęcia związane z antydyskryminacją
Poglądy Materia jest niezniszczalna i wieczna, wszystko składa się z atomów wszystko składa się z atomów i próżni, atomy mają pewną swobodę i próżni,
O PARADOKSIE BRAESSA Zbigniew Świtalski Paweł Skałecki Wydział Matematyki, Informatyki i Ekonometrii Uniwersytet Zielonogórski Zakopane 2016.
Najczęściej popełniane błędy językowe
System wspomagania decyzji DSS do wyznaczania matematycznego modelu zmiennej nieobserwowalnej dr inż. Tomasz Janiczek.
terminologia, skale pomiarowe, przykłady
„Prawa Ceteris Paribus i socjo-ekonomiczne mechanizmy”
CEL: - Osiągnąć równość płci oraz wzmocnić pozycję kobiet
Tornister Warto zauważyć, że problem przeciążonych tornistrów szkolnych wynika  z kilku przyczyn: - Dzieci często noszą w plecakach więcej podręczników.
ALGORYTMY I STRUKTURY DANYCH
Porównywanie średnich prób o rozkładach normalnych (testy t-studenta)
ETO w Inżynierii Chemicznej
Implementacja rekurencji w języku Haskell
Zapis prezentacji:

Leksykalność połączeń wyrazowych w Słowosieci Marek Maziarz *, Stan Szpakowicz #, Maciej Piasecki * * Katedra Inteligencji Obliczeniowej Politechniki Wrocławskiej, Wrocław, Polska # School of Electrical Engineering and Computer Science University of Ottawa, Ottawa, Ontario, Canada Politechnika Wrocławska

Plan prezentacji Politechnika Wrocławska

1.Definicja leksykalności połączeń wyrazowych 2.Intuicyjna definicja wielowyrazowych jednostek 3.Drzewa decyzyjne i ewaluacja naszej procedury 4.Wnioski Plan prezentacji Politechnika Wrocławska

Wielowyrazowe jednostki leksykalne Politechnika Wrocławska

Wielowyrazowe jednostki leksykalne Cel: rozbudowa Słowosieci o jednostki wielowyrazowe Kiedy połączenia słów stają się jednostkami języka? pies Marka versus maszyna do szycia  Politechnika Wrocławska

Wiele definicji i liczne kryteria Ograniczenia oraz leksykalizacja Perspektywa ograniczeń: ograniczenia składniowe, semantyczne, zakresu stylistycznego, pragmatyczne Wielowyrazowe jednostki leksykalne ‛Wielowyrazowe jednostki leksykalne odznaczają się niekiedy specjalnymi formalnymi i gramatycznymi własnościami. Na przykład, nie ma przedrostka w angielskich ustalonych połączeniach takich jak at hand, by heart.’ Zgusta, Manual of Lexicography, 2009 Politechnika Wrocławska 

Leksykalizacja = proces przechodzenia połączeń wyrazowych do mentalnego słownika Wielowyrazowe jednostki leksykalne ‛Podstawową przesłanką za przyznaniem statusu leksemu połączeniu wyrazowemu jest to, że uległo ona jakiegoś rodzaju leksykalizacji, tzn. że zostało umieszczone w naszym mentalnym słowniku jako jednostka. Svensén, Handbook of Lexicography, 2009 Politechnika Wrocławska 

Definicja intuicyjna Politechnika Wrocławska

Wielowyrazowa jednostka leksykalna = wyrażenie zbudowane z więcej niż jednego słowa, pełniące funkcję którejś części mowy, powiązane z określonym znaczeniem i w jakiś sposób przechowywane w mentalnym słowniku człowieka i odtwarzane w sposób natychmiastowy z pamięci jako całość Definicja intuicyjna Politechnika Wrocławska 

14 lingwistów (edytorów Słowosieci) Definicja intuicyjna 129 monosemicznych połączeń wyrazowych maszyna do szycia, pies Marka Tak, Nie, Nie wiem Politechnika Wrocławska 

Tak ( WJL ), Nie (nie-WJL ), Nie wiem maszyna do szycia Lingwista # decyzjaTTTTNTTTTTTTTT pies Marka Lingwista # decyzjaNNNNNNNNNNNNNN Definicja intuicyjna Politechnika Wrocławska 

maszyna do szycia Lingwista # decyzja pies Marka Lingwista # decyzja Definicja intuicyjna Politechnika Wrocławska 

maszyna do szycia Lingwista # decyzja suma13 pies Marka Lingwista # decyzja suma Definicja intuicyjna Politechnika Wrocławska 

suma decyzji zbiór zrównoważony Definicja intuicyjna częstość Histogram sum Politechnika Wrocławska 

bootstrapowe przedziały ufności, B = 10000, α = 5% kappa powinna być > 0.67, a najlepiej > 0.8. We do not omit least certain choices Definicja intuicyjna Politechnika Wrocławska 

 Omijamy najmniej pewne przypadki Sum of decisions suma decyzji Histogram sum częstość Definicja intuicyjna Politechnika Wrocławska 

Definicja intuicyjna bootstrapowe przedziały ufności, B = 10000, α = 5% Sum of decisions suma decyzji Histogram sum częstość Politechnika Wrocławska 

Politechnika Wrocławska  Definicja intuicyjna

Politechnika Wrocławska  Kryteria a leksykalność kryteria leksykograficzne suma decyzji

Sadzenie drzew Politechnika Wrocławska

Pomysł A.Przygotuj listy połączeń wyrazowych do oceny. B.Poproś kilkunastu lingwistów, by zaanotowali listy zgodnie z ich intuicją. C.Wybierz innych lingwistów i poproś ich o zaanotowanie list zgodnie z kryteriami frazeologicznymi. D.Poproś sztuczną inteligencję (Weka), by stworzyła drzewo decyzyjne (procedurę). E.Oceń procedurę, dając ją znowu lingwistom. Sadzenie drzew Politechnika Wrocławska 

Trzy listy połączeń wyrazowych L1-varia – 129 różnorodnych połączeń L2-plWN – 200 połączeń ze Słowosieci (próba losowa prosta) L3-kolNA – 200 połączeń typu rzeczownik + przymiotnik (najlepsze 10 tys. kolokacji z korpusu, próba losowa prosta) Sadzenie drzew Politechnika Wrocławska

Drzewo TP ✔ ✘ PAR TERM ✔ ✘ WJL ~WJL ✔ ✘ SEP KIPI > PAR TERM ✔ ✘ ✔ ✘ WJL ~WJL WJL SZU KIPI > ✔ ✘ SEP KIPI > ✔ ✘ WJL ~WJL Typ NA? ✔ ✘ ~WJL Drzewo TP-c separowalność szyk ustalony terminologia wielowyrazowiec luźne połączenie wyrazowe separowalność parafrazowalność rzecz. + przym.? Politechnika Wrocławska

Definicja intuicyjna – zbiory L1 i L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska 

Ocena na zbiorze L1 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska 

Ocena na zbiorze L3 miara F 1 Skuteczność procedury miara F 1 Politechnika Wrocławska 

kappa kappa Cohena Politechnika Wrocławska 

kappa kappa Cohena Zgodność lingwistów korzystających tylko z definicji intuicyjnej Politechnika Wrocławska 

kappa kappa Cohena Ocena na zbiorze L1 (varia) Politechnika Wrocławska 

kappa kappa Cohena Ocena na zbiorze L2 (Słowosieć) Politechnika Wrocławska 

kappa kappa Cohena Ocena na zbiorze L3 (kolokacje typu NA) Politechnika Wrocławska 

Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej

Ocena na zbiorze L3 uśrednione decyzje lingwistów korzystających z procedury Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń suma decyzji lingwistów oceniających wg definicji intuicyjnej WJL nie-WJL Nie – Nie wiem - Tak

Ocena na zbiorze L3 wielowyrazowce luźne połączenia uśrednione decyzje lingwistów korzystających z procedury suma decyzji lingwistów oceniających wg definicji intuicyjnej Skuteczność procedury w odróżnianiu wielowyrazowców od luźnych połączeń

Wnioski Politechnika Wrocławska

Wnioski 1.Udało nam się stworzyć efektywną procedurę. 2.Procedura daje słownik wysokiej jakości. 3.Drzewo decyzyjne zostało na stałe wpisane do wytycznych dla lingwistów. 4.Dzięki tym wytycznym zaanotowaliśmy już 55 tys. połączeń wyrazowych. Politechnika Wrocławska 

Dziękujemy za uwagę! ☺ Politechnika Wrocławska

Appendix Politechnika Wrocławska