Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

JASNOPIS, czyli narzędzie do mierzenia zrozumiałości polskich tekstów Włodzimierz Gruszczyński (SWPS) Bartosz Broda (Samsung) Projekt jest współfinansowany.

Podobne prezentacje


Prezentacja na temat: "JASNOPIS, czyli narzędzie do mierzenia zrozumiałości polskich tekstów Włodzimierz Gruszczyński (SWPS) Bartosz Broda (Samsung) Projekt jest współfinansowany."— Zapis prezentacji:

1 JASNOPIS, czyli narzędzie do mierzenia zrozumiałości polskich tekstów Włodzimierz Gruszczyński (SWPS) Bartosz Broda (Samsung) Projekt jest współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego

2 JASNOPIS Narzędzie informatyczne służące do oceniania tekstów pod względem trudności językowej dostępne bezpłatnie w Internecie pod adresem jasnopis.pl. Nie wymaga żadnego dodatkowego oprogramowania ani wiedzy informatycznej lub lingwistycznej. Oprócz wyników łatwych do interpretacji podaje także informacje statystyczne przydatne bardziej zaawansowanym użytkownikom. Planowane jest udostępnienie tzw. wtyczek (plug-in) umożliwiających korzystanie z Jasnopisu w czasie pracy za pomocą programów MS Word i Open Office. jasnopis.pl

3 FINANSOWANIE PROJEKTU
Projekt badawczy: Mierzenie stopnia zrozumiałości polskich tekstów użytkowych (pozaliterackich) Finansowany przez Narodowe Centrum Nauki na podstawie DEC-2011/03/B/HS2/05799 z dn Planowany okres realizacji: 24 mies. ( – ) Przedłużony okres realizacji: do Środki finansowe: ,00 PLN. Jednostka koordynująca: Wydział Nauk Humanistycznych i Społecznych SWPS. Jednostka współpracująca: Instytut Podstaw Informatyki PAN. jasnopis.pl

4 ZESPÓŁ REALIZUJĄCY PROJEKT
Włodzimierz Gruszczyński (kierownik, SWPS) Bartosz Broda (IPI PAN) Edyta Charzyńska (UŚ) Łukasz Dębowski (IPI PAN) Milena Hadryan (UAM) Bartłomiej Nitoń (IPI PAN) Maciej Ogrodniczuk (IPI PAN) Grażyna Oblas (UW) Laura Polkowska (UKSW) studentki, studenci, koleżanki, koledzy, którzy podjęli trud przeprowadzania ankiet. jasnopis.pl

5 CELE PROJEKTU Ustalenie cech tekstu, które mają wpływ na jego zrozumiałość (ang. readability), przy założeniu, że badania ograniczają się w znacznym stopniu do językowych cech powierzchniowych: gramatycznych (fleksja, składnia); leksykalnych (dobór wyrazów). Stworzenie narzędzia informatycznego służącego do mierzenia stopnia zrozumiałości tekstu, a w szczególności: do obliczania wskaźnika czytelności badanego tekstu i ustalania tych jego cech, które odpowiadają za zbyt duży stopień trudności (np. wskazanie trudnych wyrazów, zbyt skomplikowanych zdań, zbyt długich ciągów dopełniaczowych itp.); umieszczanie wyniku na skali wypracowanej w ramach projektu m.in. za pomocą metod psycholingwistycznych. jasnopis.pl

6 MOTYWACJA (1) Istnienie zbyt trudnych tekstów w przestrzeni publicznej
Instrukcje obsługi różnych urządzeń, m.in. instrukcje bhp. Ulotki dołączane do farmaceutyków i kosmetyków. Akty prawne, np. przepisy podatkowe. Pisma urzędowe, zwłaszcza pisma kierowane do obywateli. Teksty umów bankowych, agencji turystycznych itp. Teksty „unijne”, np. o funduszach europejskich, o finansowaniu badań itp. Niektóre teksty medialne. Niektóre podręczniki szkolne. Dodać slajd(y) z przykładami tekstów trudnych. jasnopis.pl

7 Przykład (1) Decyzja Miejskiego Ośrodka Pomocy Rodzinie
Miejski Ośrodek Pomocy Rodzinie podwyższa dodatek do zasiłku rodzinnego z tytułu wychowywania dziecka w rodzinie wielodzietnej na dzieci: Jadwigę B., Wandę B., i Ignacego B. o kwotę 100,- zł miesięcznie od 1 września 2007 do 31 sierpnia Podwyższony dodatek w całkowitej wysokości 180,- zł miesięcznie na każde z wymienionych dzieci będzie Pani otrzymywać w okresie od do Uzasadnienie: Na Pani wniosek z dnia przyznano Pani dodatek do zasiłku rodzinnego z tytułu wychowania dziecka w rodzinie wielodzietnej w wysokości 80 zł miesięcznie w okresie od do na troje dzieci: Jadwigę, Wandę i Ignacego – decyzja z dn. … Dodatek ten podniesiono na podstawie Uchwały Rady Miasta CIII/1198/IV/2006 … o kwotę 100 zł na trzecie i następne dzieci uprawnione do zasiłku rodzinnego. Podwyższony podatek finansowany będzie ze środków własnych gminy… Dodać slajd(y) z przykładami tekstów trudnych. jasnopis.pl

8 Przykład (2) Fragment informacji z UE dla prasy
Panel wysokiego szczebla – powołany w celu doradzania Komisji Europejskiej w zakresie funkcjonowania wspólnego programu Ambient Assisted Living (wspólny program w zakresie życia wspieranego przez otoczenie) – rozpoczął konsultacje, w ramach których poproszono obywateli, przedsiębiorstwa oraz naukowców o podzielenie się pomysłami, jak najlepiej wykorzystać technologie informacyjne i komunikacyjne (TIK), aby pomóc osobom starszym w bardziej niezależnym życiu, a w szerszym ujęciu, aby ustanowić nowe sposoby wykorzystania rozwiązań TIK na rzecz najsłabszych członków społeczeństwa. Panelowi przewodniczy była komisarz europejska Meglena Kunewa. Konsultacje publiczne stanowią pierwszy krok w kierunku osiągnięcia celu wyznaczonego przez agendę cyfrową (zob. IP/10/581), jakim jest podwojenie do 2015 r. liczby osób starszych korzystających z udogodnień umożliwiających niezależne życie. Dodać slajd(y) z przykładami tekstów trudnych. jasnopis.pl

9 Przykład Fragment uzasadnienia wyroku sądowego
Działający z upoważnienia wnioskodawcy – Dyrektor Zarządzający – Prokurent T. P. zaproponował aby ustalenie przebiegu granicy nastąpiło po rozstrzygnięciu sprawy prowadzonej w Sądzie Okręgowym do sygn. [...] z wniosku skarżącego o wydanie nieruchomości. Podniesiono, że w odpowiedzi na zapytania skarżącego o zaawansowanie prac, informowano skarżącego pismami, które są w aktach, że zakończenie postępowania rozgraniczeniowego warunkowane jest dostarczeniem przez Geodetę dokumentów, które w pierwszej kolejności posłużą do wydania przez Wójta Gminy opinii w trybie art. 33 ust. 2 pkt 1 ustawy z dnia 17 maja 1989 r. Prawo Geodezyjne i Kartograficzne. Po uzyskaniu tej opinii i przyjęciu dokumentów do powiatowego zasobu dokumentacji geodezyjnej i kartograficznej prowadzonego przez Starostę Powiatowego, dokumentacja będzie zdatna do wydania decyzji w przedmiocie rozgraniczenia. Dodać slajd(y) z przykładami tekstów trudnych. jasnopis.pl

10 MOTYWACJA (2) Zwiększająca się świadomość społeczna i dążenie do zmian
Zainicjowanie kampanii społecznej „Język urzędowy przyjazny obywatelom” przez Biuro Rzecznika Praw Obywatelskich. Działania takich urzędów, jak Ministerstwo Rozwoju Regionalnego, Ministerstwo Finansów, Ministerstwo Administracji i Cyfryzacji, Agencja Rozwoju Przedsiębiorczości, ZUS. Urzędowy wymóg sprawdzania czytelności tekstów, np.: rozporządzenie Ministra Zdrowia z 26 kwietnia 2010 r. w sprawie badania czytelności ulotek dołączanych do lekarstw; poradnik MEN dla rzeczoznawców oceniających podręczniki szkolne zawierający wymóg sprawdzania, czy stopień trudności tekstu odpowiada możliwościom percepcyjnym ucznia. Powstanie Pracowni Prostej Polszczyzny i Ruchu Prostego Języka na Uniwersytecie Wrocławskim. jasnopis.pl

11 MOTYWACJA (3) Zapotrzebowanie na wiarygodne i wygodne narzędzie
Potrzeba narzędzia umożliwiającego sprawdzenie stopnia trudności tekstu metodą, która jest obiektywna, jest szybka, została zweryfikowana za pomocą badań empirycznych, jest w pełni dostosowana do cech języka polskiego, daje dla porównania również wyniki obliczane według innych znanych sposobów. jasnopis.pl

12 CO BYŁO PRZED JASNOPISEM?
CZYLI STAN BADAŃ I ISTNIEJĄCE NARZĘDZIA Na świecie Powstało wiele metod sprawdzających czytelność tekstów, powstały też narzędzia informatyczne służące do tego celu (głównie dla języka angielskiego). W niektórych krajach sprawdza się stopień zrozumiałości tekstów, które mają funkcjonować w przestrzeni publicznej , np.: w USA w wielu urzędach istnieje wymóg sprawdzania tekstów pod względem czytelności przed ich przekazaniem odbiorcom; w Szwecji od kilkunastu lat wdrażany jest program klarspråk, czyli „jasny język”, dzięki czemu udało się wyprzeć z urzędów typowy ciężki styl kancelaryjny. Trwają badania nad metodami upraszczania tekstów, w tym także upraszczania automatycznego. Zrobi© osobny slajd o sytuacji w USA i Szwecji. jasnopis.pl

13 CO BYŁO PRZED JASNOPISEM?
CZYLI STAN BADAŃ I ISTNIEJĄCE NARZĘDZIA W Polsce: W latach 60. Walery Pisarek stworzył i opublikował wzór, pozwalający obliczyć współczynnik trudności tekstu polskiego; wzór znany był przede wszystkim w środowiskach dziennikarzy: Stanisław Gajda podjął próby obliczania stopnia trudności tekstów naukowych (1990). W ostatnich latach w Pracowni Prostej Polszczyzny opracowano i udostępniono w Internecie narzędzie LOGIOS obliczające indeks mglistości dla polskiego tekstu : W Internecie można znaleźć programy, które obliczają indeks mglistości, zazwyczaj sprowadzają się do wykorzystania wzoru Gunniga oraz jakiegoś ogólnie dostępnego algorytmu dzielącego polskie wyrazy na sylaby, por. np.: Zrobi© osobny slajd o sytuacji w USA i Szwecji. jasnopis.pl

14 PROBLEM WYJŚCIOWY CO TO ZNACZY „(Z)ROZUMIEĆ TEKST”?
Trudności z definicją. W słownikach często spotyka się błędne koło: „rozumieć tekst” – to ‘pojmować treść przekazywanej w nim informacji’, „pojmować” – to ‘ogarniać rozumem, rozumieć’… Czy można ten sam tekst różnie rozumieć? Zrobi© osobny slajd o sytuacji w USA i Szwecji. jasnopis.pl

15 Model rozumienia tekstu
Rand Reading Study Group, 2002 jasnopis.pl

16 Właściwości tekstu mogące mieć wpływ na jego zrozumiałość
Cechy (typo)graficzne: stopień i krój liter, kolor(y) druku; rozmieszczenie tekstu, ilość światła itp. ilustracje, wykresy (infografika). Kompozycja tekstu: zgodność z wzorcem gatunkowym, kolejność informacji. Cechy pragmatyczne: stopień oficjalności, styl (potoczny czy urzędowy, naukowy, inny), sposób zwracania się do odbiorcy (ty, wy, pan(i), państwo, inne, formy bezosobowe) sposób nazywania nadawcy (ja, my, nazwa instytucji, brak). Dobór słownictwa. Składnia. Interpunkcja i ortografia. Intencja autora. jasnopis.pl

17 Jak posługiwać się Jasnopisem? Wprowadzanie tekstu i wybór konfiguracji
jasnopis.pl

18 Jak posługiwać się Jasnopisem
Jak posługiwać się Jasnopisem? Podstawowy wynik dla tekstu o wskazanym URL jasnopis.pl

19 Jak JASNOPIS oblicza wynik(i)? Analiza tekstu w języku polskim
Ekstrakcja tekstu Dokument <p> narzędzie do mierzenia zrozumiałości </p> Analiza morfologiczna Analiza morfo-syntaktyczna Indeksy Klasa trudności: 4,0 FOG-Base: 11,6 FOG-Orth: 11,6 L-Pisarek-Base: 10,67 L-Pisarek-Orth: 10,67 jasnopis.pl

20 Jak powstał wzór do obliczania klasy trudności?
Przygotowaliśmy 35 tekstów o zróżnicowanej trudności (7 klas trudności a priori po 5 tekstów w każdej z klas). Przeprowadziliśmy badania psychologiczne, za pomocą których sprawdziliśmy, w jakim stopniu teksty te są rozumiane przez czytelników (próba to ponad 1500 osób, test cloze + test pytań otwartych). Wyodrębniliśmy kilkadziesiąt zmiennych lingwistycznych przypuszczalnie skorelowanych z trudnością tekstu, np. długość zdania, długość słowa, procent rzeczowników… Za pomocą programu komputerowego wyznaczyliśmy wartości liczbowe tych zmiennych dla danych 35 tekstów. Za pomocą metod statystycznych skonstruowany został wzór. jasnopis.pl

21 Cechy wzoru Skonstruowany został wzór na trudność tekstu, którego maksymalny błąd predykcji (przewidywania) jest trzy razy mniejszy niż modelu odniesienia (w którym trudność tekstu nie zależy od cech tekstu), a dwa razy mniejszy niż wzoru Pisarka. Wzór jest zbyt skomplikowany, by za jego pomocą wynik obliczać „ręcznie”, ale jest prosty do zaimplementowania w programie komputerowym. jasnopis.pl

22 Cechy językowe uwzględnione przy tworzeniu wzoru wyliczającego klasy trudności
- średnia długość zdania; - procent słów trudnych; - procent rzeczowników; - procent rzeczowników trudnych; - procent czasowników; - procent czasowników trudnych; - procent przymiotników; - procent przymiotników trudnych; - stosunek rzeczowników do czasowników; - średnia długość akapitu w słowach; - średnia długość słowa (w sylab.); - średnia długość łańcucha; - liczba czasowniki w formie bezosobowej; - liczba gerundiów; - liczba imiesłowów; - liczba rzeczowników na -ość; - liczba słów trudnych (4+ sylaby); - liczba trudnych bez listy Imiołczyka; - trudne - Imiołczyk i 300M(1%); - trudne - Imiołczyk i 300M(2%); - trudne - Imiołczyk i 300M(3%); - trudne - Imiołczyk i 300M(4%); - trudne - Imiołczyk i 300M(5%); - trudne - Imiołczyk i 300M(6%); - trudne - Imiołczyk i 300M(7%); - trudne - Imiołczyk i 300M(8%); - trudne - Imiołczyk i 300M(9%); - trudne - Imiołczyk i 300M(10%); - trudne - Imiołczyk i 300M(15%); - trudne - Imiołczyk i 300M(20%); - trudne - Imiołczyk i 300M(30%); - liczba dopełniaczy. jasnopis.pl

23 Wzór na trudność tekstu
Klasa = 12:25 ‒ 4,12 *Ridge Ridge = 2:7 ‒ 0:0034 *(średnia długość zdania) ‒ 0:0027 *(procent słów trudnych) + 0:0026 *(procent rzeczowników) ‒ 0:0044 *(procent rzeczowników trudnych) + 0:0037 *(procent czasowników) + 0:0053 *(procent czasowników trudnych) ‒ 0:00043 *(średnia długość akapitu) ‒ 0:013 *(średnia długość łańcucha dopełniaczy) ‒ 0:0033 *(procent dopełniaczy) ‒ 0:0019 *(procent rzeczowników na -ość) + … jasnopis.pl

24 Wykształcenie odbiorcy
Klasa trudności Klasa = − 4.12 ∗ Ridge Klasa Propozycje etykiet Wykształcenie odbiorcy 1 Teksty łatwe w odbiorze Klasy 1-3 szkoły podstawowej 2 Teksty bardzo czytelne Klasy 3-6 szkoły podstawowej 3 Teksty czytelne, zrozumiałe dla przeciętnego Polaka Gimnazjum 4 Teksty nieco trudniejsze, zrozumiałe dla osób z wykształceniem średnim Liceum 5 Teksty trudniejsze, zrozumiałe dla ludzi wykształconych Studia licencjackie/inżynierskie 6 Tekst trudny w odbiorze przez przeciętnego Polaka Studia magisterskie 7 Teksty bardzo skomplikowane, teksty fachowe Doktorat jasnopis.pl

25 Indeks FOG Wyraz trudny: 4 sylaby lub więcej.
𝐹𝑂𝐺=0.4 × 𝑙𝑖𝑐𝑧𝑏𝑎 𝑤𝑦𝑟𝑎𝑧ó𝑤 𝑙𝑖𝑐𝑧𝑏𝑎 𝑧𝑑𝑎ń +100 𝑙𝑖𝑐𝑧𝑏𝑎 𝑤𝑦𝑟𝑎𝑧ó𝑤 𝑡𝑟𝑢𝑑𝑛𝑦𝑐ℎ 𝑙𝑖𝑐𝑧𝑏𝑎 𝑤𝑦𝑟𝑎𝑧ó𝑤 Wyraz trudny: 4 sylaby lub więcej. Granice zdań wyznaczone przez WCRFT. Warianty operujące na: formach podstawowych wyrazów, formach ortograficznych. Wygładzony indeks FOG wykorzystujący listy wyrazów łatwych: Lista Imiołczyka, Lista 5 tys. najczęstszych wyrazów. jasnopis.pl

26 Interpretacja indeksu FOG
Wartość FOG Interpretacja 1-6 język bardzo prosty, zrozumiały już dla uczniów szkoły podstawowej 7-9 język prosty, zrozumiały już dla uczniów gimnazjum 10-12 język dość prosty, zrozumiały już dla uczniów liceum 13-15 język dość trudny, zrozumiały dla studentów studiów licencjackich 16-17 język trudny, zrozumiały dla studentów studiów magisterskich 18 i więcej język bardzo trudny, zrozumiały dla magistrów i osób z wyższym wykształceniem jasnopis.pl

27 Indeks Pisarka Podobnie jak indeks FOG wykorzystuje:
średnią długość zdania (ŚDZ), procent wyrazów trudnych (PWT). Wersje: liniowa i nieliniowa. Warianty operujące na: formach podstawowych wyrazów, formach ortograficznych (tekstowych). Wygładzony indeks Pisarka wykorzystujący listy wyrazów łatwych: Lista Imiołczyka, Lista 5 tys. najczęstszych wyrazów. 𝑃 𝑁𝐿 = Ś𝐷𝑍 2 + 𝑃𝑊𝑇 2 𝑃 𝐿 = 1 3 ׌𝐷𝑍× 1 3 ×𝑃𝑊𝑇 jasnopis.pl

28 Automatyczny test Taylora
Metoda Taylora – klasyczna metoda mierzenia czytelności poprzez uzupełnianie luk w tekście przez użytkowników języka Wytrenowanie modeli językowych na tekstach referencyjnych Uzupełnianie luk w tekście z wykorzystaniem modeli językowych Warianty: Uzupełnianie co n-tego słowa poprzez model Mierzenie odwrotności entropii (perplexity) 𝑝 𝑤 𝑖 𝑤 𝑖−1 = 𝑐( 𝑤 𝑖−1 𝑤 𝑖 ) 𝑤 𝑖 𝑐( 𝑤 𝑖−1 𝑤 𝑖 ) jasnopis.pl

29 Grafy podobieństwa Podobieństwo pomiędzy korpusami referencyjnymi a tekstem użytkownika Worek słów Kosinus kąta pomiędzy wektorami jako miara podobieństwa Dwa modele porównywania tekstów tf.idf model binarny Porównanie na poziomie leksyki jasnopis.pl

30 jasnopis.pl

31 Weryfikacja Korpusy: literatura dziecięca (bajki), Wikipedia,
artykuły prasowe (Rzeczpospolita), ustawy, teksty popularno-naukowe („Wiedza i Życie”) Ok. 40 tys. słów/korpus dla podobieństwa. Ok. 186 tys. słów/korpus dla automatycznego testu Taylora. Walidacja krzyżowa. jasnopis.pl

32 Weryfikacja Binarny tf.idf Literatura dla dzieci 100% Wikipedia 85,37%
Ustawy Artykuły prasowe 71,74% 73,91% Popularno-naukowe Co 5 wyraz Perplexity Literatura dla dzieci 93,79% 97,18% Wikipedia 80,56% 67,11% Ustawy 86,29% 100% Artykuły prasowe 71,66% 66,11% Popularno-naukowe 73,77% 68,31% To dotyczy tylko weryfikacji grafów podobieństwa, prawda? Jeśli tak, to może zaznaczyć to w tytule slajdu? jasnopis.pl

33 Dodatkowe wskazówki podawane przez Jasnopis
Jeśli podamy wykształcenie potencjalnego czytelnika (w latach), to w przetwarzanym tekście pewne fragmenty będą zaznaczone kolorami: czcionka czerwona: zdania o indeksie FOG większym o 3 lub więcej od zakładanego, czcionka żółta: zdania o indeksie FOG większym o 1-2 od zakładanego, czcionka czarna: zdania o indeksie równym lub mniejszym od zadeklarowanego. Jeśli wykształcenie nie zostanie podane, system przyjmie jako punkt odniesienia wartość FOG-Base obliczoną dla całego tekstu. jasnopis.pl

34 Dodatkowe wskazówki podawane przez Jasnopis
Zdania o długości większej niż średnia długość zdania w ocenianym tekście wyświetlane są na szarym tle (granicą zdania są tylko kropki, pytajniki i wykrzykniki). Wyrazy uznane przez algorytm za trudne* są podkreślone, a po wskazaniu ich kursorem pojawia się komentarz „Spróbuj zamienić na łatwiejsze słowo” lub propozycje synonimów, hiponimów i/lub hiperonimów (w zależności od wyboru w konfiguracji) *Trudne wyrazy mają w formie podstawowej co najmniej cztery sylaby i nie występują na listach wyrazów uznanych przez nas za łatwe (Imiołczyk + 5 tys. najczęstszych). jasnopis.pl

35 Dziękujemy za uwagę! jasnopis.pl


Pobierz ppt "JASNOPIS, czyli narzędzie do mierzenia zrozumiałości polskich tekstów Włodzimierz Gruszczyński (SWPS) Bartosz Broda (Samsung) Projekt jest współfinansowany."

Podobne prezentacje


Reklamy Google