Klasyfikacja dokumentów tekstowych w oparciu o blogi Autorzy: Bartosz Skorupski Tomasz Stężycki
Plan prezentacji Definicje i zakres projektu, Text mining – zastosowania, Analiza tekstu, Technologia i architektura systemu, Harmonogram prac, Studium przypadku
Definicje i zakres projektu Data Mining Data Mining jest metodą eksploracji danych, polegającą na wydobywaniu: Informacji z dużych zbiorów danych lub baz danych, Potencjalnie użytecznej informacji z danych Text Mining Text Mining jest procesem, który polega na: Wydobywaniu nowych, poprawnych danych w dokumentach tekstowych, Automatycznej analizie zawartości dokumentów tekstowych dla przyszłych zastosowań
Cel i zakres projektu Celem jest stworzenie prototypu systemu klasyfikacji dokumentów tekstowych w oparciu o blogi, na podstawie wcześniej zdefiniowanych klas. System powinien działać na zasadzie uczenia się. W tym celu należy zebrać odpowiednią próbkę informacji tekstowej wraz ze znanymi przydziałami do klas, a następnie wykorzystać jeden ze znanych algorytmów uczących.
Text mining – zastosowania Wyszukiwarki, Większe portale (ankiety, artykuły prasowe, itp.), Systemy zarządzania wiedzą, Systemy e-Biznesowe, Aplikacje klienckie, Klasyfikujące e-maile, Klasyfikujące blogi
Analiza tekstu Analiza tekstu pozyskanych zasobów uwzględniając: Selekcja i grupowanie, Określenie znaczenia słów, fraz i przydzielenie ich do odpowiedniej kategorii, Wykorzystanie algorytmu uczenia się
Technologia i architektura aplikacji Text Mining Engine Data sources Compare the Indexed keywords with the words that have to be in each type. Results ordered by rand desc. The ones with the highest rank are closest to created vector. Proceed the Full Text Indexing Create a vector with a must have term or terms SQL Server Component ASP .NET Neural Network
Studium przypadku Klasyfikacja blogów Generowanie blogów danych tekstowych Klasyfikacja Dodanie treści i powiązanie blogów hiperłączami Zaplecze pozycjonerskie dla wyszukiwarek internetowych
Harmonogram prac