Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Archiwizacja oraz szybkie wyszukiwanie wiadomości e-mail Bartosz Osowiecki Warszawa, 28 kwietnia 2008 Promotor: dr Grzegorz Blinowski.

Podobne prezentacje


Prezentacja na temat: "Archiwizacja oraz szybkie wyszukiwanie wiadomości e-mail Bartosz Osowiecki Warszawa, 28 kwietnia 2008 Promotor: dr Grzegorz Blinowski."— Zapis prezentacji:

1 Archiwizacja oraz szybkie wyszukiwanie wiadomości Bartosz Osowiecki Warszawa, 28 kwietnia 2008 Promotor: dr Grzegorz Blinowski

2 Plan prezentacji: Po co archiwizować ? Problemy przy budowie archiwum . Budowa wiadomości Nagłówek Treść Kodowanie Funkcje systemu archiwizującego: Wyszukiwanie Dostęp do wiadomości Architektura systemu Wydajność

3 Po co archiwizować ? Możliwość odzyskania przesyłek Użytkownicy mogą przejrzeć archiwum własnych Przeznaczenie dowodowe – możliwość jednoznacznego stwierdzenia czy dana przesyłka została wysłana: Przez/do kogo kiedy

4 Po co archiwizować ? c.d. Możliwość kontroli wydostawania się na zewnątrz poufnych informacji Możliwość wykrycia działania w złej wierze W grupie Fortune 500: W 27% firm miały miejsce pozwy o molestowanie seksualne W każdym z nich był jednym z dowodów Bardzo wysokie odszkodowania

5 Problemy przy budowie archiwum Format wiadomości Zgodność z RFC822 nie wystarcza Pewien odsetek przesyłek nie jest zgodny z RFC (zwłaszcza w zakresie kodowania) Problem z zaszyfrowanymi wiadomościami Wydajność rozmiar archiwum dla kilku tysięcy użytkowników w przeciągu kilku miesięcy wyniesie dziesiątki GB oraz setki tysięcy plików efektywne indeksowanie archiwum tych rozmiarów jest trudne

6 Budowa wiadomości Nagłówek Pola nadawcy (from, sender, reply-to) Pola odbiorcy (to, cc, bcc) Pola referencyjne (message-id, in-reply-to, references, keywords) Pole Return-Path Pola standardu MIME (content-type, mime-version, content- transfer-encoding, content-id, content-description) Pola subject, date. Pola X (X-Mailer)

7 Message-ID: identyfikator przesyłki Date:Mon, 9 Oct :16: MIME-Version: 1.0 Content-Type: multipart/mixed; boundary="znacznik separujący" Cc: Subject: Temat=?iso ?Q?Zakodowany tekst?= Reply-To: Treść wiadomości znacznik_separujący Content-Type: application/octet-stream; name="plik.pdf" Content-Transfer-Encoding: base64 Content-Description: attachment; filename="plik.pdf"...

8 Treść wiadomości Przesyłka może zawierać w treści: Zwykły tekst Załączniki Inną wiadomość

9 Kodowanie wiadomości Kodowanie treści wiadomości Parametry kodowanie określone w nagłówku wiadomości Możliwe kodowania transportowe to: base64, quoted- printable, 7bit, 8bit, binary Kodowanie pól nagłówka Kodowanie Q oraz B =? Charset ? Encoding ? Encoded-text ?=,

10 Funkcje systemu archiwizującego Interfejs użytkownika Dostęp do przesyłek Możliwość przeglądu wybranych wiadomości Wyszukiwanie Definiowanie zapytań Wyrażenia logiczne oraz regularne Przeszukiwanie w załącznikach Poziomy tajności Podział na grupy i użytkowników z różnymi prawami dostępu

11 Wyszukiwanie Nadawca: from, sender Odbiorca: to, cc, bcc Zakres czasowy od-do Temat i zawartość przesyłki Inne pola nagłówka Content-type, X-Mailer… Załączniki

12 Wyszukiwanie c.d. Operatory logiczne: and, or, not Proste wyrażenia regularne (oparatory: *,?) Możliwe zapytania fraza*, fraza1 ~fraza2, fraza1 & fraza2, fraza1 | fraza2, wyraz?reszta Podobne, zawiera (like, contains) Tak samo dla załączników

13 Architektura systemu Główne moduły systemu Proces komunikacji z serwerem poczty Parser wiadomości Archiwizator, Indekser Aplikacja kliencka

14 załączniki Aplikacja kliencka Archiwizator Parser listyzałączniki Archiwum INDEKSY Application Serwer Web Service HTTP Serwer poczty (MTA) Moduł komunikacji z MTA Poczta wychodząca SMTP Poczta wychodząca SMTP

15 Budowa archiwum Dwa główne nad-archiwa Wiadomości Załączniki Podział archiwum ze względu na datę tworzenia przesyłek

16 2008 rok styczeńluty tygodnie

17 Parser wiadomości Pobranie wartości dla wszystkich pól nagłówka wykorzystywanych przy tworzeniu indeksów Oddzielenie załączników od wiadomości Obsługa kodowań ( base64, quoted- printable itd.) Konwertery plików: Pdftotext, Catdoc, Catxls itd.

18 Indekser Wykorzystanie mechanizmów bazodanowych lub zewnętrznych indekserów Indeksowanie dokumentów nietekstowych ( pdf, doc, xls, rtf itd.) Możliwość tworzenia pod-indeksów dla wybranych słów – kluczy Mechanizm scalania indeksów

19 Komunikacja z serwerem poczty 1.Klient poczty wysyła wiadomość. 2.Serwer poczty pobiera wiadomość z kolejki i przekazuje przesyłkę do systemu archiwizacji. 3.Dodanie wiadomości do archiwum. 4.Wstawienie wiadomości do kolejki serwera bądź przekazanie do innej aplikacji lub serwera.

20 Wydajność Głównym miernikiem wydajności jest czas realizacji zapytania w funkcji rozmiaru archiwum Wydajność systemu = wydajność indeksera Wielkość archiwum Teoretycznie rzędu kilku TB Największe wdrożone w praktyce: 0,5 TB (3,5 mln wiadomości) – czas dostępu: 5-30s

21 Podsumowanie Dobry sposób na tworzenie kopii zapasowej Szybkie, wszechstronne wyszukiwanie przesyłek na podstawie ich zawartości Wyszukiwanie w załącznikach

22 Bibliografia Dokumenty RFC (822, 2045, 2046) Indekser (SWISH-E) MSARCH – wersja testowa

23 Pytania? Dziękuję za uwagę


Pobierz ppt "Archiwizacja oraz szybkie wyszukiwanie wiadomości e-mail Bartosz Osowiecki Warszawa, 28 kwietnia 2008 Promotor: dr Grzegorz Blinowski."

Podobne prezentacje


Reklamy Google