Pobieranie prezentacji. Proszę czekać

Pobieranie prezentacji. Proszę czekać

Archiwizacja oraz szybkie wyszukiwanie wiadomości

Podobne prezentacje


Prezentacja na temat: "Archiwizacja oraz szybkie wyszukiwanie wiadomości"— Zapis prezentacji:

1 Archiwizacja oraz szybkie wyszukiwanie wiadomości e-mail
Bartosz Osowiecki Warszawa, 28 kwietnia 2008 Promotor: dr Grzegorz Blinowski

2 Plan prezentacji: Po co archiwizować e-mail?
Problemy przy budowie archiwum . Budowa wiadomości Nagłówek Treść Kodowanie Funkcje systemu archiwizującego: Wyszukiwanie Dostęp do wiadomości Architektura systemu Wydajność

3 Po co archiwizować e-mail?
Możliwość odzyskania przesyłek Użytkownicy mogą przejrzeć archiwum własnych Przeznaczenie „dowodowe” – możliwość jednoznacznego stwierdzenia czy dana przesyłka została wysłana: Przez/do kogo kiedy

4 Po co archiwizować e-mail? c.d.
Możliwość kontroli wydostawania się na zewnątrz poufnych informacji Możliwość wykrycia działania w złej wierze W grupie Fortune 500: W 27% firm miały miejsce pozwy o molestowanie seksualne W każdym z nich był jednym z dowodów Bardzo wysokie odszkodowania

5 Problemy przy budowie archiwum e-mail
Format wiadomości Zgodność z RFC822 nie wystarcza Pewien odsetek przesyłek nie jest zgodny z RFC (zwłaszcza w zakresie kodowania) Problem z zaszyfrowanymi wiadomościami Wydajność rozmiar archiwum dla kilku tysięcy użytkowników w przeciągu kilku miesięcy wyniesie dziesiątki GB oraz setki tysięcy plików efektywne indeksowanie archiwum tych rozmiarów jest trudne

6 Budowa wiadomości e-mail
Nagłówek Pola nadawcy (from, sender, reply-to) Pola odbiorcy (to, cc, bcc) Pola referencyjne (message-id, in-reply-to, references, keywords) Pole Return-Path Pola standardu MIME (content-type, mime-version, content-transfer-encoding, content-id, content-description) Pola subject, date. Pola X (X-Mailer)

7 Message-ID: identyfikator przesyłki
Date: Mon, 9 Oct :16: MIME-Version: 1.0 Content-Type: multipart/mixed; boundary="znacznik separujący" From: Cc: Subject: Temat=?iso ?Q?Zakodowany tekst?= Sender: Reply-To: To: Treść wiadomości znacznik_separujący Content-Type: application/octet-stream; name="plik.pdf" Content-Transfer-Encoding: base64 Content-Description: attachment; filename="plik.pdf" ...

8 Treść wiadomości Przesyłka e-mail może zawierać w treści: Zwykły tekst
Załączniki Inną wiadomość

9 Kodowanie wiadomości Kodowanie treści wiadomości
Parametry kodowanie określone w nagłówku wiadomości Możliwe kodowania transportowe to: base64, quoted-printable, 7bit, 8bit, binary Kodowanie pól nagłówka Kodowanie Q oraz B =? Charset ? Encoding ? Encoded-text ?=,

10 Funkcje systemu archiwizującego
Interfejs użytkownika Dostęp do przesyłek Możliwość przeglądu wybranych wiadomości Wyszukiwanie Definiowanie zapytań Wyrażenia logiczne oraz regularne Przeszukiwanie w załącznikach Poziomy tajności Podział na grupy i użytkowników z różnymi prawami dostępu

11 Wyszukiwanie Nadawca: from, sender Odbiorca: to, cc, bcc
Zakres czasowy od-do Temat i zawartość przesyłki Inne pola nagłówka Content-type, X-Mailer… Załączniki

12 Wyszukiwanie c.d. Operatory logiczne: and, or, not
Proste wyrażenia regularne (oparatory: *,?) Możliwe zapytania fraza*, fraza1 ~fraza2, fraza1 & fraza2, fraza1 | fraza2, wyraz?reszta Podobne, zawiera (like, contains) Tak samo dla załączników

13 Architektura systemu Główne moduły systemu
Proces komunikacji z serwerem poczty Parser wiadomości Archiwizator, Indekser Aplikacja kliencka

14 Moduł komunikacji z MTA
Poczta wychodząca Moduł komunikacji z MTA Poczta wychodząca SMTP SMTP załączniki Parser załączniki Serwer poczty (MTA) listy Archiwizator Archiwum Application Serwer Aplikacja kliencka HTTP INDEKSY Web Service

15 Budowa archiwum Dwa główne nad-archiwa
Wiadomości Załączniki Podział archiwum ze względu na datę tworzenia przesyłek

16 2008 rok styczeń luty 1 1 2 2 tygodnie tygodnie 3 3 4 4

17 Parser wiadomości e-mail
Pobranie wartości dla wszystkich pól nagłówka wykorzystywanych przy tworzeniu indeksów Oddzielenie załączników od wiadomości Obsługa kodowań ( base64, quoted-printable itd.) Konwertery plików: Pdftotext, Catdoc, Catxls itd.

18 Indekser Wykorzystanie mechanizmów bazodanowych lub zewnętrznych indekserów Indeksowanie dokumentów nietekstowych ( pdf, doc, xls, rtf itd.) Możliwość tworzenia pod-indeksów dla wybranych słów – kluczy Mechanizm scalania indeksów

19 Komunikacja z serwerem poczty
Klient poczty wysyła wiadomość. Serwer poczty pobiera wiadomość z kolejki i przekazuje przesyłkę do systemu archiwizacji. Dodanie wiadomości do archiwum. Wstawienie wiadomości do kolejki serwera bądź przekazanie do innej aplikacji lub serwera.

20 Wydajność Głównym miernikiem wydajności jest czas realizacji zapytania w funkcji rozmiaru archiwum Wydajność systemu = wydajność indeksera Wielkość archiwum Teoretycznie rzędu kilku TB Największe wdrożone w praktyce: 0,5 TB (3,5 mln wiadomości) – czas dostępu: 5-30s

21 Podsumowanie Dobry sposób na tworzenie kopii zapasowej
Szybkie, wszechstronne wyszukiwanie przesyłek na podstawie ich zawartości Wyszukiwanie w załącznikach

22 Bibliografia Dokumenty RFC (822, 2045, 2046) Indekser (SWISH-E)
Indekser (SWISH-E) MSARCH – wersja testowa

23 Dziękuję za uwagę Pytania?


Pobierz ppt "Archiwizacja oraz szybkie wyszukiwanie wiadomości"

Podobne prezentacje


Reklamy Google