[Zurück]


Diplom- und Master-Arbeiten (eigene und betreute):

K. Beranek:
"Speicherung von E-Mail Daten in einer dokumentbasierten Datenbank";
Betreuer/in(nen): A. Frank; Department für Geodäsie und Geoinformation, 2014; Abschlussprüfung: 07.10.2014.



Kurzfassung deutsch:
Die Aufbewahrung von E-Mail Daten wird in vielen Fällen über Dateisystem-basierende Formate realisiert. Diese Formate erlauben eine hierarchische Gliederung der E-Mail Nachrichten, aber nur sehr eingeschränkte Möglichkeiten, die Nachrichten nach gewissen Gesichtspunkten zu organisieren. Einige Datenbank-basierende Methoden existieren, weisen jedoch den Nachteil auf, proprietär zu sein und keine offenen Schnittstellen anzubieten. Damit gilt für Datenbank- sowie auch Dateisystem-basierende Formate, dass diese nur schwer in Informationssysteme integrierbar sind.
Neue Möglichkeiten E-Mail-Daten effizient zu speichern werden durch dokumentbasierte Datenbanken eröffnet. Im Gegensatz zu relationen Datenbanken speichern dokumentbasierte Datenbankmanagementsysteme Daten in Form von Dokumenten, welche keinem festen Schema unterliegen müssen. In den letzten Jahren ist die Nutzung dieser dokumentbasierten Datenbanken erheblich gestiegen. Dennoch findet man, neben der Groupware Lotus Notes, keine weiteren Anwendungen die sich die Vorteile dieser Datenbanken bei der Aufbewahrung von E-Mail Daten zu nutze machen.
In meiner Diplomarbeit analysiere und vergleiche ich verschiedene Speicherungsarten von E-Mail Daten, um minimale Anforderungen an ein Mail-speicherndes System zu erheben. Weiters untersuche ich Eigenschaften und interne Strukturen des dokumentbasierten Datenbankmanagementsystems Apache CouchDB und deren Einsatz als Persistierungskomponente für E-Mail Daten.
Für die Realisierung und Überprüfung dieser Konzepte wurde ein Prototyp in der funktionalen Programmiersprache Haskell programmiert. Der Prototyp ist ein MIME-konformer Mail Client mit grafischer Benutzeroberfläche und speichert E-Mail Daten in der Apache CouchDB. Der Client zeigt gespeicherte E-Mail Nachrichten an und ermöglicht eine Suche nach bestimmten Merkmalen. Transformatoren für übliche Formate ermöglichen den Import aus bestehenden Mail-Archiven und erlauben es neue E-Mail Nachrichten über das Transportprotokoll POP3 von Mailservern zu holen.

Kurzfassung englisch:
E-Mail Data is mostly stored in filesystem-based data formats. These data formats allow arranging mails hierarchically, but serverly limit possibilites to organize mails to certain aspects. Some database-oriented methods are existing, however they have the disadvantage to be proprietary or don´t provide open interfaces. It applies to both filesystem and database-oriented formats, that these are difficult to integrate into information systems.
With document-oriented databases new possibilites arise to efficiently store e-mail data. Document-oriented database management systems store data in contrast to relational database system in documents. These documents are not subject to a fixed scheme. In the last few years the utilization of document-oriented databases have increased substantially. Still, beside the Groupware Lotus Notes no other applications are existing that harness the benefits of these databases in the field of persistence of e-mail data.
In my thesis I studied and compared different types of persistence of e-mail data and gathered minimal requirements for a system which stores mail. Consequently I examined features and internal structures of the document-based database management system Apache CouchDB and it´s usage as a persistence component for e-mail data.
As proof of found concepts a prototyp was developed using the functional programming language Haskell. The developed prototyp is a MIME-compliant mail client with a graphical userinterface and stores e-mail data in the Apache CouchDB. The client displays stored e-mail messages and features a search function for different characteristics. Transformers for common formats enable the import of existing email archives, and the download of new e-mail messages from mail servers via the transport protocol POP3.

Schlagworte:
E-Mail, dokumentbasierte Datenbank, Haskell

Erstellt aus der Publikationsdatenbank der Technischen Universität Wien.