Formatos Comuns de Armazenamento de Email
MBOX
MBOX (abreviação de Mailbox) é um formato de armazenamento de e‑mail amplamente usado, prevalente há várias décadas. Ele é usado para armazenar uma coleção de mensagens de e‑mail em um único arquivo, com cada mensagem concatenada e demarcada por uma linha separadora.
MBOX foi desenvolvido pela primeira vez na década de 1970 e desde então tem tido várias versões e implementações ao longo dos anos. Foi implementado em inúmeros clientes de e‑mail como Unix mail, Mozilla Thunderbird, Eudora e outros.
Principais Recursos:
- MBOX é suportado em uma ampla variedade de plataformas, incluindo Unix, Linux e macOS.
- Clientes como Mozilla Thunderbird, Apple Mail e muitos outros podem ler e gravar arquivos MBOX.
- A natureza de texto simples do formato facilita sua análise e processamento usando ferramentas de manipulação de texto.
- Devido à sua estrutura simples, MBOX é popularmente usado para fins de arquivamento e backup.
- Como todos os e‑mails são armazenados em um único arquivo, o arquivo pode ficar bastante grande ao longo do tempo, levando a ineficiências.
Variantes do MBOX:
MBOX vem em várias variantes, cada uma com pequenas diferenças na forma como tratam as mensagens:
- MBOXO: O formato original onde as linhas "From " no corpo do e‑mail são citadas com o caractere >.
- MBOXRD: Uma variante do MBOXO que estende ainda mais o método de citação das linhas "From ".
- MBOXCL: Introduzido pela variante "Classic" do MBOX onde cada linha "From " é citada com uma string ffrom.
- MBOXCL2: Uma variação do MBOXCL onde as linhas "From " são duplicadas para distingui‑las.
Base Técnica para o Formato MBOX
Estrutura do Arquivo:
- Um arquivo MBOX é um arquivo de texto simples que contém uma série de mensagens EML.
- Cada mensagem começa com uma linha "From " (um espaço após a palavra "From") que normalmente inclui o endereço de e‑mail do remetente e o timestamp de quando a mensagem foi recebida.
- Cada mensagem é seguida por uma linha em branco para separá‑la da mensagem seguinte.

Exemplo:
From user@example.com Fri Jan 01 00:00:00 2021
[Headers]
[Body]
From user2@example.com Fri Jan 01 00:01:00 2021
[Headers]
[Body]
PST/OST
Personal Storage Table (PST) e Offline Storage Table (OST) são formatos de arquivo usados pelo Microsoft Outlook para armazenar cópias de e‑mails, eventos de calendário e outros itens.
Principais Recursos:
- Arquivos PST são usados para armazenar informações pessoais e geralmente são utilizados para arquivar e‑mails e dados antigos. Principalmente usados por usuários domésticos e pequenas organizações para armazenamento local de mensagens de e‑mail, contatos e eventos de calendário.
- Arquivos OST são usados para armazenamento offline e sincronização de e‑mails e outros dados com o servidor Exchange. Usados principalmente por usuários que acessam o Microsoft Exchange Server ou o Office 365.
- Armazenado localmente no computador do usuário. Pode ser acessado mesmo quando o usuário não está conectado ao servidor de e‑mail.
- Arquivos PST podem ser facilmente copiados e transferidos para outros computadores. Usuários podem transferir arquivos PST entre diferentes sistemas ou versões do Outlook.
- Arquivos OST não são destinados a backup ou transferência manual, pois são cópias sincronizadas dos dados do servidor. Arquivos OST estão vinculados a perfis específicos e não podem ser movidos facilmente para outros sistemas.
OLM
Outlook for Mac Archive File (OLM) é um formato de arquivo usado pelo Microsoft Outlook para Mac para armazenar mensagens de e‑mail, eventos de calendário, contatos, tarefas e outros itens.
Principais Recursos:
- Arquivos OLM são usados principalmente para arquivar e fazer backup de e‑mails e outros itens do Outlook em sistemas Mac.
- Arquivos OLM são armazenados localmente no Mac do usuário.
- Arquivos OLM podem ser abertos e acessados via Microsoft Outlook para Mac. Eles não são diretamente compatíveis com Outlook para Windows sem conversão.
- Não há um limite de tamanho fixo para arquivos OLM imposto pela Microsoft, mas problemas de desempenho podem ocorrer se o arquivo ficar muito grande. Os usuários normalmente gerenciam o tamanho criando múltiplos arquivos menores em vez de um único arquivo OLM grande.
- Backup: Como os arquivos OLM são armazenados localmente, podem ser copiados ou salvados em dispositivos de armazenamento externo.
TGZ
TGZ (usado pelo Zimbra para arquivo de backup de caixa de correio) é um formato de arquivo utilizado para arquivar e comprimir dados, comumente associado a sistemas Unix e Linux. O termo "TGZ" refere‑se a uma combinação de duas utilidades: "tar" (Tape Archive) e "gzip". O formato de arquivo .tar agrupa múltiplos arquivos e diretórios em um único arquivo de arquivo. Ele preserva informações do sistema de arquivos, como estruturas de diretórios, permissões de arquivos e timestamps. O formato .gz comprime os dados, tornando o arquivo tar menor e mais fácil de gerenciar ou transferir. A natureza comprimida do TGZ o torna adequado para transferir arquivos de e‑mail arquivados pela internet ou movê‑los entre sistemas.
NSF
Notes Storage Facility (NSF) é um formato de arquivo proprietário usado principalmente pelo IBM Lotus Notes (agora HCL Notes) para armazenar diversos tipos de dados, incluindo email, eventos de calendário, tarefas e outros dados de aplicação. Arquivos NSF utilizam um modelo de banco de dados NoSQL baseado em documentos. Cada banco de dados é armazenado como um único arquivo NSF com extensão .nsf. A extensão representa um formato de banco de dados usado pelo IBM Notes e Domino Server. Cada email, entrada de calendário ou tarefa é armazenado como um documento que pode conter vários tipos de dados, como texto, anexos, links, formatação de texto rico e até metadados.