Распространённые форматы хранения электронной почты

MBOX

MBOX (сокр. от Mailbox) — широко используемый формат хранения электронной почты, существующий уже несколько десятков лет. Он используется для хранения коллекции электронных сообщений в одном файле, где каждое сообщение конкатенировано и отделено строкой‑разделителем.

MBOX был впервые разработан в 1970-х годах и с тех пор прошёл через различные версии и реализации. Он был реализован в многочисленных почтовых клиентах, таких как Unix mail, Mozilla Thunderbird, Eudora и др.

Ключевые особенности:

  • MBOX поддерживается на широком спектре платформ, включая Unix, Linux и macOS.
  • Клиенты, такие как Mozilla Thunderbird, Apple Mail и многие другие, могут читать и записывать файлы MBOX.
  • Тот факт, что формат представляет собой обычный текст, упрощает его разбор и обработку с помощью инструментов текстовой манипуляции.
  • Благодаря простой структуре MBOX широко используется для архивирования и резервного копирования.
  • Поскольку все письма хранятся в одном файле, со временем он может стать довольно большим, что приводит к неэффективности.

Варианты MBOX:

MBOX существует в нескольких вариантах, каждый с небольшими различиями в обработке сообщений:

  • MBOXO: Исходный формат, где строки "From " в теле письма цитируются символом >.
  • MBOXRD: Вариант MBOXO, который дополнительно расширяет метод цитирования строк "From ".
  • MBOXCL: Вариант "Classic" MBOX, где каждая строка "From " цитируется с префиксом ffrom.
  • MBOXCL2: Вариант MBOXCL, в котором строки "From " удваиваются для их различия.

Техническая основа формата MBOX

Структура файла:

  • Файл MBOX — это обычный текстовый файл, содержащий серию сообщений EML.
  • Каждое сообщение начинается строкой "From " (пробел после слова "From"), обычно содержащей электронный адрес отправителя и метку времени получения сообщения.
  • Каждое сообщение отделяется пустой строкой от следующего сообщения.

Структура хранения MBOX

Пример:

From user@example.com Fri Jan 01 00:00:00 2021
[Headers]
[Body]
From user2@example.com Fri Jan 01 00:01:00 2021
[Headers]
[Body]

PST/OST

Personal Storage Table (PST) и Offline Storage Table (OST) — это файловые форматы, используемые Microsoft Outlook для хранения копий писем, событий календаря и других элементов.

Ключевые особенности:

  • Файлы PST используются для хранения личной информации и обычно применяются для архивирования старых писем и данных. Преимущественно используют домашние пользователи и небольшие организации для локального хранения сообщений электронной почты, контактов и событий календаря.
  • Файлы OST используются для офлайн-хранения и синхронизации писем и других данных с сервером Exchange. Прежде всего применяются пользователями, работающими с Microsoft Exchange Server или Office 365.
  • Хранятся локально на компьютере пользователя. Доступны даже при отсутствии соединения с сервером электронной почты.
  • Файлы PST легко резервировать и переносить на другие компьютеры. Пользователи могут перемещать PST-файлы между разными системами или версиями Outlook.
  • Файлы OST не предназначены для ручного резервного копирования или переноса, так как они являются синхронизированными копиями данных сервера. Файлы OST привязаны к определённым профилям и их нельзя легко переместить на другие системы.

OLM

Outlook for Mac Archive File (OLM) — это файловый формат, используемый Microsoft Outlook для Mac для хранения электронных писем, событий календаря, контактов, задач и других элементов.

Ключевые особенности:

  • Файлы OLM в основном используются для архивирования и резервного копирования писем и других элементов Outlook на системах Mac.
  • Файлы OLM хранятся локально на Mac пользователя.
  • Файлы OLM можно открыть и просмотреть в Microsoft Outlook для Mac. Они не совместимы напрямую с Outlook для Windows без конвертации.
  • Microsoft не устанавливает фиксированный ограничение размера файлов OLM, однако при очень большом размере могут возникать проблемы с производительностью. Пользователи обычно управляют размером, создавая несколько небольших архивов вместо одного крупного файла OLM.
  • Резервное копирование: Поскольку файлы OLM хранятся локально, их можно создавать резервные копии или копировать на внешние носители.

TGZ

TGZ (используется Zimbra для резервных копий почтовых ящиков) — это файловый формат, применяемый для архивации и сжатия данных, обычно ассоциируемый с системами Unix и Linux. Термин "TGZ" обозначает сочетание двух утилит: "tar" (Tape Archive) и "gzip". Формат .tar объединяет несколько файлов и каталогов в один архивный файл. Он сохраняет информацию файловой системы, такую как структура каталогов, права доступа и метки времени. Формат .gz сжимает данные, делая tar-архив меньше и удобнее для управления или передачи. Сжатый характер TGZ делает его подходящим для передачи архивов электронной почты через интернет или перемещения их между системами.

NSF

Notes Storage Facility (NSF) — это проприетарный файловый формат, используемый в первую очередь IBM Lotus Notes (теперь HCL Notes) для хранения различных типов данных, включая электронную почту, события календаря, задачи и другие данные приложений. Файлы NSF используют NoSQL, документно-ориентированную модель базы данных. Каждая база данных хранится в одном файле NSF с расширением .nsf. Это расширение представляет формат базы данных, используемый IBM Notes и сервером Domino. Каждая электронная почта, запись календаря или задача хранится как документ, который может содержать различные типы данных, такие как текст, вложения, ссылки, форматирование rich text и даже метаданные.