Распространённые форматы хранения электронной почты
MBOX
MBOX (сокр. от Mailbox) — широко используемый формат хранения электронной почты, существующий уже несколько десятков лет. Он используется для хранения коллекции электронных сообщений в одном файле, где каждое сообщение конкатенировано и отделено строкой‑разделителем.
MBOX был впервые разработан в 1970-х годах и с тех пор прошёл через различные версии и реализации. Он был реализован в многочисленных почтовых клиентах, таких как Unix mail, Mozilla Thunderbird, Eudora и др.
Ключевые особенности:
- MBOX поддерживается на широком спектре платформ, включая Unix, Linux и macOS.
- Клиенты, такие как Mozilla Thunderbird, Apple Mail и многие другие, могут читать и записывать файлы MBOX.
- Тот факт, что формат представляет собой обычный текст, упрощает его разбор и обработку с помощью инструментов текстовой манипуляции.
- Благодаря простой структуре MBOX широко используется для архивирования и резервного копирования.
- Поскольку все письма хранятся в одном файле, со временем он может стать довольно большим, что приводит к неэффективности.
Варианты MBOX:
MBOX существует в нескольких вариантах, каждый с небольшими различиями в обработке сообщений:
- MBOXO: Исходный формат, где строки "From " в теле письма цитируются символом >.
- MBOXRD: Вариант MBOXO, который дополнительно расширяет метод цитирования строк "From ".
- MBOXCL: Вариант "Classic" MBOX, где каждая строка "From " цитируется с префиксом ffrom.
- MBOXCL2: Вариант MBOXCL, в котором строки "From " удваиваются для их различия.
Техническая основа формата MBOX
Структура файла:
- Файл MBOX — это обычный текстовый файл, содержащий серию сообщений EML.
- Каждое сообщение начинается строкой "From " (пробел после слова "From"), обычно содержащей электронный адрес отправителя и метку времени получения сообщения.
- Каждое сообщение отделяется пустой строкой от следующего сообщения.

Пример:
From user@example.com Fri Jan 01 00:00:00 2021
[Headers]
[Body]
From user2@example.com Fri Jan 01 00:01:00 2021
[Headers]
[Body]
PST/OST
Personal Storage Table (PST) и Offline Storage Table (OST) — это файловые форматы, используемые Microsoft Outlook для хранения копий писем, событий календаря и других элементов.
Ключевые особенности:
- Файлы PST используются для хранения личной информации и обычно применяются для архивирования старых писем и данных. Преимущественно используют домашние пользователи и небольшие организации для локального хранения сообщений электронной почты, контактов и событий календаря.
- Файлы OST используются для офлайн-хранения и синхронизации писем и других данных с сервером Exchange. Прежде всего применяются пользователями, работающими с Microsoft Exchange Server или Office 365.
- Хранятся локально на компьютере пользователя. Доступны даже при отсутствии соединения с сервером электронной почты.
- Файлы PST легко резервировать и переносить на другие компьютеры. Пользователи могут перемещать PST-файлы между разными системами или версиями Outlook.
- Файлы OST не предназначены для ручного резервного копирования или переноса, так как они являются синхронизированными копиями данных сервера. Файлы OST привязаны к определённым профилям и их нельзя легко переместить на другие системы.
OLM
Outlook for Mac Archive File (OLM) — это файловый формат, используемый Microsoft Outlook для Mac для хранения электронных писем, событий календаря, контактов, задач и других элементов.
Ключевые особенности:
- Файлы OLM в основном используются для архивирования и резервного копирования писем и других элементов Outlook на системах Mac.
- Файлы OLM хранятся локально на Mac пользователя.
- Файлы OLM можно открыть и просмотреть в Microsoft Outlook для Mac. Они не совместимы напрямую с Outlook для Windows без конвертации.
- Microsoft не устанавливает фиксированный ограничение размера файлов OLM, однако при очень большом размере могут возникать проблемы с производительностью. Пользователи обычно управляют размером, создавая несколько небольших архивов вместо одного крупного файла OLM.
- Резервное копирование: Поскольку файлы OLM хранятся локально, их можно создавать резервные копии или копировать на внешние носители.
TGZ
TGZ (используется Zimbra для резервных копий почтовых ящиков) — это файловый формат, применяемый для архивации и сжатия данных, обычно ассоциируемый с системами Unix и Linux. Термин "TGZ" обозначает сочетание двух утилит: "tar" (Tape Archive) и "gzip". Формат .tar объединяет несколько файлов и каталогов в один архивный файл. Он сохраняет информацию файловой системы, такую как структура каталогов, права доступа и метки времени. Формат .gz сжимает данные, делая tar-архив меньше и удобнее для управления или передачи. Сжатый характер TGZ делает его подходящим для передачи архивов электронной почты через интернет или перемещения их между системами.
NSF
Notes Storage Facility (NSF) — это проприетарный файловый формат, используемый в первую очередь IBM Lotus Notes (теперь HCL Notes) для хранения различных типов данных, включая электронную почту, события календаря, задачи и другие данные приложений. Файлы NSF используют NoSQL, документно-ориентированную модель базы данных. Каждая база данных хранится в одном файле NSF с расширением .nsf. Это расширение представляет формат базы данных, используемый IBM Notes и сервером Domino. Каждая электронная почта, запись календаря или задача хранится как документ, который может содержать различные типы данных, такие как текст, вложения, ссылки, форматирование rich text и даже метаданные.