Các Định dạng Lưu trữ Email Thông dụng

MBOX

MBOX (viết tắt của Mailbox) là một định dạng lưu trữ email được sử dụng rộng rãi trong nhiều thập kỷ. Nó được dùng để lưu trữ một tập hợp các tin nhắn email trong một tệp duy nhất, mỗi tin nhắn được nối tiếp và ngăn cách bằng một dòng phân tách.

MBOX được phát triển lần đầu vào những năm 1970 và kể từ đó đã có nhiều phiên bản và triển khai khác nhau qua các năm. Nó đã được triển khai trong nhiều client email như Unix mail, Mozilla Thunderbird, Eudora và nhiều hơn nữa.

Tính năng chính:

  • MBOX được hỗ trợ trên nhiều nền tảng, bao gồm Unix, Linux và macOS.
  • Các client như Mozilla Thunderbird, Apple Mail và nhiều phần mềm khác có thể đọc và ghi tệp MBOX.
  • Tính chất văn bản thuần của định dạng giúp dễ dàng phân tích và xử lý bằng các công cụ thao tác văn bản.
  • Do cấu trúc đơn giản, MBOX được sử dụng rộng rãi cho mục đích lưu trữ và sao lưu.
  • Vì tất cả email được lưu trong một tệp duy nhất, tệp này có thể trở nên rất lớn theo thời gian, gây ra sự không hiệu quả.

Các biến thể của MBOX:

MBOX có một số biến thể, mỗi biến thể có những khác biệt nhẹ trong cách xử lý tin nhắn:

  • MBOXO: Định dạng gốc, trong đó các dòng "From " trong phần thân email được trích dẫn bằng ký tự >.
  • MBOXRD: Một biến thể của MBOXO mở rộng thêm phương pháp trích dẫn các dòng "From ".
  • MBOXCL: Được giới thiệu bởi biến thể "Classic" của MBOX, trong đó mỗi dòng "From " được trích dẫn bằng một chuỗi ffrom.
  • MBOXCL2: Một biến thể của MBOXCL trong đó các dòng "From " được nhân đôi để phân biệt.

Cơ sở Kỹ thuật cho Định dạng MBOX

Cấu trúc Tệp:

  • Tệp MBOX là một tệp văn bản thuần chứa một loạt các tin nhắn EML.
  • Mỗi tin nhắn bắt đầu bằng một dòng "From " (có dấu cách sau từ "From") thường bao gồm địa chỉ email của người gửi và thời gian nhận tin nhắn.
  • Mỗi tin nhắn được theo sau bởi một dòng trống để tách biệt với tin nhắn tiếp theo.

Cấu trúc lưu trữ MBOX

Ví dụ:

From user@example.com Fri Jan 01 00:00:00 2021
[Headers]
[Body]
From user2@example.com Fri Jan 01 00:01:00 2021
[Headers]
[Body]

PST/OST

Personal Storage Table (PST)Offline Storage Table (OST) là các định dạng tệp mà Microsoft Outlook sử dụng để lưu trữ bản sao của email, sự kiện lịch và các mục khác.

Tính năng chính:

  • Các tệp PST được dùng để lưu trữ thông tin cá nhân và thường được dùng để lưu trữ các email và dữ liệu cũ. Chủ yếu được sử dụng bởi người dùng cá nhân và các tổ chức nhỏ để lưu trữ cục bộ các tin nhắn email, danh bạ và sự kiện lịch.
  • Các tệp OST được dùng để lưu trữ ngoại tuyến và đồng bộ email cùng các dữ liệu khác với máy chủ Exchange. Chủ yếu được sử dụng bởi người dùng truy cập Microsoft Exchange Server hoặc Office 365.
  • Lưu trữ cục bộ trên máy tính của người dùng. Có thể truy cập ngay cả khi người dùng không kết nối với máy chủ email.
  • Các tệp PST có thể dễ dàng được sao lưu và chuyển sang máy tính khác. Người dùng có thể chuyển các tệp PST giữa các hệ thống hoặc phiên bản Outlook khác nhau.
  • Các tệp OST không được thiết kế để sao lưu hoặc chuyển đổi thủ công vì chúng là bản sao đồng bộ của dữ liệu server. Các tệp OST gắn liền với các hồ sơ cụ thể và không thể di chuyển dễ dàng sang hệ thống khác.

OLM

Outlook for Mac Archive File (OLM) là một định dạng tệp mà Microsoft Outlook cho Mac sử dụng để lưu trữ tin nhắn email, sự kiện lịch, danh bạ, công việc và các mục khác.

Tính năng chính:

  • Các tệp OLM chủ yếu được dùng để lưu trữ và sao lưu email và các mục Outlook khác trên hệ thống Mac.
  • Các tệp OLM được lưu trữ cục bộ trên Mac của người dùng.
  • Các tệp OLM có thể được mở và truy cập qua Microsoft Outlook cho Mac. Chúng không tương thích trực tiếp với Outlook cho Windows nếu không chuyển đổi.
  • Không có giới hạn kích thước cố định nào cho các tệp OLM do Microsoft đặt ra, nhưng có thể gặp vấn đề hiệu năng nếu tệp trở nên rất lớn. Người dùng thường quản lý kích thước bằng cách tạo nhiều kho lưu trữ nhỏ hơn thay vì một tệp OLM lớn.
  • Sao lưu: Vì các tệp OLM được lưu trữ cục bộ, chúng có thể được sao lưu hoặc sao chép vào thiết bị lưu trữ ngoài.

TGZ

TGZ (được Zimbra sử dụng cho tệp sao lưu hộp thư) là một định dạng tệp dùng để lưu trữ và nén dữ liệu, thường liên quan đến hệ thống Unix và Linux. Thuật ngữ "TGZ" đề cập đến sự kết hợp của hai tiện ích: "tar" (Tape Archive) và "gzip." Định dạng .tar gộp nhiều tệp và thư mục thành một tệp lưu trữ duy nhất. Nó bảo lưu thông tin hệ thống tệp như cấu trúc thư mục, quyền truy cập và dấu thời gian. Định dạng .gz nén dữ liệu, làm cho tệp tar nhỏ hơn và dễ quản lý hoặc truyền tải hơn. Tính chất nén của TGZ khiến nó phù hợp cho việc truyền các kho lưu trữ email qua internet hoặc di chuyển chúng giữa các hệ thống.

NSF

Notes Storage Facility (NSF) là một định dạng tệp độc quyền chủ yếu được IBM Lotus Notes (hiện là HCL Notes) sử dụng để lưu trữ nhiều loại dữ liệu, bao gồm email, sự kiện lịch, công việc và dữ liệu ứng dụng khác. Các tệp NSF sử dụng mô hình cơ sở dữ liệu NoSQL dạng tài liệu. Mỗi cơ sở dữ liệu được lưu dưới dạng một tệp NSF duy nhất với phần mở rộng .nsf. Phần mở rộng này đại diện cho định dạng cơ sở dữ liệu được IBM Notes và Domino Server sử dụng. Mỗi email, mục lịch hoặc công việc được lưu như một tài liệu có thể chứa nhiều loại dữ liệu như văn bản, tệp đính kèm, liên kết, định dạng văn bản phong phú và ngay cả siêu dữ liệu.