Làm việc với PDF/A hoặc PDF/UA

Định dạng PDF/A và PDF/UA áp đặt một số yêu cầu liên quan đến nội dung tài liệu không thể đáp ứng trong quá trình chuyển đổi tự động từ tài liệu ở Định dạng Word sang PDF. Các yêu cầu này cần được xác minh và sửa chữa trong Tài liệu Word trước khi chuyển đổi hoặc trong tài liệu PDF sau khi chuyển đổi để tạo ra tài liệu tuân thủ đầy đủ PDF/A và PDF/UA.

Các yêu cầu cơ bản dành cho cấu trúc hoặc phông chữ của tài liệu PDF/A và PDF/UA, chúng tôi sẽ xem xét trong các phần sau.

Yêu Cầu Cấu Trúc Tài Liệu

Các yêu cầu hiện tại là dành cho PDF/A-1a, PDF/A-2a, PDF/A-4, và PDF/UA-1 định dạng.

Có một số sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn có được kết quả mong đợi.

Các phần phụ dưới đây mô tả các sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn và tùy chọn định dạng PDF khác nhau cho giải pháp của chúng.

Loại Cấu Trúc

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và các khối khác. Các khối này tạo thành một cấu trúc tài liệu – mạnh hoặc yếu.

Cả cấu trúc mạnh và yếu đều có giá trị cho PDF/A. Microsoft Word tài liệu có cấu trúc yếu theo thiết kế và Aspose.Words tạo PDF với cấu trúc yếu tương ứng và cũng tạo tiêu đề theo mức phác thảo của các đoạn trong tài liệu nguồn.

Đối với một tài liệu PDF/UA-1 có cấu trúc yếu, ngoài ra, các số tiêu đề phải đi theo thứ tự mà không có khoảng trống.

Để đảm bảo đầu ra chính xác, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được sắp xếp hợp lý và các mức phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa cấu trúc của tài liệu PDF đầu ra.

Đánh Dấu Nội Dung như Một Hiện vật

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Hiện tại, Aspose.Words đánh dấu đầu trang và chân trang, dấu phân cách ghi chú, ô tiêu đề bảng lặp lại và hình ảnh trang trí làm hiện vật. Lưu ý rằng danh sách này có thể được cập nhật trong tương lai.

Nếu tài liệu chứa bất kỳ nội dung nào khác nên được đánh dấu là tạo tác hoặc nếu bất kỳ nội dung tạo tác nào là nội dung thực, khách hàng nên sửa nội dung đó trong đầu ra PDF.

Đặc Điểm Kỹ Thuật Ngôn Ngữ Tự Nhiên

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ngôn ngữ văn bản được chỉ định trong tài liệu Microsoft Word. Aspose.Words xuất ngôn ngữ được chỉ định sang đầu ra PDF với thuộc tính Lang được gắn vào chuỗi nội dung được đánh dấu hoặc thẻ Nhịp-nó được điều khiển bởi thuộc tính ExportLanguageToSpanTag. Nói chung không có vấn đề ngôn ngữ khi văn bản được nhập bởi người dùng thông qua Microsoft Word. Nhưng có khả năng ngôn ngữ có thể không chính xác nếu văn bản được tạo tự động.

Chú Thích Hình

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word tài liệu cho phép người dùng thêm chú thích hình.

Hiện tại Aspose.Words không thể xuất chú thích bằng thẻ Chú thích, vì vậy chúng phải được gắn cờ trong đầu ra PDF.

Mô Tả Thay Thế

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word tài liệu cho phép người dùng thêm văn bản thay thế vào hình ảnh, hình dạng và bảng. Aspose.Words xuất một văn bản thay thế như vậy sang đầu ra PDF.

Mô tả thay thế Cho Các Siêu Liên Kết

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Ngoài điểm trước, tài liệu Microsoft Word cũng cho phép người dùng thêm văn bản thay thế vào các siêu liên kết. Aspose.Words xuất một văn bản thay thế như vậy sang đầu ra PDF.

Thật không may, không phải mọi ứng dụng đều cho phép bạn thiết lập một mô tả thay thế. Ví dụ: Adobe Acrobat hiện không cho phép thiết lập mô tả như vậy cho các siêu liên kết. Nhưng trong Microsoft Word, bạn có thể làm điều này như sau:

alternate-descriptions-hyperlinks-mw

Đôi khi có một vấn đề là không thể đặt văn bản alt cho các siêu liên kết được tạo tự động trong mục lục (TOC) thông qua Microsoft Word GUI. Aspose.Words có thể cập nhật các trường như vậy và tự tạo các liên kết.

Làm theo ví dụ mã để cập nhật các trường TOC bằng Mô hình Đối tượng Tài liệu Aspose.Words (DOM):

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Tiêu Đề Bảng

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Các bảng trong PDF/UA-1 tài liệu phải có tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu đánh dấu bảng tiêu chuẩn, không có hạn chế bổ sung. Lưu ý rằng Aspose.Words tự động tạo đánh dấu bảng tiêu chuẩn.

Văn Bản Thay Thế

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word tài liệu không cho phép người dùng đặt văn bản thay thế. Vì vậy, điều này cần được xác minh và cố định trong đầu ra PDF:

AcrobatReplacementText

Viết tắt Và Từ Viết Tắt Mở rộng

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word tài liệu không cho phép người dùng đặt các từ viết tắt và từ viết tắt mở rộng. Vì vậy, điều này cần được xác minh và cố định trong đầu ra PDF:

AcrobatSplitAddExpansionText

Tiêu Đề Tài Liệu

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Tài liệu trong PDF/UA-1 nên có tiêu đề.

Yêu Cầu Phông Chữ

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Ngoài ra còn có một số sắc thái khi làm việc với phông chữ khi chuyển đổi sang PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 định dạng sử dụng Aspose.Words. Chúng phải được tính đến nếu bạn muốn tránh các vấn đề có thể xảy ra với tài liệu đầu ra.

Các phần dưới đây mô tả các sắc thái và tùy chọn như vậy cho giải pháp của họ.

Yêu Cầu Pháp Lý Về Phông Chữ

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words không xác minh các hạn chế pháp lý của phông chữ đã sử dụng – tùy thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp phông chữ không phù hợp cho PDF chuyển đổi bằng Aspose.Words.

.m Glyph

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Việc sử dụng glyph .notdef bị cấm. Glyph .notdef sẽ xuất hiện nếu một tài liệu chứa các ký tự không có trong phông chữ đã chọn và cũng không thể được giải quyết thông qua cơ chế Dự phòng Phông chữ.

Khu Vực Sử Dụng Riêng (PUA)

PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Các ký tự khu Vực sử dụng riêng (PUA) xuất hiện chủ yếu cho các phông chữ tượng trưng Windows như “Biểu tượng”, “Wingdings”, “Webdings” và các phông chữ khác. Microsoft Word định dạng không cung cấp một tùy chọn để lưu trữ văn bản thực tế cho các ký tự.

“Biểu tượng Segoe UI” là phông Chữ Unicode Windows có thể được sử dụng thay thế cho phông chữ tượng trưng.