Làm việc với PDF/A hoặc PDF/UA

Định dạng PDF/A và PDF/UA đặt ra nhiều yêu cầu liên quan đến nội dung tài liệu mà không thể đáp ứng trong quá trình chuyển đổi tự động từ một tài liệu ở định dạng Word sang định dạng PDF. Những yêu cầu này nên được xác minh và sửa đổi hoặc trong một tài liệu word trước khi chuyển đổi hoặc trong một tài liệu pdf sau khi chuyển đổi để tạo ra một tài liệu tuân thủ hoàn toàn với PDF/A và PDF/UA.

Yêu cầu cơ bản dành cho cấu trúc hoặc phông chữ của một tài liệu PDF/A và PDF/UA mà chúng ta sẽ xem xét trong các phần tiếp theo.

Yêu cầu cấu trúc tài liệu

Yêu cầu hiện tại là các định dạng PDF/A-1a, PDF/A-2a, PDF/A-4 và PDF/UA-1.

Có một số sắc thái của cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn nhận được kết quả như mong đợi.

Các tiểu mục bên dưới mô tả các sự tinh tế của cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn và tùy chọn khác nhau của định dạng PDF, và giải pháp cho họ.

Kiểu cấu trúc

Các mức tuân thủ chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Một tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và những người khác. Những khối này tạo thành một cấu trúc tài liệu – mạnh hoặc yếu.

Cả cấu trúc mạnh và yếu đều hợp lệ cho PDF/A. Microsoft Word tài liệu có cấu trúc yếu theo thiết kế, và Aspose.Words tạo ra một tập tin PDF với cấu trúc yếu tương ứng và cũng tạo ra tiêu đề dựa trên các cấp độ phác thảo của các đoạn trong tài liệu nguồn.

Đối với một tài liệu PDF/UA-1 có cấu trúc yếu, ngoài ra còn cần thiết là các số dòng tiêu đề đi theo thứ tự mà không có khoảng cách.

Để đảm bảo đầu ra đúng, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được tổ chức chính xác và các mức phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa chữa cấu trúc của tài liệu PDF đầu ra.

Đánh dấu Nội dung là một Hiện vật

Cung cấp mức tuân thủ các tiêu chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Hiện tại Aspose.Words đánh dấu tiêu đề trang và chân trang, các dấu phân cách ghi chú, các ô bảng tiêu đề lặp lại, và hình ảnh trang trí là những mảnh vụn. Hãy lưu ý rằng danh sách này có thể được cập nhật trong tương lai.

Nếu một tài liệu chứa bất kỳ nội dung nào nên được đánh dấu là một hiện vật, hoặc nếu bất kỳ nội dung hiện vật nào là nội dung thực, khách hàng nên sửa đó trong tệp PDF đầu ra.

Spesfication Ngôn ngữ Tự nhiên

Các mức tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ngôn ngữ văn bản được xác định trong Microsoft Word tài liệu. Aspose.Words xuất ngôn ngữ đã chỉ định sang một tập tin PDF với thuộc tính Lang gắn vào một chuỗi nội dung đánh dấu hoặc thẻ Span – nó được kiểm soát bởi thuộc tính ExportLanguageToSpanTag. Thông thường không có vấn đề ngôn ngữ khi văn bản được nhập bởi người dùng thông qua Microsoft Word. Nhưng có khả năng ngôn ngữ không chính xác nếu văn bản được tạo ra một cách tự động.

Hình chú thích

Tiêu chuẩn PDF trong phạm vi Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word tài liệu cho phép người dùng thêm chú thích hình ảnh

Hiện tại Aspose.Words không thể xuất chú thích với thẻ Caption, nên chúng phải được đánh dấu trong tập tin PDF đầu ra.

Mô tả thay thế

Các mức tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word tài liệu cho phép người dùng thêm văn bản thay thế vào hình ảnh, các hình dạng và bảng. Aspose.Words xuất văn bản thay thế đó thành tập tin PDF đầu ra.

Mô tả thay thế cho các liên kết

Các mức tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Ngoài điểm trước, các Microsoft Word tài liệu cũng cho phép người dùng thêm văn bản thay thế cho các liên kết. Aspose.Words xuất văn bản đó ra trong tập tin PDF.

Thật không may, không phải mọi ứng dụng đều cho phép bạn thiết lập một mô tả thay thế. Ví dụ, Adobe Acrobat hiện tại không cho phép thiết lập mô tả như vậy cho các liên kết siêu văn bản. Nhưng trong Microsoft Word, bạn có thể làm như sau:”

alternate-descriptions-hyperlinks-mw

Đôi khi có một vấn đề là không thể đặt văn bản thay thế cho các liên kết tự động trong bảng nội dung (TOC) thông qua giao diện đồ họa Microsoft Word. Aspose.Words có thể cập nhật các trường như vậy và tạo ra các liên kết của nó.

Làm theo ví dụ mã để cập nhật TOC trường sử dụng Aspose.Words Document Object Model DOM:

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Tiêu đề bảng

Mức tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Các bảng trong tài liệu PDF/UA-1 phải có các tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu tiêu chuẩn đánh dấu bảng, không có những hạn chế bổ sung nào. Lời chú ý rằng Aspose.Words tạo ra mã đánh dấu bảng tiêu chuẩn tự động.

Thay thế văn bản

Các mức tuân thủ chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word tài liệu không cho phép người dùng đặt văn bản thay thế. Vậy nó cần được xác nhận và sửa chữa trong tập tin PDF đầu ra

AcrobatReplacementText

Chữ viết tắt và từ viết tắt Chỗ mở rộng

Các mức tuân thủ PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Bất kỳ tài liệu Microsoft Word nào cũng không cho phép người dùng thiết lập các từ viết tắt và mở rộng từ viết tắt. Vì vậy điều này cần phải được xác minh và sửa trong PDF đầu ra:

AcrobatSplitAddExpansionText

Tiêu đề Tài liệu

Các mức tuân thủ tiêu chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Tài liệu trong PDF/UA-1 nên có tiêu đề.

Yêu cầu về phông chữ

Tiêu chuẩn tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Cũng có nhiều sắc thái khi làm việc với phông chữ khi chuyển đổi sang các định dạng PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 sử dụng Aspose.Words. Bạn cần tính đến điều này nếu bạn muốn tránh được những vấn đề có thể xảy ra với tài liệu đầu ra.

Các phần dưới đây mô tả những sắc thái và các phương pháp giải quyết.

Yêu cầu pháp lý về phông chữ

Các mức tuân thủ tiêu chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words không kiểm tra các hạn chế pháp lý của phông chữ được sử dụng - nó phụ thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp các phông chữ không phù hợp cho việc chuyển đổi PDF bằng Aspose.Words.

.notdef Glyph

Các mức tuân thủ PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Việc sử dụng .notdef glyph bị cấm. Biểu tượng .notdef glyph sẽ hiện ra nếu một tài liệu chứa ký tự không có trong phông chữ đã chọn và cũng không thể giải quyết được thông qua cơ chế “Font Fallback.

Khu vực sử dụng riêng (PUA)

Mức tuân thủ tiêu chuẩn PDF trong Aspose.Words Yêu cầu hiện diện
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Ký tự khu vực sử dụng riêng (PUA) xuất hiện chủ yếu đối với Windows phông chữ tượng trưng như “Symbol”, “Wingdings”, “Webdings” và các loại khác. Microsoft Word định dạng không cung cấp tùy chọn để lưu trữ văn bản thực tế cho ký tự.

“Segoe UI Symbol” là một phông chữ Windows Unicode có thể dùng thay thế cho các phông chữ ký hiệu.