Làm việc với PDF/A hoặc PDF/UA

Định dạng PDF/A và PDF/UA đặt ra một số yêu cầu liên quan đến nội dung tài liệu không thể đáp ứng được trong quá trình chuyển đổi tự động từ tài liệu ở định dạng Word sang PDF. Các yêu cầu này phải được xác minh và sửa trong tài liệu Word trước khi chuyển đổi hoặc trong tài liệu PDF sau khi chuyển đổi để tạo ra tài liệu tuân thủ PDF/A và PDF/UA đầy đủ.

Các yêu cầu cơ bản là về cấu trúc hoặc phông chữ của tài liệu PDF/A và PDF/UA mà chúng tôi sẽ xem xét trong các phần sau.

Yêu cầu về cấu trúc tài liệu

Các yêu cầu hiện tại dành cho các định dạng PDF/A-1a, PDF/A-2a, PDF/A-4 và PDF/UA-1.

Có một số sắc thái về cách hoạt động của Aspose.Words khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn nhận được kết quả như mong đợi.

Các phần phụ bên dưới mô tả các sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau và các tùy chọn cho giải pháp của chúng.

Loại cấu trúc

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và các khối khác. Các khối này tạo thành cấu trúc tài liệu – mạnh hoặc yếu.

Cả cấu trúc mạnh và yếu đều hợp lệ cho PDF/A. Theo thiết kế, các tài liệu Microsoft Word có cấu trúc yếu và Aspose.Words lần lượt tạo ra các tệp PDF có cấu trúc yếu, đồng thời tạo các tiêu đề theo mức độ phác thảo của các đoạn văn trong tài liệu nguồn.

Đối với tài liệu PDF/UA-1 có cấu trúc yếu, cần đánh số tiêu đề theo thứ tự không có khoảng trống.

Để đảm bảo đầu ra chính xác, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được sắp xếp hợp lý và mức độ phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa cấu trúc của tài liệu PDF đầu ra.

Đánh dấu nội dung là một hiện vật

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Hiện tại, Aspose.Words đánh dấu đầu trang và chân trang, dấu phân cách ghi chú, ô tiêu đề bảng lặp lại và hình ảnh trang trí dưới dạng tạo phẩm. Lưu ý rằng danh sách này có thể được cập nhật trong tương lai.

Nếu tài liệu chứa bất kỳ nội dung nào khác cần được đánh dấu là giả tạo hoặc nếu bất kỳ nội dung giả tạo nào là nội dung thực thì khách hàng nên sửa nội dung đó trong tệp PDF đầu ra.

Đặc tả ngôn ngữ tự nhiên

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ngôn ngữ văn bản được chỉ định trong tài liệu Microsoft Word. Aspose.Words xuất ngôn ngữ được chỉ định sang tệp PDF đầu ra có thuộc tính Lang được đính kèm với chuỗi nội dung được đánh dấu hoặc thẻ Span – nó được kiểm soát bởi thuộc tính ExportLanguageToSpanTag. Nói chung không có vấn đề về ngôn ngữ khi người dùng nhập văn bản qua Microsoft Word. Nhưng có khả năng ngôn ngữ có thể không chính xác nếu văn bản được tạo tự động.

Chú thích hình

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tài liệu Microsoft Word cho phép người dùng thêm chú thích hình.

Hiện tại Aspose.Words không thể xuất phụ đề bằng thẻ Caption nên chúng phải được gắn cờ trong tệp PDF đầu ra.

Mô tả thay thế

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Tài liệu Microsoft Word cho phép người dùng thêm văn bản thay thế vào hình ảnh, hình dạng và bảng. Aspose.Words xuất văn bản thay thế đó sang tệp PDF đầu ra.

Mô tả thay thế cho siêu liên kết

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Ngoài điểm trước, tài liệu Microsoft Word còn cho phép người dùng thêm văn bản thay thế vào siêu liên kết. Aspose.Words xuất văn bản thay thế đó sang tệp PDF đầu ra.

Thật không may, không phải ứng dụng nào cũng cho phép bạn thiết lập mô tả thay thế. Ví dụ: Adobe Acrobat hiện không cho phép thiết lập mô tả như vậy cho các siêu liên kết. Nhưng trong Microsoft Word, bạn có thể thực hiện việc này như sau:

description thay thế-siêu liên kết-mw

Đôi khi có một vấn đề là không thể đặt văn bản thay thế cho các siêu liên kết được tạo tự động trong mục lục (TOC) thông qua GUI Microsoft Word. Aspose.Words có thể cập nhật các trường như vậy và tự tạo các liên kết.

Làm theo mã ví dụ để cập nhật các trường TOC bằng Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Tiêu đề bảng

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Các bảng trong tài liệu PDF/UA-1 phải có tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu đánh dấu bảng tiêu chuẩn, không có hạn chế bổ sung. Lưu ý rằng Aspose.Words tự động tạo đánh dấu bảng tiêu chuẩn.

Văn bản thay thế

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Tài liệu Microsoft Word không cho phép người dùng đặt văn bản thay thế. Vì vậy, điều này cần được xác minh và sửa trong bản PDF đầu ra:

AcrobatVăn bản thay thế

Từ viết tắt và mở rộng từ viết tắt

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Tài liệu Microsoft Word không cho phép người dùng thiết lập các từ viết tắt và mở rộng từ viết tắt. Vì vậy, điều này cần được xác minh và sửa trong bản PDF đầu ra:

AcrobatSplitAddExpansionText

Tiêu đề tài liệu

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Tài liệu ở dạng PDF/UA-1 phải có tiêu đề

Yêu cầu về phông chữ

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Ngoài ra còn có một số sắc thái khi làm việc với phông chữ khi chuyển đổi sang các định dạng PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 bằng Aspose.Words. Chúng phải được tính đến nếu bạn muốn tránh các vấn đề có thể xảy ra với tài liệu đầu ra.

Các phần bên dưới mô tả các sắc thái và lựa chọn cho giải pháp của họ.

Yêu cầu pháp lý về phông chữ

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words không xác minh các giới hạn pháp lý của phông chữ được sử dụng – điều này tùy thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp phông chữ không phù hợp để chuyển đổi PDF bằng Aspose.Words.

.notdef Glyph

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Việc sử dụng .notdef glyph bị cấm. .notdef glyph sẽ xuất hiện nếu tài liệu chứa các ký tự không có trong phông chữ đã chọn và cũng không thể giải quyết được thông qua cơ chế Dự phòng Phông chữ.

Khu vực sử dụng riêng (PUA)

Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words Sự hiện diện của yêu cầu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Các ký tự trong Khu vực sử dụng riêng (PUA) chủ yếu xuất hiện cho các phông chữ biểu tượng Windows như “Symbol”, “Wingdings”, “Webdings” và các phông chữ khác. Các định dạng Microsoft Word không cung cấp tùy chọn lưu trữ văn bản thực tế cho các ký tự.

“Biểu tượng giao diện người dùng Segoe” là phông chữ Windows Unicode có thể được sử dụng thay thế cho phông chữ tượng trưng.