Làm việc với PDF/A hoặc PDF/UA
Định dạng PDF/A và PDF/UA đặt ra một số yêu cầu liên quan đến nội dung tài liệu không thể đáp ứng được trong quá trình chuyển đổi tự động từ tài liệu ở định dạng Word sang PDF. Các yêu cầu này phải được xác minh và sửa trong tài liệu Word trước khi chuyển đổi hoặc trong tài liệu PDF sau khi chuyển đổi để tạo ra tài liệu tuân thủ PDF/A và PDF/UA đầy đủ.
Các yêu cầu cơ bản là về cấu trúc hoặc phông chữ của tài liệu PDF/A và PDF/UA mà chúng tôi sẽ xem xét trong các phần sau.
Yêu cầu về cấu trúc tài liệu
Các yêu cầu hiện tại dành cho các định dạng PDF/A-1a, PDF/A-2a, PDF/A-4 và PDF/UA-1.
Có một số sắc thái về cách hoạt động của Aspose.Words khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn nhận được kết quả như mong đợi.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Người viết không nên tạo ra thông tin cấu trúc hoặc ngữ nghĩa bằng cách sử dụng các quy trình tự động mà không có sự xác minh thích hợp.
ISO 19005-2, 6.7.1
Các phần phụ bên dưới mô tả các sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau và các tùy chọn cho giải pháp của chúng.
Loại cấu trúc
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và các khối khác. Các khối này tạo thành cấu trúc tài liệu – mạnh hoặc yếu.
Cả cấu trúc mạnh và yếu đều hợp lệ cho PDF/A. Theo thiết kế, các tài liệu Microsoft Word có cấu trúc yếu và Aspose.Words lần lượt tạo ra các tệp PDF có cấu trúc yếu, đồng thời tạo các tiêu đề theo mức độ phác thảo của các đoạn văn trong tài liệu nguồn.
Đối với tài liệu PDF/UA-1 có cấu trúc yếu, cần đánh số tiêu đề theo thứ tự không có khoảng trống.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Cấu trúc cấp khối có thể tuân theo một trong hai mô hình chính:
ISO-32000-1, 14.8.4.3.5
Đối với tài liệu PDF/UA-1, thông số kỹ thuật có phần bổ sung liên quan đến cấp độ tiêu đề (mở rộng để xem chi tiết):
Nếu ngữ nghĩa tài liệu yêu cầu một chuỗi tiêu đề giảm dần thì trình tự đó sẽ diễn ra theo thứ tự số nghiêm ngặt và không được bỏ qua cấp độ tiêu đề ở giữa. H1 H2 H3 được phép, trong khi H1 H3 thì không.
ISO-14289-1, 7.4.2
Để đảm bảo đầu ra chính xác, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được sắp xếp hợp lý và mức độ phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa cấu trúc của tài liệu PDF đầu ra.
Trong khối này, bạn có thể xem các ví dụ: cách đặt mức phác thảo trong Microsoft Word hoặc kiểm tra và sửa cấu trúc của tài liệu PDF đầu ra (mở rộng để xem chi tiết).
Trong các kiểu "Tiêu đề X" mặc định của Microsoft Word có thể được sử dụng để đặt mức phác thảo:
Ngoài ra, mức độ phác thảo có thể được kiểm tra hoặc thay đổi trong cửa sổ "Đoạn":
Trong Acrobat, cấu trúc tài liệu có thể được kiểm tra hoặc thay đổi trong khung "Thẻ":
Đánh dấu nội dung là một hiện vật
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Hiện tại, Aspose.Words đánh dấu đầu trang và chân trang, dấu phân cách ghi chú, ô tiêu đề bảng lặp lại và hình ảnh trang trí dưới dạng tạo phẩm. Lưu ý rằng danh sách này có thể được cập nhật trong tương lai.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Các đối tượng đồ họa trong tài liệu có thể được chia thành hai lớp:
ISO-32000-1, 14.8.2.2.1
Nếu tài liệu chứa bất kỳ nội dung nào khác cần được đánh dấu là giả tạo hoặc nếu bất kỳ nội dung giả tạo nào là nội dung thực thì khách hàng nên sửa nội dung đó trong tệp PDF đầu ra.
Trong khối này, bạn có thể xem các ví dụ: cách đánh dấu hình dạng là trang trí trong Microsoft Word hoặc đánh dấu hình dạng là tạo phẩm trong tài liệu PDF đầu ra (mở rộng để xem chi tiết).
Ví dụ: các hình dạng có thể được đánh dấu là trang trí trong Microsoft Word, vì vậy chúng sẽ được xuất sang PDF dưới dạng tạo phẩm:
Bạn có thể đánh dấu hình dạng là một tạo phẩm trong tệp PDF đầu ra:
Ngoài ra, bạn có thể chuyển văn bản trong tiêu đề từ nội dung giả sang nội dung thực trong tệp PDF đầu ra:
Đặc tả ngôn ngữ tự nhiên
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngôn ngữ văn bản được chỉ định trong tài liệu Microsoft Word. Aspose.Words xuất ngôn ngữ được chỉ định sang tệp PDF đầu ra có thuộc tính Lang được đính kèm với chuỗi nội dung được đánh dấu hoặc thẻ Span – nó được kiểm soát bởi thuộc tính ExportLanguageToSpanTag. Nói chung không có vấn đề về ngôn ngữ khi người dùng nhập văn bản qua Microsoft Word. Nhưng có khả năng ngôn ngữ có thể không chính xác nếu văn bản được tạo tự động.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Ngôn ngữ tự nhiên mặc định cho tất cả văn bản trong một tệp phải được chỉ định bởi mục nhập Lang trong từ điển Danh mục của tài liệu.
Tất cả nội dung văn bản trong một tệp khác với ngôn ngữ mặc định phải được biểu thị bằng cách sử dụng thuộc tính `Lang` được đính kèm với chuỗi nội dung được đánh dấu hoặc bằng mục nhập Lang trong từ điển thành phần cấu trúc ...
ISO-19005-2, 6.7.4
Ngoài ra, đối với PDF/UA-1, thông số kỹ thuật cho chúng ta biết những thông tin sau (mở rộng để xem chi tiết):
Khai báo ngôn ngữ tự nhiên… Khai báo những thay đổi trong ngôn ngữ tự nhiên.
ISO-14289-1, 7.2
Trong khối này, bạn có thể xem các ví dụ: cách đảm bảo ngôn ngữ được chỉ định chính xác (mở rộng để xem chi tiết).
Người dùng phải đảm bảo rằng ngôn ngữ được chỉ định chính xác trong tài liệu Word nguồn:
Hoặc tài liệu PDF đầu ra:
Chú thích hình
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tài liệu Microsoft Word cho phép người dùng thêm chú thích hình.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Chú thích kèm theo hình sẽ được gắn thẻ Chú thích.
ISO-14289-1, 7.3
Hiện tại Aspose.Words không thể xuất phụ đề bằng thẻ Caption nên chúng phải được gắn cờ trong tệp PDF đầu ra.
Trong khối này, bạn có thể xem ví dụ: cách chèn chú thích (mở rộng để xem chi tiết).
Trong Microsoft Word, chú thích có thể được chèn thông qua menu ngữ cảnh:
Trong Acrobat, chú thích có thể được thêm hoặc thay đổi thông qua hộp thoại Thuộc tính `Object`:
Mô tả thay thế
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tài liệu Microsoft Word cho phép người dùng thêm văn bản thay thế vào hình ảnh, hình dạng và bảng. Aspose.Words xuất văn bản thay thế đó sang tệp PDF đầu ra.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Tất cả các thành phần cấu trúc có nội dung không có văn bản tương tự tự nhiên được xác định trước, ví dụ: hình ảnh, công thức, v.v., phải cung cấp mô tả văn bản thay thế bằng cách sử dụng mục Alt trong từ điển thành phần cấu trúc...
LƯU Ý Các mô tả thay thế cung cấp các mô tả bằng văn bản hỗ trợ việc diễn giải đúng nội dung phi văn bản không rõ ràng.
ISO-19005-2, 6.7.5
Trong khối này, bạn có thể xem các ví dụ: cách đảm bảo rằng tất cả các thành phần đều có văn bản thay thế (mở rộng để xem chi tiết).
Người dùng phải đảm bảo rằng tất cả các thành phần đều có văn bản thay thế trong tài liệu Word nguồn:
Hoặc tài liệu PDF đầu ra:
Mô tả thay thế cho siêu liên kết
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngoài điểm trước, tài liệu Microsoft Word còn cho phép người dùng thêm văn bản thay thế vào siêu liên kết. Aspose.Words xuất văn bản thay thế đó sang tệp PDF đầu ra.
Thật không may, không phải ứng dụng nào cũng cho phép bạn thiết lập mô tả thay thế. Ví dụ: Adobe Acrobat hiện không cho phép thiết lập mô tả như vậy cho các siêu liên kết. Nhưng trong Microsoft Word, bạn có thể thực hiện việc này như sau:
Đôi khi có một vấn đề là không thể đặt văn bản thay thế cho các siêu liên kết được tạo tự động trong mục lục (TOC) thông qua GUI Microsoft Word. Aspose.Words có thể cập nhật các trường như vậy và tự tạo các liên kết.
Làm theo mã ví dụ để cập nhật các trường TOC
bằng Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Tiêu đề bảng
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Các bảng trong tài liệu PDF/UA-1 phải có tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu đánh dấu bảng tiêu chuẩn, không có hạn chế bổ sung. Lưu ý rằng Aspose.Words tự động tạo đánh dấu bảng tiêu chuẩn.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Bảng phải bao gồm tiêu đề… Bảng có thể chứa tiêu đề cột, tiêu đề hàng hoặc cả hai.
ISO-14289-1, 7.5
Trong khối này, bạn có thể xem các ví dụ: cách đặt tiêu đề bảng (mở rộng để xem chi tiết).
Tiêu đề bảng có thể được thiết lập trong tài liệu Microsoft Word nguồn:
Hoặc bản PDF đầu ra:
Văn bản thay thế
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Thông số kỹ thuật cho chúng ta biết những điều sau:
Tất cả các thành phần cấu trúc văn bản được thể hiện theo cách không chuẩn, ví dụ: các ký tự tùy chỉnh hoặc đồ họa nội tuyến, phải cung cấp văn bản thay thế bằng cách sử dụng mục nhập `ActualText` trong từ điển thành phần cấu trúc...
ISO-19005-2, 6.7.7
Tài liệu Microsoft Word không cho phép người dùng đặt văn bản thay thế. Vì vậy, điều này cần được xác minh và sửa trong bản PDF đầu ra:
Từ viết tắt và mở rộng từ viết tắt
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Tất cả các trường hợp viết tắt và từ viết tắt trong nội dung văn bản phải được đặt theo trình tự nội dung được đánh dấu bằng thẻ Span có thuộc tính E cung cấp phần mở rộng văn bản của từ viết tắt hoặc từ viết tắt...
ISO-19005-2, 6.7.8
Tài liệu Microsoft Word không cho phép người dùng thiết lập các từ viết tắt và mở rộng từ viết tắt. Vì vậy, điều này cần được xác minh và sửa trong bản PDF đầu ra:
Tiêu đề tài liệu
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Tài liệu ở dạng PDF/UA-1 phải có tiêu đề |
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Thông số kỹ thuật cho chúng ta biết những điều sau:
Luồng siêu dữ liệu trong từ điển danh mục của tài liệu sẽ chứa mục nhập dc:title, trong đó dc là tiền tố được đề xuất cho lược đồ siêu dữ liệu Dublin Core…
ISO-14289-1, 7.1
Trong khối này, bạn có thể xem các ví dụ: cách đặt tiêu đề tài liệu (mở rộng để xem chi tiết).
Tiêu đề tài liệu có thể được thiết lập từ tài liệu Microsoft Word nguồn:
Hoặc bản PDF đầu ra:
Yêu cầu về phông chữ
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Ngoài ra còn có một số sắc thái khi làm việc với phông chữ khi chuyển đổi sang các định dạng PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 bằng Aspose.Words. Chúng phải được tính đến nếu bạn muốn tránh các vấn đề có thể xảy ra với tài liệu đầu ra.
Các phần bên dưới mô tả các sắc thái và lựa chọn cho giải pháp của họ.
Yêu cầu pháp lý về phông chữ
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words không xác minh các giới hạn pháp lý của phông chữ được sử dụng – điều này tùy thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp phông chữ không phù hợp để chuyển đổi PDF bằng Aspose.Words.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Chỉ được sử dụng các chương trình phông chữ có thể nhúng hợp pháp vào một tệp để hiển thị phổ biến, không giới hạn.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (có cùng trích dẫn trong hai thông số kỹ thuật)
.notdef Glyph
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Việc sử dụng .notdef
glyph bị cấm. .notdef
glyph sẽ xuất hiện nếu tài liệu chứa các ký tự không có trong phông chữ đã chọn và cũng không thể giải quyết được thông qua cơ chế Dự phòng Phông chữ.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Tài liệu tuân thủ không được chứa tham chiếu đến .notdef glyph từ bất kỳ toán tử hiển thị văn bản nào, bất kể chế độ hiển thị văn bản, trong bất kỳ luồng nội dung nào.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (có cùng trích dẫn trong hai thông số kỹ thuật)
Trong khối này, bạn có thể xem ví dụ: cách xóa hoặc thay thế các ký tự này (mở rộng để xem chi tiết).
Người dùng nên xóa hoặc thay thế các ký tự này trong tài liệu Word nguồn:
Hoặc xuất tài liệu PDF bằng công cụ "Chỉnh sửa PDF":
Khu vực sử dụng riêng (PUA)
Mức độ tuân thủ tiêu chuẩn PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Các ký tự trong Khu vực sử dụng riêng (PUA) chủ yếu xuất hiện cho các phông chữ biểu tượng Windows như “Symbol”, “Wingdings”, “Webdings” và các phông chữ khác. Các định dạng Microsoft Word không cung cấp tùy chọn lưu trữ văn bản thực tế cho các ký tự.
Thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Chỉ dành cho tuân thủ Cấp A, đối với bất kỳ ký tự nào ... được ánh xạ tới một mã hoặc các mã trong Khu vực sử dụng riêng Unicode (PUA), mục nhập Văn bản thực tế ... sẽ xuất hiện cho ký tự này hoặc một chuỗi ký tự trong đó một nhân vật là một phần.
ISO-19005-2, 6.2.11.7.3
“Biểu tượng giao diện người dùng Segoe” là phông chữ Windows Unicode có thể được sử dụng thay thế cho phông chữ tượng trưng.
Trong khối này, bạn có thể xem các ví dụ: người dùng nên làm gì để giải quyết vấn đề với phông chữ tượng trưng (mở rộng để xem chi tiết).
Thay thế phông chữ tượng trưng bằng phông chữ Unicode trong tài liệu Word nguồn:
Hoặc thêm mục nhậpActualText vào các ký tự có vấn đề trong tài liệu PDF đầu ra: