Làm việc với PDF/A hoặc PDF/UA
Định dạng PDF/A và PDF/UA đặt ra nhiều yêu cầu liên quan đến nội dung tài liệu mà không thể đáp ứng trong quá trình chuyển đổi tự động từ một tài liệu ở định dạng Word sang định dạng PDF. Những yêu cầu này nên được xác minh và sửa đổi hoặc trong một tài liệu word trước khi chuyển đổi hoặc trong một tài liệu pdf sau khi chuyển đổi để tạo ra một tài liệu tuân thủ hoàn toàn với PDF/A và PDF/UA.
Yêu cầu cơ bản dành cho cấu trúc hoặc phông chữ của một tài liệu PDF/A và PDF/UA mà chúng ta sẽ xem xét trong các phần tiếp theo.
Yêu cầu cấu trúc tài liệu
Yêu cầu hiện tại là các định dạng PDF/A-1a, PDF/A-2a, PDF/A-4 và PDF/UA-1.
Có một số sắc thái của cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn nhận được kết quả như mong đợi.
<chi tiết>
Tráng miệng cho người viết là không hợp lý khi họ tạo ra thông tin cấu trúc hoặc ngữ nghĩa bằng các quy trình tự động mà không có xác nhận phù hợp
ISO 19005-2, 6.7.1
<chi tiết>Các tiểu mục bên dưới mô tả các sự tinh tế của cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn và tùy chọn khác nhau của định dạng PDF, và giải pháp cho họ.
Kiểu cấu trúc
Các mức tuân thủ chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Một tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và những người khác. Những khối này tạo thành một cấu trúc tài liệu – mạnh hoặc yếu.
Cả cấu trúc mạnh và yếu đều hợp lệ cho PDF/A. Microsoft Word tài liệu có cấu trúc yếu theo thiết kế, và Aspose.Words tạo ra một tập tin PDF với cấu trúc yếu tương ứng và cũng tạo ra tiêu đề dựa trên các cấp độ phác thảo của các đoạn trong tài liệu nguồn.
Đối với một tài liệu PDF/UA-1 có cấu trúc yếu, ngoài ra còn cần thiết là các số dòng tiêu đề đi theo thứ tự mà không có khoảng cách.
<chi tiết>
Cấu trúc khối có thể theo một trong hai nguyên lý chính sau đây:
< / ol>ISO-32000-1, 14.8.4.3.5
</chi tiết><chi tiết>
Nếu ngữ nghĩa tài liệu yêu cầu một chuỗi tiêu đề giảm dần, chuỗi đó phải tiếp tục theo thứ tự số chính xác và không bỏ qua mức tiêu đề can thiệp.
ISO-14289-1, 7.4.2
<chi tiết>Để đảm bảo đầu ra đúng, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được tổ chức chính xác và các mức phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa chữa cấu trúc của tài liệu PDF đầu ra.
<chi tiết>
Trong Microsoft Word các kiểu mặc định “Heading X” có thể được dùng để đặt mức phác thảo:
Ngoài ra, mức phông chữ có thể được kiểm tra hoặc thay đổi trong cửa sổ “Đoạn văn”:
Trong Acrobat, cấu trúc tài liệu có thể được kiểm tra hoặc thay đổi trong cửa sổ “Thẻ”
<chi tiết>Đánh dấu Nội dung là một Hiện vật
Cung cấp mức tuân thủ các tiêu chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Hiện tại Aspose.Words đánh dấu tiêu đề trang và chân trang, các dấu phân cách ghi chú, các ô bảng tiêu đề lặp lại, và hình ảnh trang trí là những mảnh vụn. Hãy lưu ý rằng danh sách này có thể được cập nhật trong tương lai.
<chi tiết>
Các đối tượng đồ họa trong một tài liệu có thể được chia thành hai lớp:
- Nội dung thực của một tài liệu bao gồm các đối tượng đại diện cho vật liệu do tác giả của tài liệu giới thiệu ban đầu.
- Artifacts là đồ họa không phải là một phần của nội dung gốc của tác giả nhưng được tạo ra bởi người viết tuân thủ trong quá trình sắp xếp trang, bố cục hoặc các quy trình cơ khí khác.
ISO-32000-1, 14.8.2.2.1
Nếu một tài liệu chứa bất kỳ nội dung nào nên được đánh dấu là một hiện vật, hoặc nếu bất kỳ nội dung hiện vật nào là nội dung thực, khách hàng nên sửa đó trong tệp PDF đầu ra.
<chi tiết>
Ví dụ, những hình dạng có thể được đánh dấu là trang trí trong Microsoft Word, vì vậy chúng sẽ được xuất sang PDF như một tác phẩm nghệ thuật:
Bạn có thể đánh dấu hình dạng như một hiện vật trong tệp PDF đầu ra:
Cũng vậy, bạn có thể chuyển văn bản trong tiêu đề từ đối tượng sang nội dung thực trong tệp PDF đầu ra.
</chi tiết>Spesfication Ngôn ngữ Tự nhiên
Các mức tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngôn ngữ văn bản được xác định trong Microsoft Word tài liệu. Aspose.Words xuất ngôn ngữ đã chỉ định sang một tập tin PDF với thuộc tính Lang gắn vào một chuỗi nội dung đánh dấu hoặc thẻ Span – nó được kiểm soát bởi thuộc tính ExportLanguageToSpanTag. Thông thường không có vấn đề ngôn ngữ khi văn bản được nhập bởi người dùng thông qua Microsoft Word. Nhưng có khả năng ngôn ngữ không chính xác nếu văn bản được tạo ra một cách tự động.
<chi tiết>
Ngôn ngữ tự nhiên mặc định cho tất cả các văn bản trong một tập tin nên được chỉ định bởi mục nhập Lang trong từ điển danh mục của tài liệu.
Tất cả nội dung văn bản trong một tập tin khác với ngôn ngữ mặc định nên được chỉ ra bằng cách sử dụng một Lang
thuộc tính được gắn vào một chuỗi nội dung đánh dấu, hoặc bằng cách có một mục nhập Lang trong một từ điển phần tử cấu trúc…
ISO - 19005-2, 6.7.4
<chi tiết><chi tiết>
Ngôn ngữ tự nhiên sẽ được tuyên bố… Thay đổi trong ngôn ngữ tự nhiên sẽ được tuyên bố
ISO-14289-1, 7.2
<chi tiết>
Người dùng nên đảm bảo rằng ngôn ngữ được chỉ rõ chính xác trong tài liệu từ Word nguồn:
Or the output PDF document:
<chi tiết>Hình chú thích
Tiêu chuẩn PDF trong phạm vi Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word tài liệu cho phép người dùng thêm chú thích hình ảnh
<chi tiết>
Lời chú thích đi kèm với một hình ảnh sẽ được gắn thẻ với một thẻ Chú thích.
ISO-14289-1, 7.3
</chi tiết>Hiện tại Aspose.Words không thể xuất chú thích với thẻ Caption, nên chúng phải được đánh dấu trong tập tin PDF đầu ra.
<chi tiết>
Trong Microsoft Word chú thích có thể được chèn thông qua trình đơn ngữ cảnh
Trong Acrobat, chú thích có thể được thêm hoặc thay đổi bằng hộp thoại Object
Properties.
Mô tả thay thế
Các mức tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word tài liệu cho phép người dùng thêm văn bản thay thế vào hình ảnh, các hình dạng và bảng. Aspose.Words xuất văn bản thay thế đó thành tập tin PDF đầu ra.
<chi tiết>
Tất cả các phần tử cấu trúc mà nội dung của chúng không có một sự tương đương văn bản tự nhiên trước đó, ví dụ như hình ảnh, công thức, v.v., nên cung cấp một mô tả văn bản thay thế sử dụng mục Alt trong từ điển phần tử cấu trúc…
NOTE Các mô tả thay thế cung cấp các mô tả văn bản giúp hỗ trợ việc hiểu đúng các nội dung phi văn bản không rõ ràng khác.
ISO-19005-2, 6.7.5
</chi tiết><chi tiết>
Người dùng nên đảm bảo rằng tất cả các yếu tố đều có văn bản thay thế trong tài liệu từ Word nguồn:
hoặc tài liệu PDF đầu ra
Mô tả thay thế cho các liên kết
Các mức tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngoài điểm trước, các Microsoft Word tài liệu cũng cho phép người dùng thêm văn bản thay thế cho các liên kết. Aspose.Words xuất văn bản đó ra trong tập tin PDF.
Thật không may, không phải mọi ứng dụng đều cho phép bạn thiết lập một mô tả thay thế. Ví dụ, Adobe Acrobat hiện tại không cho phép thiết lập mô tả như vậy cho các liên kết siêu văn bản. Nhưng trong Microsoft Word, bạn có thể làm như sau:"
Đôi khi có một vấn đề là không thể đặt văn bản thay thế cho các liên kết tự động trong bảng nội dung (TOC) thông qua giao diện đồ họa Microsoft Word. Aspose.Words có thể cập nhật các trường như vậy và tạo ra các liên kết của nó.
Làm theo ví dụ mã để cập nhật TOC
trường sử dụng Aspose.Words Document Object Model DOM:
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Tiêu đề bảng
Mức tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Các bảng trong tài liệu PDF/UA-1 phải có các tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu tiêu chuẩn đánh dấu bảng, không có những hạn chế bổ sung nào. Lời chú ý rằng Aspose.Words tạo ra mã đánh dấu bảng tiêu chuẩn tự động.
Các bảng nên có các tiêu đề … Các bảng có thể chứa các tiêu đề cột, tiêu đề hàng hoặc cả hai.
ISO-14289-1, 7.5
<chi tiết>
Biểu đầu bảng có thể được thiết lập trong tài liệu nguồn Microsoft Word
Hoặc bản ra PDF:
Thay thế văn bản
Các mức tuân thủ chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
<chi tiết> <tóm tắt> thông số nói với chúng tôi những điều sau (phát triển để xem chi tiết): </tóm tắt>
Tiêu chuẩn này nói với chúng ta điều sau đây:
Tất cả các phần tử cấu trúc văn bản được biểu diễn theo cách không chuẩn, ví dụ như ký tự tùy chỉnh hoặc hình ảnh trong dòng, nên cung cấp văn bản thay thế sử dụng mục ActualText
trong từ điển phần tử cấu trúc.
ISO-19005-2, 6.7.7
<chi tiết>Microsoft Word tài liệu không cho phép người dùng đặt văn bản thay thế. Vậy nó cần được xác nhận và sửa chữa trong tập tin PDF đầu ra
Chữ viết tắt và từ viết tắt Chỗ mở rộng
Các mức tuân thủ PDF trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
<chi tiết>
Tất cả trường hợp của từ viết tắt và từ viết tắt trong nội dung văn bản nên được đặt trong một chuỗi nội dung đã đánh dấu với thẻ Span, mà thuộc tính E cung cấp một sự mở rộng văn bản của từ viết tắt hoặc từ viết tắt…
ISO-19005-2, 6.7.8
Bất kỳ tài liệu Microsoft Word nào cũng không cho phép người dùng thiết lập các từ viết tắt và mở rộng từ viết tắt. Vì vậy điều này cần phải được xác minh và sửa trong PDF đầu ra:
Tiêu đề Tài liệu
Các mức tuân thủ tiêu chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Tài liệu trong PDF/UA-1 nên có tiêu đề. |
<chi tiết>
Bản quy định nói với chúng ta điều sau đây:
Dòng siêu dữ liệu trong từ điển danh mục của tài liệu phải chứa một mục dc:title, nơi dc là tiền tố được khuyến nghị cho lược đồ siêu dữ liệu Dublin Core…
ISO-14289-1, 7.1
<chi tiết>
Tiêu đề tài liệu có thể được thiết lập hoặc trong tài liệu nguồn Microsoft Word
Hoặc PDF đầu ra:
<chi tiết>Yêu cầu về phông chữ
Tiêu chuẩn tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Cũng có nhiều sắc thái khi làm việc với phông chữ khi chuyển đổi sang các định dạng PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 sử dụng Aspose.Words. Bạn cần tính đến điều này nếu bạn muốn tránh được những vấn đề có thể xảy ra với tài liệu đầu ra.
Các phần dưới đây mô tả những sắc thái và các phương pháp giải quyết.
Yêu cầu pháp lý về phông chữ
Các mức tuân thủ tiêu chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words không kiểm tra các hạn chế pháp lý của phông chữ được sử dụng - nó phụ thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp các phông chữ không phù hợp cho việc chuyển đổi PDF bằng Aspose.Words.
<chi tiết> <tóm tắt>sơ đồ nói với chúng ta những điều sau (bành mở để xem chi tiết):</tóm tắt>
Chỉ nên dùng các chương trình phông chữ có thể được đan xen hợp pháp vào một tập tin để có thể hiển thị không giới hạn, phổ quát.
" ISO-19005-2, 6.2.11.4.1 ; ISO-14289-1, 7.21.4.1 (cùng những dấu ngoặc kép ở hai thông số)"
.notdef Glyph
Các mức tuân thủ PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Việc sử dụng .notdef
glyph bị cấm. Biểu tượng .notdef
glyph sẽ hiện ra nếu một tài liệu chứa ký tự không có trong phông chữ đã chọn và cũng không thể giải quyết được thông qua cơ chế “Font Fallback.
Bản quy định cho chúng ta biết những điều sau đây (bổ sung để thấy chi tiết):
Một tài liệu tuân thủ không chứa một tham chiếu đến .notdef glyph từ bất kỳ của các văn bản hiển thị toán tử, bất kể chế độ hiển thị văn bản, trong bất kỳ luồng nội dung nào
ISO -19005-2, 6.2.11.8; ISO -14289-1, 7.21.8 (đúng như hai câu trích dẫn trong hai thông số)
<chi tiết"> <tóm tắt> Trong khối này, bạn có thể thấy ví dụ: cách loại bỏ hoặc thay thế các ký tự (nới rộng để xem chi tiết)</tóm tắt>
Người dùng nên loại bỏ hoặc thay thế các ký tự này trong tài liệu nguồn Word:
Hoặc có thể chỉnh sửa tài liệu PDF bằng công cụ “Sửa PDF”:
Khu vực sử dụng riêng (PUA)
Mức tuân thủ tiêu chuẩn PDF trong Aspose.Words | Yêu cầu hiện diện |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Ký tự khu vực sử dụng riêng (PUA) xuất hiện chủ yếu đối với Windows phông chữ tượng trưng như “Symbol”, “Wingdings”, “Webdings” và các loại khác. Microsoft Word định dạng không cung cấp tùy chọn để lưu trữ văn bản thực tế cho ký tự.
<chi tiết> <tóm tắt> thông số nói với chúng ta những điều sau (nâng lên để xem chi tiết):</tóm tắt>
Đối với mức độ tuân thủ A, đối với bất kỳ ký tự nào … được ánh xạ đến một mã hoặc các mã trong Khu vực Sử dụng Riêng Unicode (PUA), một mục nhập ActualText … phải có mặt cho ký tự này hoặc chuỗi ký tự mà ký tự này là một phần của nó.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” là một phông chữ Windows Unicode có thể dùng thay thế cho các phông chữ ký hiệu.
<chi tiết>
Thay thế phông chữ tượng trưng bằng một phông chữ Unicode trong tài liệu nguồn Word:
Hay thêm một mục nhập ActualText cho các ký tự gây vấn đề trong tài liệu PDF đầu ra
<chi tiết>