Làm việc với PDF/A hoặc PDF/UA
Định dạng PDF/A và PDF/UA áp đặt một số yêu cầu liên quan đến nội dung tài liệu không thể đáp ứng trong quá trình chuyển đổi tự động từ tài liệu ở Định dạng Word sang PDF. Các yêu cầu này cần được xác minh và sửa chữa trong Tài liệu Word trước khi chuyển đổi hoặc trong tài liệu PDF sau khi chuyển đổi để tạo ra tài liệu tuân thủ đầy đủ PDF/A và PDF/UA.
Các yêu cầu cơ bản dành cho cấu trúc hoặc phông chữ của tài liệu PDF/A và PDF/UA, chúng tôi sẽ xem xét trong các phần sau.
Yêu Cầu Cấu Trúc Tài Liệu
Các yêu cầu hiện tại là dành cho PDF/A-1a, PDF/A-2a, PDF/A-4, và PDF/UA-1 định dạng.
Có một số sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn định dạng PDF khác nhau. Chúng phải được tính đến nếu bạn muốn có được kết quả mong đợi.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Người viết không nên tạo thông tin cấu trúc hoặc ngữ nghĩa bằng các quy trình tự động mà không cần xác minh thích hợp.
ISO 19005-2, 6.7.1
Các phần phụ dưới đây mô tả các sắc thái về cách Aspose.Words hoạt động khi chuyển đổi sang các tiêu chuẩn và tùy chọn định dạng PDF khác nhau cho giải pháp của chúng.
Loại Cấu Trúc
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tài liệu PDF là một chuỗi các khối như tiêu đề, đoạn văn, bảng và các khối khác. Các khối này tạo thành một cấu trúc tài liệu – mạnh hoặc yếu.
Cả cấu trúc mạnh và yếu đều có giá trị cho PDF/A. Microsoft Word tài liệu có cấu trúc yếu theo thiết kế và Aspose.Words tạo PDF với cấu trúc yếu tương ứng và cũng tạo tiêu đề theo mức phác thảo của các đoạn trong tài liệu nguồn.
Đối với một tài liệu PDF/UA-1 có cấu trúc yếu, ngoài ra, các số tiêu đề phải đi theo thứ tự mà không có khoảng trống.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Cấu trúc cấp khối có thể tuân theo một trong hai mô hình chính:
ISO-32000-1, 14.8.4.3.5
Đối với tài liệu PDF/UA-1, thông số kỹ thuật chứa một bổ sung liên quan đến các cấp tiêu đề (mở rộng để xem chi tiết):
Nếu ngữ nghĩa tài liệu yêu cầu một chuỗi tiêu đề giảm dần, một chuỗi như vậy sẽ tiến hành theo thứ tự số nghiêm ngặt và không được bỏ qua mức tiêu đề can thiệp. H1 H2 H3 được cho phép, trong khi H1 H3 thì không.
ISO-14289-1, 7.4.2
Để đảm bảo đầu ra chính xác, người dùng phải đảm bảo rằng nội dung tài liệu nguồn được sắp xếp hợp lý và các mức phác thảo được chỉ định chính xác cho các đoạn văn. Nếu không, người dùng nên xác minh và sửa cấu trúc của tài liệu PDF đầu ra.
Trong khối này, bạn có thể xem các ví dụ: cách đặt các mức phác thảo trong Microsoft Word hoặc kiểm tra và sửa cấu trúc của tài liệu PDF đầu ra (mở rộng để xem chi tiết).
Trong Microsoft Word các kiểu "Tiêu Đề X" mặc định có thể được sử dụng để đặt mức phác thảo:
Ngoài ra, mức phác thảo có thể được kiểm tra hoặc thay đổi trong cửa sổ "Đoạn văn":
Trong Acrobat, cấu trúc tài liệu có thể được kiểm tra hoặc thay đổi trong ngăn "Thẻ":
Đánh Dấu Nội Dung như Một Hiện vật
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Hiện tại, Aspose.Words đánh dấu đầu trang và chân trang, dấu phân cách ghi chú, ô tiêu đề bảng lặp lại và hình ảnh trang trí làm hiện vật. Lưu ý rằng danh sách này có thể được cập nhật trong tương lai.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Các đối tượng đồ họa trong tài liệu có thể được chia thành hai lớp:
ISO-32000-1, 14.8.2.2.1
Nếu tài liệu chứa bất kỳ nội dung nào khác nên được đánh dấu là tạo tác hoặc nếu bất kỳ nội dung tạo tác nào là nội dung thực, khách hàng nên sửa nội dung đó trong đầu ra PDF.
Trong khối này, bạn có thể thấy các ví dụ: cách đánh dấu các hình dạng là trang trí trong Microsoft Word hoặc đánh dấu hình dạng như một tạo tác trong tài liệu PDF đầu ra (mở rộng để xem chi tiết).
Ví dụ: hình dạng có thể được đánh dấu là trang trí trong Microsoft Word, vì vậy chúng sẽ được xuất sang PDF dưới dạng hiện vật:
Bạn có thể đánh dấu hình dạng như một tạo tác trong đầu ra PDF:
Ngoài ra, bạn có thể chuyển văn bản trong tiêu đề từ tạo phẩm sang nội dung thực trong đầu ra PDF:
Đặc Điểm Kỹ Thuật Ngôn Ngữ Tự Nhiên
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngôn ngữ văn bản được chỉ định trong tài liệu Microsoft Word. Aspose.Words xuất ngôn ngữ được chỉ định sang đầu ra PDF với thuộc tính Lang được gắn vào chuỗi nội dung được đánh dấu hoặc thẻ Nhịp-nó được điều khiển bởi thuộc tính ExportLanguageToSpanTag. Nói chung không có vấn đề ngôn ngữ khi văn bản được nhập bởi người dùng thông qua Microsoft Word. Nhưng có khả năng ngôn ngữ có thể không chính xác nếu văn bản được tạo tự động.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Ngôn ngữ tự nhiên mặc định cho tất cả văn bản trong một tệp phải được chỉ định bởi mục Lang trong từ điển Danh mục của tài liệu.
Tất cả nội dung văn bản trong một tệp khác với ngôn ngữ mặc định phải được chỉ định bằng cách sử dụng thuộc tính `Lang` được gắn vào chuỗi nội dung được đánh dấu hoặc bằng mục Lang trong từ điển phần tử cấu trúc ...
ISO-19005-2, 6.7.4
Ngoài ra đối với PDF/UA-1, thông số kỹ thuật cho chúng ta biết những điều sau (mở rộng để xem chi tiết):
Ngôn ngữ tự nhiên sẽ được khai báo... Những Thay đổi trong ngôn ngữ tự nhiên sẽ được khai báo.
ISO-14289-1, 7.2
Trong khối này, bạn có thể xem các ví dụ: cách đảm bảo rằng ngôn ngữ được chỉ định chính xác (mở rộng để xem chi tiết).
Người dùng nên đảm bảo rằng ngôn ngữ được chỉ định chính xác trong tài Liệu Word nguồn:
Hoặc tài liệu đầu ra PDF:
Chú Thích Hình
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word tài liệu cho phép người dùng thêm chú thích hình.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Một chú thích đi kèm với một con số sẽ được gắn Thẻ Với một thẻ Chú thích.
ISO-14289-1, 7.3
Hiện tại Aspose.Words không thể xuất chú thích bằng thẻ Chú thích, vì vậy chúng phải được gắn cờ trong đầu ra PDF.
Trong khối này, bạn có thể xem các ví dụ: cách chèn chú thích (mở rộng để xem chi tiết).
Trong Microsoft Word, chú thích có thể được chèn thông qua menu ngữ cảnh:
Trong Acrobat, chú thích có thể được thêm hoặc thay đổi thông qua hộp thoại Thuộc tính `Object`:
Mô Tả Thay Thế
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word tài liệu cho phép người dùng thêm văn bản thay thế vào hình ảnh, hình dạng và bảng. Aspose.Words xuất một văn bản thay thế như vậy sang đầu ra PDF.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Tất cả các yếu tố cấu trúc có nội dung không có tương tự văn bản được xác định trước tự nhiên, ví dụ: hình ảnh, công thức, v. v., nên cung cấp một mô tả văn bản thay thế bằng cách sử dụng mục alt trong từ điển phần tử cấu trúc...
NOTE Các mô tả Thay thế cung cấp các mô tả văn bản hỗ trợ việc giải thích đúng nội dung phi văn bản không rõ ràng.
ISO-19005-2, 6.7.5
Trong khối này, bạn có thể xem các ví dụ: cách đảm bảo rằng tất cả các phần tử có một văn bản thay thế (mở rộng để xem chi tiết).
Người dùng nên đảm bảo rằng tất cả các yếu tố có một văn bản thay thế trong tài Liệu Word nguồn:
Hoặc tài liệu đầu ra PDF:
Mô tả thay thế Cho Các Siêu Liên Kết
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ngoài điểm trước, tài liệu Microsoft Word cũng cho phép người dùng thêm văn bản thay thế vào các siêu liên kết. Aspose.Words xuất một văn bản thay thế như vậy sang đầu ra PDF.
Thật không may, không phải mọi ứng dụng đều cho phép bạn thiết lập một mô tả thay thế. Ví dụ: Adobe Acrobat hiện không cho phép thiết lập mô tả như vậy cho các siêu liên kết. Nhưng trong Microsoft Word, bạn có thể làm điều này như sau:
Đôi khi có một vấn đề là không thể đặt văn bản alt cho các siêu liên kết được tạo tự động trong mục lục (TOC) thông qua Microsoft Word GUI. Aspose.Words có thể cập nhật các trường như vậy và tự tạo các liên kết.
Làm theo ví dụ mã để cập nhật các trường TOC
bằng Mô hình Đối tượng Tài liệu Aspose.Words (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Tiêu Đề Bảng
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Các bảng trong PDF/UA-1 tài liệu phải có tiêu đề – cột, hàng hoặc cả hai. PDF/A chỉ yêu cầu đánh dấu bảng tiêu chuẩn, không có hạn chế bổ sung. Lưu ý rằng Aspose.Words tự động tạo đánh dấu bảng tiêu chuẩn.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Bảng nên bao gồm tiêu đề... Bảng có thể chứa tiêu đề cột, tiêu đề hàng hoặc cả hai.
ISO-14289-1, 7.5
Trong khối này, bạn có thể xem các ví dụ: cách đặt tiêu đề bảng (mở rộng để xem chi tiết).
Tiêu đề bảng có thể được thiết lập hoặc tài liệu nguồn Microsoft Word:
Hoặc đầu ra PDF:
Văn Bản Thay Thế
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Đặc điểm kỹ thuật cho chúng ta biết những điều sau:
Tất cả các phần tử cấu trúc văn bản được biểu diễn theo cách không chuẩn, ví dụ: ký tự tùy chỉnh hoặc đồ họa nội tuyến, nên cung cấp văn bản thay thế bằng cách sử dụng mục `ActualText` trong từ điển phần tử cấu trúc...
ISO-19005-2, 6.7.7
Microsoft Word tài liệu không cho phép người dùng đặt văn bản thay thế. Vì vậy, điều này cần được xác minh và cố định trong đầu ra PDF:
Viết tắt Và Từ Viết Tắt Mở rộng
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Tất cả các trường hợp viết tắt và từ viết tắt trong nội dung văn bản nên được đặt trong một chuỗi nội dung được đánh dấu với thẻ Span có thuộc Tính E cung cấp mở rộng văn bản của chữ viết tắt hoặc từ viết tắt...
ISO-19005-2, 6.7.8
Microsoft Word tài liệu không cho phép người dùng đặt các từ viết tắt và từ viết tắt mở rộng. Vì vậy, điều này cần được xác minh và cố định trong đầu ra PDF:
Tiêu Đề Tài Liệu
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Tài liệu trong PDF/UA-1 nên có tiêu đề. |
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Đặc điểm kỹ thuật cho chúng ta biết những điều sau:
Luồng Siêu Dữ liệu trong từ điển danh mục của tài liệu sẽ chứa mục nhập dc: title, trong đó dc là tiền tố được đề xuất cho lược đồ siêu dữ liệu Lõi Dublin…
ISO-14289-1, 7.1
Trong khối này, bạn có thể xem các ví dụ: cách đặt tiêu đề tài liệu (mở rộng để xem chi tiết).
Tiêu đề tài liệu có thể được thiết lập hoặc tài liệu nguồn Microsoft Word:
Hoặc đầu ra PDF:
Yêu Cầu Phông Chữ
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Ngoài ra còn có một số sắc thái khi làm việc với phông chữ khi chuyển đổi sang PDF/A-1, PDF/A-2, PDF/A-4 hoặc PDF/UA-1 định dạng sử dụng Aspose.Words. Chúng phải được tính đến nếu bạn muốn tránh các vấn đề có thể xảy ra với tài liệu đầu ra.
Các phần dưới đây mô tả các sắc thái và tùy chọn như vậy cho giải pháp của họ.
Yêu Cầu Pháp Lý Về Phông Chữ
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words không xác minh các hạn chế pháp lý của phông chữ đã sử dụng – tùy thuộc vào người dùng. Nói cách khác, người dùng không nên cung cấp phông chữ không phù hợp cho PDF chuyển đổi bằng Aspose.Words.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Chỉ các chương trình phông chữ có thể nhúng hợp pháp trong một tệp để hiển thị phổ quát, không giới hạn mới được sử dụng.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (chính xác cùng một trích dẫn trong hai thông số kỹ thuật)
.m Glyph
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Việc sử dụng glyph .notdef
bị cấm. Glyph .notdef
sẽ xuất hiện nếu một tài liệu chứa các ký tự không có trong phông chữ đã chọn và cũng không thể được giải quyết thông qua cơ chế Dự phòng Phông chữ.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Một tài liệu phù hợp sẽ không chứa một tham chiếu đến .notdef glyph từ bất kỳ văn bản nào hiển thị các toán tử, bất kể chế độ kết xuất văn bản, trong bất kỳ luồng nội dung nào.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (chính xác cùng một trích dẫn trong hai thông số kỹ thuật)
Trong khối này, bạn có thể xem các ví dụ: cách xóa hoặc thay thế các ký tự này (mở rộng để xem chi tiết).
Người dùng nên xóa hoặc thay thế các ký tự này trong tài Liệu Word nguồn:
Hoặc tài liệu đầu ra PDF bằng công cụ" Chỉnh sửa PDF":
Khu Vực Sử Dụng Riêng (PUA)
PDF mức độ tuân thủ tiêu chuẩn trong Aspose.Words | Sự hiện diện của yêu cầu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Các ký tự khu Vực sử dụng riêng (PUA) xuất hiện chủ yếu cho các phông chữ tượng trưng Windows như “Biểu tượng”, “Wingdings”, “Webdings” và các phông chữ khác. Microsoft Word định dạng không cung cấp một tùy chọn để lưu trữ văn bản thực tế cho các ký tự.
Đặc điểm kỹ thuật cho chúng ta biết những điều sau đây (mở rộng để xem chi tiết):
Đối Với Mức Độ phù hợp chỉ, cho bất kỳ nhân vật ... điều đó được ánh xạ tới một mã hoặc mã trong Khu Vực Sử dụng Riêng Unicode (PUA), một mục ActualText... sẽ có mặt cho nhân vật này hoặc một chuỗi các ký tự trong đó một nhân vật như vậy là một phần.
ISO-19005-2, 6.2.11.7.3
“Biểu tượng Segoe UI” là phông Chữ Unicode Windows có thể được sử dụng thay thế cho phông chữ tượng trưng.
Trong khối này, bạn có thể xem các ví dụ: người dùng nên làm gì để giải quyết vấn đề với phông chữ tượng trưng (mở rộng để xem chi tiết).
Thay thế phông chữ tượng trưng bằng Một Unicode trong tài liệu Word nguồn:
Hoặc thêm một mục ActualText vào các ký tự có vấn đề trong tài liệu PDF đầu ra: