與 PDF/A 或 PDF/UA 一起工作

PDF/A 和 PDF/UA 格式對文件內容有幾個要求,無法在自動將 Word 格式的檔案轉換成 PDF 時滿足。 這些要求應在轉換前於Word文件中驗證並更正,或在轉換後於PDF文件中驗證並更正,以生產一個符合PDF/A和PDF/UA的文件。

基本要求是指 PDF/A 或 PDF/UA 文檔的結構或字體,我們在接下來的部分會討論這些。

文件結構需求

目前的要求是需要 PDF/A-1a、PDF/A-2a、PDF/A-4 和 PDF/UA-1 格式。

在將資料轉換為各種 PDF 格式標準時,有一些細微的差異會影響 Aspose.Words 的操作方式。 如果你想要得到預期的結果,這些就必須被考慮進去。

以下子節段描述如何 Aspose.Words 在轉換到各種 PDF 格式標準和選項解決方案時所產生的細微差別。

結構類型

PDF 標準符合度等級在 Aspose.Words 存在要求
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

PDF 文件是由標頭、段落、表格和其他要素組成的序列。 這些區塊形成了一種文件結構–堅固或弱。

強弱結構都適用於 PDF/A。 Microsoft Word 文件由設計上具有弱結構,而 Aspose.Words 會分別以弱結構產生 PDF,也會根據源文件的段落層級來產生標題。

对于具有弱结构的 PDF/UA-1 文档,必须额外要求标题编号按照顺序排列而没有间隙。

若要確保正確的輸出,使用者必須確保來源文件內容有恰當的組織及段落中的劃分層次。 否則,用戶應該驗證並修改輸出 PDF 文檔的結構。

將內容標記為工件

PDF 標準符合度在 Aspose.Words 存在要求
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

目前,Aspose.Words 標記頁面標題和页脚、筆記分隔符、重複的表格標題細胞及裝飾圖像為 artifact。 請注意,這個清單未必在未來更新。

如果資料包含應標記為文物的任何其他內容,或如果任何文物內容是真正的內容,顧客應該在輸出PDF中修正此問題。

自然語言規格

符合 PDF 標準的等級:Aspose.Words 存在要求
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

文字語言在Microsoft Word文件中指定。Aspose.Words輸出指定的語言至PDF輸出,並附加Lang屬性到被標記的內容序列或Span標籤上 – 它受ExportLanguageToSpanTag屬性的控制。 一般來說,當使用者透過 Microsoft Word 輸入文字時,不會有語言問題。 但是如果文本由自動生成,語言可能會不準確。

圖案字幕

符合 PDF 標準的等級 Aspose.Words 存在要求。
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word 文檔允許使用者添加圖像說明。

目前 Aspose.Words 不可以以字幕標籤輸出字幕,所以必須在輸出 PDF 中標記。

替代說明

符合 PDF 標準的等級在 Aspose.Words 內。 存在要求的情況。
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word 文檔讓使用者可以將替代文字加入圖像、圖形和表格中。 Aspose.Words 輸出此類替代文字到输出PDF中。

超連結之替代描述

PDF 標準符合度在 Aspose.Words 要求的存在
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

在之前一點的基礎上,Microsoft Word 文檔也允許使用者為超連結增加替代文字。Aspose.Words 會將此替代文字輸出到輸出 PDF。

“不幸的是,並非所有應用程式都允許您設定替代描述。 例如,Adobe Acrobat目前無法設定超連結的描述。 不過在 Microsoft Word 中,您可以按照以下這個步驟來做:

alternate-descriptions-hyperlinks-mw

有時,在目錄中的自動生成的超連結中無法設定alt文字的問題會發生。 Microsoft Word GUI 無法解決這個問題。 Aspose.Words可以更新這些欄位,並自行生成連結。

按照範例碼來更新 TOC 欄位,使用 Aspose.Words Document Object Model (DOM)。

表格標題

PDF 標準符合度在 Aspose.Words 內 存在要求
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

PDF/UA-1 文檔中的表格必須有標題 - 列、行或兩者兼備。 PDF/A僅需要標準表格標記,且沒有額外限制。 請注意 Aspose.Words 自動產生標準表格標記。

替換文字

符合 PDF 標準等級在 Aspose.Words 內 存在要求。
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word 文檔不允許使用者設定替換文字。 這需要在輸出 PDF 中驗證並修正:

AcrobatReplacementText

縮寫與首字母縮寫

在 PDF 標凖符合度層級Aspose.Words內 存在要求
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word 文檔不容許使用者設定縮略字和縮約詞的擴張。 因此,這需要在輸出PDF中驗證並修正:

AcrobatSplitAddExpansionText

文書名稱

PDF 標準符合度等級在 Aspose.Words 存在要求
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
PDF/UA-1 的文件應該有標題。

字型要求

在 Aspose.Words 內的 PDF 標準合規等級 存在性要求
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

在使用 Aspose.Words 轉換成 PDF/A-1、PDF/A-2、PDF/A-4 或 PDF/UA-1 格式時,字體處理也有數種細微差別。 若你想避免可能出問題的輸出文件,就必須考慮他們。

下面的部分描述這些細微差別以及解決它們的選項。

字體合法要求

符合 PDF 標準的等級在 Aspose.Words 內。 存在要求
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words 沒有檢查所用字體的法律限制 – 這一切取決於使用者。 换句話說,使用者不應該透過 Aspose.Words 使用不適當的字體來進行 PDF 轉換。

“.notdef Glyph”

PDF標凖符合度等級在 Aspose.Words 存在要求
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

.notdef glyph 的使用是被禁止的。 如果文件包含在所選字體中沒有且也無法透過字體遞換機制解決的字符,.notdef glyph 會出現。

私人使用區 (PUA)

在 Aspose.Words 內符合 PDF 標準的等級 存在要求
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

私人使用區 (PUA) 字元主要出現在 Windows 具象徵意義的書體,如 “Symbol”、“Wingdings” 和 “Webdings” 等。 Microsoft Word 格式不提供儲存實際文字的選項給字元。

“Segoe UI符號"是 Windows 可用作符号字型替代的 Unicode 字型 。