Работа с PDF/A или PDF/UA

PDF/A и PDF/UA формат налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени при автоматично преобразуване от документ във формат Word към PDF. Тези изисквания следва да бъдат проверени и коригирани или в Word документ преди преобразуване или в PDF документ след преобразуване, за да се представи изцяло PDF/A и PDF/UA отговарящ на изискванията документ.

Основните изисквания са за структурата или шрифтовете на PDF/A и PDF/UA документ, които ще разгледаме в следващите раздели.

Изисквания към структурата на документа

Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1 формати.

Има някои нюанси на това как Aspose.Words работи при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети предвид, ако искате да получите очаквания резултат.

Разделите по-долу описват нюансите на начина, по който Aspose.Words работи при конвертиране в различни PDF формат стандарти и опции за тяхното решение.

Тип структура

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF е поредица от блокове като заглавия, параграфи, таблици и други. Тези блокове образуват документна структура, силно или слабо.

Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, и Aspose.Words създава PDF съответно със слабата структура и генерира позиции в съответствие с очертаните нива на параграфи в изходния документ.

За документ PDF/UA-1 със слаба структура, допълнително се изисква номерата на заглавията да са в ред без пропуски.

За да се гарантира правилното изпълнение, потребителите трябва да гарантират, че съдържанието на изходния документ е правилно организирано и нивата на очертания са правилно определени за параграфи. В противен случай потребителят трябва да провери и определи структурата на изходния PDF документ.

Маркиране на съдържанието като артефакт

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

В момента, Aspose.Words marks page headers and foooters, банкнота разделители, повтаряща се таблица заглавни клетки, и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.

Ако документът съдържа друго съдържание, което трябва да бъде маркирано като артефакт или ако някое от артефактите съдържа реално съдържание, клиентите трябва да определят това в изходния PDF.

Спецификация на естествения език

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортиране на посочения език към изход PDF с Lang атрибут, прикрепен към маркирано съдържание последователност или Span таг го контролира от ExportLanguageToSpanTag собственост. Обикновено няма езикови въпроси, когато текст се въвежда от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.

Фигура Caption

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят надпис на фигурата.

В момента Aspose.Words не може да изнася надписи с таг за надпис, така че те трябва да бъдат маркирани в изходния PDF.

Алтернативни описания

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, форми и таблици. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.

Алтернативни описания за хипервръзки

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.

За съжаление, не всяко приложение ви позволява да създадете алтернативно описание. Например, Adobe Acrobat понастоящем не позволява да се създаде такова описание за хипервръзки. Но в Microsoft Word, Можете да направите следното:

alternate-descriptions-hyperlinks-mw

Понякога има проблем, че не е възможно да зададете алт текст за автоматично генерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира такива полета и да генерира връзките самостоятелно.

Следвайте примера с кода за актуализиране TOC полета, използващи Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Заглавни части на таблицата

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблици в PDF/UA-1 документите трябва да имат заглавни части по колона, ред или и двете. PDF/A изисква само стандартна таблица, която няма допълнителни ограничения. Имайте предвид, че Aspose.Words генерира стандартната таблица автоматично.

Заместващ текст

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да се провери и фиксира в изхода PDF:

AcrobatReplacementText

Съкращения и разширения на акроними

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да определят съкращения и акроними разширения. Така че това трябва да се провери и фиксира в изхода PDF:

AcrobatSplitAddExpansionText

Заглавие на документа

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документът в PDF/UA-1 следва да има заглавие

Изисквания към шрифта

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Съществуват и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети предвид, ако искате да избегнете възможни проблеми с изходния документ.

Разделите по-долу описват такива нюанси и възможности за тяхното решение.

Шрифт Правни изисквания

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверява правните ограничения на използваните шрифтове. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за PDF преобразуване с помощта на Aspose.Words.

.notdef Glyph

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Използване на .notdef glyph е забранено. На .notdef glyph ще се появи, ако документът съдържа знаци, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез механизма Font Fallback.

Частна зона за използване (PUA)

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Private Use Area (PUA) символи се появяват най-вече за Windows символични шрифтове като “Symbol,” “Wings,” “Webdings” и др. Microsoft Word форматите не предоставят опция за съхраняване на действителния текст за символи.

“Segoe UI символ” е Windows Unicode шрифт, който може да се използва като алтернатива на символични шрифтове.