Работа с PDF/A или PDF/UA

Форматът PDF/A и PDF/UA налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени по време на автоматичното преобразуване от документ във формат Word в PDF. Тези изисквания трябва да бъдат проверени и коригирани или в Word документ преди преобразуването, или в PDF документ след преобразуването, за да се получи напълно PDF/A и PDF/UA съответстващ документ.

Основните изисквания са за структурата или шрифтовете на документ PDF/A и PDF/UA, които ще разгледаме в следващите раздели.

Изисквания Към Структурата На Документите

Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4, и PDF/UA-1 формати.

Има някои нюанси на това как работи Aspose.Words при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети под внимание, ако искате да получите очаквания резултат.

Подразделите по-долу описват нюансите на това как работи Aspose.Words при конвертиране в различни PDF формат стандарти и опции за тяхното решение.

Тип Структура

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

PDF документ е поредица от блокове, като заглавия, параграфи, таблици и други. Тези блокове образуват структура на документа-силно или слабо.

Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, а Aspose.Words създава PDF със слаба структура съответно и генерира заглавия според очертанията на параграфите в изходния документ.

За PDF/UA-1 документ със слаба структура се изисква допълнително номерата на заглавията да се подреждат без пропуски.

За да се гарантира правилен изход, потребителите трябва да се уверят, че съдържанието на изходния документ е правилно организирано и нивата на структура са правилно зададени за абзаците. В противен случай потребителят трябва да провери и фиксира структурата на изходния документ PDF.

Маркиране на съдържанието като артефакт

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

В момента Aspose.Words маркира горни и долни колонтитули на страници, разделители на бележки, повтарящи се клетки на заглавката на таблица и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.

Ако даден документ съдържа друго съдържание, което трябва да бъде маркирано като артефакт, или ако някое от изкуственото съдържание е истинско съдържание, клиентите трябва да коригират това в изхода PDF.

Спецификация На Естествен Език

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортира посочения език към изход PDF с атрибута Lang, прикрепен към маркирана последователност от съдържание или маркер за обхват-той се контролира от свойството ExportLanguageToSpanTag. Обикновено няма езикови проблеми, когато текстът е въведен от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.

Надпис На Фигура

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят надпис на фигура.

В момента Aspose.Words не може да експортирате надписи с маркера за надпис, така че те трябва да бъдат маркирани в изхода PDF.

Алтернативни Описания

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, фигури и таблици. Aspose.Words експортира такъв алтернативен текст към изхода PDF.

Алтернативни описания за хипервръзки

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортира такъв алтернативен текст към изхода PDF.

За съжаление, не всяко приложение ви позволява да настроите алтернативно описание. Например Adobe Acrobat понастоящем не позволява създаването на такова описание за хипервръзки. Но в Microsoft Word, можете да направите това, както следва::

alternate-descriptions-hyperlinks-mw

Понякога има проблем, че не е възможно да се зададе алтернативен текст за автогенерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира тези полета и да генерира връзките самостоятелно.

Следвайте примера на кода, за да актуализирате полетата TOC, като използвате Aspose.Words обектен модел на документ (DOM):

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Заглавки На Таблици

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблиците в PDF/UA-1 документите трябва да имат заглавки – колона, ред или и двете. PDF/A изисква само стандартна таблица за маркиране, която няма допълнителни ограничения. Обърнете внимание, че Aspose.Words автоматично генерира стандартната маркировка на таблицата.

Заместващ Текст

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да бъде проверено и фиксирано в изхода PDF:

AcrobatReplacementText

Съкращения и разширения на акроними

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да задават съкращения и разширения на акроними. Така че това трябва да бъде проверено и фиксирано в изхода PDF:

AcrobatSplitAddExpansionText

Заглавие На Документа

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документът в PDF/UA-1 трябва да има заглавие.

Изисквания Към Шрифта

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Има и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети под внимание, ако искате да избегнете възможни проблеми с изходния документ.

Разделите по-долу описват такива нюанси и възможности за тяхното решение.

Правни Изисквания За Шрифта

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверява законовите ограничения на използваните шрифтове – зависи от потребителите. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за конверсия PDF, използвайки Aspose.Words.

.Glyph

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Използването на .notdef глиф е забранено. .notdef глифът ще се появи, ако документът съдържа знаци, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез резервния механизъм за шрифтове.

Зона За Лично Ползване (PUA)

PDF стандартни нива на съответствие в Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Зона за лично ползване (PUA) знаците се появяват най-вече за Windows символни шрифтове като “символ”, “крила”, “уеб сайтове” и други. Microsoft Word форматите не предоставят възможност за съхраняване на действителния текст за знаци.

“Сего UI символ” е Windows Уникод шрифт, който може да се използва като алтернатива на символните шрифтове.