Работа с PDF/A или PDF/UA
Форматът PDF/A и PDF/UA налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени по време на автоматичното преобразуване от документ във формат Word в PDF. Тези изисквания трябва да бъдат проверени и коригирани или в Word документ преди преобразуването, или в PDF документ след преобразуването, за да се получи напълно PDF/A и PDF/UA съответстващ документ.
Основните изисквания са за структурата или шрифтовете на документ PDF/A и PDF/UA, които ще разгледаме в следващите раздели.
Изисквания Към Структурата На Документите
Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4, и PDF/UA-1 формати.
Има някои нюанси на това как работи Aspose.Words при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети под внимание, ако искате да получите очаквания резултат.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Не е препоръчително авторите да генерират структурна или семантична информация, използвайки автоматизирани процеси без подходяща проверка.
ISO 19005-2, 6.7.1
Подразделите по-долу описват нюансите на това как работи Aspose.Words при конвертиране в различни PDF формат стандарти и опции за тяхното решение.
Тип Структура
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
PDF документ е поредица от блокове, като заглавия, параграфи, таблици и други. Тези блокове образуват структура на документа-силно или слабо.
Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, а Aspose.Words създава PDF със слаба структура съответно и генерира заглавия според очертанията на параграфите в изходния документ.
За PDF/UA-1 документ със слаба структура се изисква допълнително номерата на заглавията да се подреждат без пропуски.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Структурата на блоково ниво може да следва една от двете основни парадигми.:
ISO-32000-1, 14.8.4.3.5
За документи PDF/UA-1 спецификацията съдържа допълнение, свързано с нивата на заглавията (разгънете, за да видите подробности):
Ако семантиката на документа изисква низходяща последователност от заглавки, тази последователност трябва да се извършва в строг цифров ред и не трябва да пропуска междинно ниво на заглавие. H1 H2 H3 е допустимо, докато H1 H3 не е.
ISO-14289-1, 7.4.2
За да се гарантира правилен изход, потребителите трябва да се уверят, че съдържанието на изходния документ е правилно организирано и нивата на структура са правилно зададени за абзаците. В противен случай потребителят трябва да провери и фиксира структурата на изходния документ PDF.
В този блок можете да видите примери: как да зададете нива на структура в Microsoft Word или да проверите и коригирате структурата на документа резултат PDF (разгънете, за да видите подробности).
В Microsoft Word стиловете "Заглавие Х" по подразбиране могат да се използват за задаване на нивото на структура:
Освен това нивото на структура може да бъде проверено или променено в прозореца "абзац":
В акробат структурата на документа може да бъде проверена или променена в прозореца "тагове":
Маркиране на съдържанието като артефакт
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В момента Aspose.Words маркира горни и долни колонтитули на страници, разделители на бележки, повтарящи се клетки на заглавката на таблица и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Графичните обекти в документ могат да бъдат разделени на два класа:
ISO-32000-1, 14.8.2.2.1
Ако даден документ съдържа друго съдържание, което трябва да бъде маркирано като артефакт, или ако някое от изкуственото съдържание е истинско съдържание, клиентите трябва да коригират това в изхода PDF.
В този блок можете да видите примери: как да маркирате фигури като декоративни в Microsoft Word или да маркирате фигура като артефакт в документа изход PDF (разгънете, за да видите подробности).
Например формите могат да бъдат маркирани като декоративни в Microsoft Word, така че те ще бъдат експортирани в PDF като артефакт:
Можете да маркирате формата като артефакт в изхода PDF:
Също така можете да превключвате текст в заглавка от артефакта към реално съдържание в изхода PDF:
Спецификация На Естествен Език
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортира посочения език към изход PDF с атрибута Lang, прикрепен към маркирана последователност от съдържание или маркер за обхват-той се контролира от свойството ExportLanguageToSpanTag. Обикновено няма езикови проблеми, когато текстът е въведен от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Естественият език по подразбиране за целия текст във файл трябва да бъде посочен от Ланг записа в каталожния речник на документа.
Цялото текстово съдържание във файл, което се различава от езика по подразбиране, трябва да бъде обозначено чрез използване на свойство `Lang`, прикрепено към последователност от маркирано съдържание, или чрез запис в Речник на структурни елементи ...
ISO-19005-2, 6.7.4
Допълнително за PDF/UA-1 спецификацията ни казва следното (разгънете, за да видите подробности):
Декларират се промените в естествения език.
ISO-14289-1, 7.2
В този блок можете да видите примери: как да се уверите, че езикът е зададен правилно (разгънете, за да видите подробности).
Потребителите трябва да се уверят, че езикът е посочен правилно в документа източник Word:
Или изходния документ PDF:
Надпис На Фигура
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят надпис на фигура.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Надписът, придружаващ фигура, се маркира с надпис.
ISO-14289-1, 7.3
В момента Aspose.Words не може да експортирате надписи с маркера за надпис, така че те трябва да бъдат маркирани в изхода PDF.
В този блок можете да видите примери: как да вмъкнете надписа (разгънете, за да видите подробности).
В Microsoft Word надписът може да бъде вмъкнат през контекстното меню:
В акробат надписът може да бъде добавен или променен чрез диалоговия прозорец `Object` свойства:
Алтернативни Описания
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, фигури и таблици. Aspose.Words експортира такъв алтернативен текст към изхода PDF.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Всички структурни елементи, чието съдържание няма естествен предварително определен текстов аналог, например изображения, формули и др., трябва да предоставят алтернативен текст описание с помощта на алтернативен запис в структурата елемент речник...
NOTE алтернативните описания предоставят текстови описания, които помагат за правилното тълкуване на иначе непрозрачно нетекстуално съдържание.
ISO-19005-2, 6.7.5
В този блок можете да видите примери: как да се уверите, че всички елементи имат алтернативен текст (разгънете, за да видите подробности).
Потребителите трябва да гарантират, че всички елементи имат алтернативен текст в документа източник Word:
Или изходния документ PDF:
Алтернативни описания за хипервръзки
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортира такъв алтернативен текст към изхода PDF.
За съжаление, не всяко приложение ви позволява да настроите алтернативно описание. Например Adobe Acrobat понастоящем не позволява създаването на такова описание за хипервръзки. Но в Microsoft Word, можете да направите това, както следва::
Понякога има проблем, че не е възможно да се зададе алтернативен текст за автогенерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира тези полета и да генерира връзките самостоятелно.
Следвайте примера на кода, за да актуализирате полетата TOC
, като използвате Aspose.Words обектен модел на документ (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Заглавки На Таблици
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Таблиците в PDF/UA-1 документите трябва да имат заглавки – колона, ред или и двете. PDF/A изисква само стандартна таблица за маркиране, която няма допълнителни ограничения. Обърнете внимание, че Aspose.Words автоматично генерира стандартната маркировка на таблицата.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Таблиците трябва да включват заглавки... таблиците могат да съдържат заглавки на колони, заглавки на редове или и двете.
ISO-14289-1, 7.5
В този блок можете да видите примери: как да настроите заглавката на таблицата (разгънете, за да видите подробности).
Заглавката на таблицата може да бъде настроена или на документа източник Microsoft Word:
Или изход PDF:
Заместващ Текст
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва следното (разгънете, за да видите подробности):
Спецификацията ни казва следното:
Всички текстови структурни елементи, които са представени по нестандартен начин, например персонализирани знаци или вградени графики, трябва да предоставят заместващ текст, като се използва запис `ActualText` в речника на структурните елементи...
ISO-19005-2, 6.7.7
Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да бъде проверено и фиксирано в изхода PDF:
Съкращения и разширения на акроними
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва следното (разгънете, за да видите подробности):
Всички екземпляри на съкращения и акроними в текстовото съдържание трябва да бъдат поставени в последователност от маркирани съдържания с маркер, чието свойство е осигурява текстово разширение на съкращението или акронама...
ISO-19005-2, 6.7.8
Microsoft Word документът не позволява на потребителите да задават съкращения и разширения на акроними. Така че това трябва да бъде проверено и фиксирано в изхода PDF:
Заглавие На Документа
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Документът в PDF/UA-1 трябва да има заглавие. |
Спецификацията ни казва следното (разгънете, за да видите подробности):
Спецификацията ни казва следното:
В каталожния речник на документа потокът от метаданни трябва да съдържа: заглавие на записа,където постоянният поток е препоръчителният префикс за схемата на метаданните от Дъблин…
ISO-14289-1, 7.1
В този блок можете да видите примери: как да зададете заглавието на документа (разгънете, за да видите подробности).
Заглавието на документа може да бъде настроено или на документа източник Microsoft Word:
Или изход PDF:
Изисквания Към Шрифта
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Има и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети под внимание, ако искате да избегнете възможни проблеми с изходния документ.
Разделите по-долу описват такива нюанси и възможности за тяхното решение.
Правни Изисквания За Шрифта
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words не проверява законовите ограничения на използваните шрифтове – зависи от потребителите. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за конверсия PDF, използвайки Aspose.Words.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Използват се само шрифтови програми, които са законно вграждани във файл за неограничено, универсално рендиране.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (точно същите цитати в две спецификации)
.Glyph
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Използването на .notdef
глиф е забранено. .notdef
глифът ще се появи, ако документът съдържа знаци, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез резервния механизъм за шрифтове.
Спецификацията ни казва следното (разгънете, за да видите подробности):
В съответстващия документ не се съдържа позоваване наглиф от който и да е текст, показващ оператори, независимо от режима на рендиране на текст, във всеки поток от съдържание.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (точно същите цитати в две спецификации)
В този блок можете да видите примери: как да премахнете или замените тези знаци (разгънете, за да видите подробности).
Потребителите трябва да премахнат или заменят тези знаци в документа източник Word:
Или изходния документ PDF с помощта на инструмента " редактиране PDF":
Зона За Лично Ползване (PUA)
PDF стандартни нива на съответствие в Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Зона за лично ползване (PUA) знаците се появяват най-вече за Windows символни шрифтове като “символ”, “крила”, “уеб сайтове” и други. Microsoft Word форматите не предоставят възможност за съхраняване на действителния текст за знаци.
Спецификацията ни казва следното (разгънете, за да видите подробности):
Само за ниво а, за всеки знак ... това е съотнесено към код или кодове в областта за лично ползване на Уникод (PUA), запис ActualText... трябва да присъстват за този герой или поредица от знаци, от които такъв герой е част.
ISO-19005-2, 6.2.11.7.3
“Сего UI символ” е Windows Уникод шрифт, който може да се използва като алтернатива на символните шрифтове.
В този блок можете да видите примери: какво трябва да направи потребителят, за да реши проблема със символични шрифтове (разгънете, за да видите подробности).
Заменете символния шрифт с Уникод в документа източник Word:
Или добавете запис ActualText към проблемните знаци в изходния документ PDF: