Работа с PDF/A или PDF/UA
PDF/A и PDF/UA формат налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени при автоматично преобразуване от документ във формат Word към PDF. Тези изисквания следва да бъдат проверени и коригирани или в Word документ преди преобразуване или в PDF документ след преобразуване, за да се представи изцяло PDF/A и PDF/UA отговарящ на изискванията документ.
Основните изисквания са за структурата или шрифтовете на PDF/A и PDF/UA документ, които ще разгледаме в следващите раздели.
Изисквания към структурата на документа
Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1 формати.
Има някои нюанси на това как Aspose.Words работи при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети предвид, ако искате да получите очаквания резултат.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Не е препоръчително писателите да генерират структурна или семантична информация, използвайки автоматизирани процеси без подходяща проверка.
ISO 19005-2, 6.7.1
Разделите по-долу описват нюансите на начина, по който Aspose.Words работи при конвертиране в различни PDF формат стандарти и опции за тяхното решение.
Тип структура
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Документ PDF е поредица от блокове като заглавия, параграфи, таблици и други. Тези блокове образуват документна структура, силно или слабо.
Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, и Aspose.Words създава PDF съответно със слабата структура и генерира позиции в съответствие с очертаните нива на параграфи в изходния документ.
За документ PDF/UA-1 със слаба структура, допълнително се изисква номерата на заглавията да са в ред без пропуски.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Структурата на блоковото ниво може да следва една от две основни парадигма:
ISO- 32000-1, 14, 8.4. 3.5
За документи PDF/UA-1 спецификацията съдържа допълнение, свързано с нива на заглавие (за да видите подробности):
Ако семантиката на документа изисква низходяща последователност от заглавни части, такава последователност се провежда в стриктен числен ред и не трябва да пропуска интервенционно ниво. H1 H2 H3 е допустимо, докато H1 H3 не е.
ISO- 14289-1, 7.4.2
За да се гарантира правилното изпълнение, потребителите трябва да гарантират, че съдържанието на изходния документ е правилно организирано и нивата на очертания са правилно определени за параграфи. В противен случай потребителят трябва да провери и определи структурата на изходния PDF документ.
В този блок можете да видите примери: как да зададете очертаващи нива в Microsoft Word или проверка и коригиране на структурата на изходния PDF документ (за да видите подробности).
В Microsoft Word По подразбиране стилове "Heading X" могат да бъдат използвани за определяне на нивото на контура:
Освен това нивото на контура може да бъде проверено или променено в прозореца "Параграф":
В Acrobat структурата на документа може да бъде проверена или променена в стъклото "Tags":
Маркиране на съдържанието като артефакт
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В момента, Aspose.Words marks page headers and foooters, банкнота разделители, повтаряща се таблица заглавни клетки, и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Графичните обекти в документ могат да бъдат разделени на два класа:
ISO- 32000-1, 14, 8.2.2.1
Ако документът съдържа друго съдържание, което трябва да бъде маркирано като артефакт или ако някое от артефактите съдържа реално съдържание, клиентите трябва да определят това в изходния PDF.
В този блок можете да видите примери: как да маркирате формите като декоративни в Microsoft Word или маркирайте формата като артефакт в изходния PDF документ (за да видите подробности).
Например, формите могат да бъдат маркирани като декоративни в Microsoft Word, Така че те ще бъдат изнесени в PDF като артефакт:
Можете да маркирате формата като артефакт в изхода PDF:
Също така, можете да превключите текст в заглавна част от артефакта към реално съдържание в изхода PDF:
Спецификация на естествения език
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортиране на посочения език към изход PDF с Lang атрибут, прикрепен към маркирано съдържание последователност или Span таг го контролира от ExportLanguageToSpanTag собственост. Обикновено няма езикови въпроси, когато текст се въвежда от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.
Спецификацията ни казва следното (разширяване, за да видите подробности):
По подразбиране естественият език за целия текст във файла трябва да бъде посочен от Lang вписването в документа.
Цялото текстово съдържание в рамките на файл, който се различава от езика по подразбиране, следва да бъде посочено чрез използване на `Lang` собственост, прикрепена към маркирано съдържание последователност, или чрез Lang вписване в елемент на структурата речник ...
ISO- 19005-2, 6.7.4
Освен това за PDF/UA-1 спецификацията ни казва следното (за да видим подробности):
Естественият език се обявява... Обявяват се промени в естествения език.
ISO- 14289-1, 7.2
В този блок можете да видите примери: как да се гарантира, че езикът е посочен правилно (разширяване, за да видите подробности).
Потребителите следва да гарантират, че езикът е посочен правилно в документа с източник Word:
Или изходния PDF документ:
Фигура Caption
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят надпис на фигурата.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Надпис, придружаваща фигура, се маркира с табелка "Caption."
ISO- 14289-1, 7. 3
В момента Aspose.Words не може да изнася надписи с таг за надпис, така че те трябва да бъдат маркирани в изходния PDF.
В този блок можете да видите примери: как да вмъкнете надписа (за да видите подробности).
В Microsoft Word, надписът може да бъде поставен чрез контекстното меню:
В Acrobat заглавието може да бъде добавено или променено чрез `Object` Диалог за настройки:
Алтернативни описания
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, форми и таблици. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Всички структурни елементи, чието съдържание няма естествен предварително определен текстов аналог, например изображения, формули и т.н., следва да предоставят алтернативен текстово описание с помощта на Alt запис в речника...
БЕЛЕЖКА Алтернативните описания предоставят текстови описания, които помагат при правилното тълкуване на иначе непрозрачно нетекстуално съдържание.
ISO- 19005- 2, 6. 7. 5
В този блок можете да видите примери: как да се гарантира, че всички елементи имат алтернативен текст (за да видите подробности).
Потребителите следва да гарантират, че всички елементи имат алтернативен текст в документа с източника Word:
Или изходния PDF документ:
Алтернативни описания за хипервръзки
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.
За съжаление, не всяко приложение ви позволява да създадете алтернативно описание. Например, Adobe Acrobat понастоящем не позволява да се създаде такова описание за хипервръзки. Но в Microsoft Word, Можете да направите следното:
Понякога има проблем, че не е възможно да зададете алт текст за автоматично генерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира такива полета и да генерира връзките самостоятелно.
Следвайте примера с кода за актуализиране TOC
полета, използващи Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Заглавни части на таблицата
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Таблици в PDF/UA-1 документите трябва да имат заглавни части по колона, ред или и двете. PDF/A изисква само стандартна таблица, която няма допълнителни ограничения. Имайте предвид, че Aspose.Words генерира стандартната таблица автоматично.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Масите трябва да включват заглавни части... Таблици могат да съдържат колони заглавни части, ред заглавни части или и двете.
ISO- 14289-1, 7. 5
В този блок можете да видите примери: как да настроите заглавната част на масата (разширете, за да видите подробности).
Заглавната част на масата може да се постави или източник Microsoft Word документ:
Или изхода PDF:
Заместващ текст
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва следното (разширяване, за да видите подробности):
Спецификацията ни казва следното:
Всички текстови елементи на структурата, които са представени по нестандартен начин, например потребителски символи или онлайн графики, следва да предоставят заместващ текст с помощта на `ActualText` влизане в речника на елементите на структурата...
ISO- 19005-2, 6. 7. 7
Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да се провери и фиксира в изхода PDF:
Съкращения и разширения на акроними
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва следното (разширяване, за да видите подробности):
Всички случаи на съкращения и съкращения в текстовото съдържание трябва да бъдат поставени в последователност от подчертано съдържание с таг Span, чиято собственост осигурява текстово разширяване на съкращението или съкращението...
ISO- 19005-2, 6.7. 8
Microsoft Word документът не позволява на потребителите да определят съкращения и акроними разширения. Така че това трябва да се провери и фиксира в изхода PDF:
Заглавие на документа
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Документът в PDF/UA-1 следва да има заглавие |
Спецификацията ни казва следното (разширяване, за да видите подробности):
Спецификацията ни казва следното:
Метеорологичният поток в каталогния речник на документа по-долу трябва да съдържа следния текст:
ISO- 14289-1, 7.1
В този блок можете да видите примери: как да зададете заглавието на документа (за да видите подробности).
Заглавието на документа може да бъде създадено или от източника Microsoft Word документ:
Или изхода PDF:
Изисквания към шрифта
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Съществуват и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети предвид, ако искате да избегнете възможни проблеми с изходния документ.
Разделите по-долу описват такива нюанси и възможности за тяхното решение.
Шрифт Правни изисквания
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words не проверява правните ограничения на използваните шрифтове. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за PDF преобразуване с помощта на Aspose.Words.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Използват се само програми за издаване на шрифтове, които са законно вградени във файл за неограничени универсален превод.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (точно същите цитати в две спецификации)
.notdef Glyph
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Използване на .notdef
glyph е забранено. На .notdef
glyph ще се появи, ако документът съдържа знаци, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез механизма Font Fallback.
Спецификацията ни казва следното (разширяване, за да видите подробности):
Документът за съответствие не трябва да съдържа позоваване на документа .notdef glyph от който и да е от операторите, показващи текста, независимо от режима на текстово предаване, във всеки поток от съдържание.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7,21.8 (точно същите цитати в две спецификации)
В този блок можете да видите примери: как да премахнете или замените тези символи (разширете, за да видите подробности).
Потребителите трябва да премахнат или заменят тези знаци в документа с източника Word:
Или изходния PDF документ с помощта на инструмента "Редактиране на PDF":
Частна зона за използване (PUA)
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Private Use Area (PUA) символи се появяват най-вече за Windows символични шрифтове като “Symbol,” “Wings,” “Webdings” и др. Microsoft Word форматите не предоставят опция за съхраняване на действителния текст за символи.
Спецификацията ни казва следното (разширяване, за да видите подробности):
За ниво Само съответствие, за всеки символ ..., който е картографиран с код или кодове в Unicode Private Use Area (PUA), за този символ или поредица от символи, от които този символ е част.
ISO- 19005-2, 6.2.11.7. 3
“Segoe UI символ” е Windows Unicode шрифт, който може да се използва като алтернатива на символични шрифтове.
В този блок можете да видите примери: какво трябва да направи потребителят, за да реши проблема със символични шрифтове (за да видите подробности).
Замяна на символичния шрифт с Unicode one в документа източник Word:
Или да добавите текстов запис към проблемните знаци в изходния PDF документ: