Работа с PDF/A или PDF/UA
PDF/A и PDF/UA формат налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени при автоматично преобразуване от документ във формат Word към PDF. Тези изисквания следва да бъдат проверени и коригирани или в документ на Word преди преобразуване, или в PDF документ след преобразуване, за да се представи изцяло PDF/A и PDF/UA, отговарящ на изискванията.
Основните изисквания са за структурата или шрифтовете на PDF/A и PDF/UA документ, които ще разгледаме в следващите раздели.
Изисквания към структурата на документа
Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1 формати.
Има някои нюанси на това как Aspose.Words работи при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети предвид, ако искате да получите очаквания резултат.
Спецификацията ни казва:
Не е препоръчително писателите да генерират структурна или семантична информация, като използват автоматизирани процеси без подходяща проверка.
ISO 19005-2, 6.7.1
Разделите по-долу описват нюансите на начина, по който Aspose.Words работи при преобразуване в различни PDF формат стандарти и опции за тяхното решение.
Тип структура
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Документът PDF е поредица от блокове като заглавия, параграфи, таблици и други. Тези блокове образуват документна структура, силно или слабо.
Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, и Aspose.Words създава PDF съответно със слабата структура и генерира позиции в съответствие с очертаните нива на параграфи в изходния документ.
За документ PDF/UA-1 със слаба структура, допълнително се изисква номерата на заглавията да са в ред без пропуски.
Спецификацията ни казва:
Структурата на блоковото ниво може да следва една от две основни парадигма:
ISO- 32000-1, 14.8.4.3.5
За документи PDF/UA-1 спецификацията съдържа допълнение, свързано с нива на заглавие (за да видите подробности):
Ако семантиката на документа изисква низходяща последователност от заглавни части, такава последователност се извършва в стриктен числен ред и не трябва да пропуска вмешателно ниво. H1 H2 H3 е допустимо, докато H1 H3 не е.
ISO- 14289-1, 7.4.2
За да се гарантира правилното изпълнение, потребителите трябва да гарантират, че съдържанието на изходния документ е правилно организирано и нивата на очертания са правилно определени за параграфи. В противен случай потребителят трябва да провери и определи структурата на изходния PDF документ.
В този блок можете да видите примери: как да зададете очертаващи нива в Microsoft Word или проверете и коригирайте структурата на изходния PDF документ (за да видите подробности).
В Microsoft Word По подразбиране стилове "Heading X" могат да бъдат използвани за определяне на нивото на контура:
Освен това нивото на контура може да бъде проверено или променено в прозореца "Параграф":
В Acrobat структурата на документа може да бъде проверена или променена в стъклото "Tags":
Маркиране на съдържанието като артефакт
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В момента, Aspose.Words маркира страници заглавни части и подноси, разделители за ноти, повтарящи се клетки за заглавни маси и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.
Спецификацията ни казва:
Графичните обекти в документ могат да бъдат разделени на два класа:
ISO- 32000-1, 14, 8.2.2.1
Ако документът съдържа друго съдържание, което трябва да бъде маркирано като артефакт, или ако някое от артефактите съдържа реално съдържание, клиентите трябва да определят това в изходния PDF.
В този блок можете да видите примери: как да маркирате формите като декоративни в Microsoft Word или маркирайте формата като артефакт в изходния PDF документ (за да видите подробности).
Например, формите могат да бъдат маркирани като декоративни в Microsoft Word, така че те ще бъдат изнесени в PDF като артефакт:
Можете да маркирате формата като артефакт в изхода PDF:
Също така, можете да превключите текст в заглавна част от артефакта към реално съдържание в изхода PDF:
Физически език Спецификация
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортиране на посочения език към изход PDF с Lang атрибут, прикрепен към маркирано съдържание последователност или Span таг го контролира от ExportLanguageToSpanTag собственост. Обикновено няма езикови въпроси, когато текст се въвежда от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.
Спецификацията ни казва:
Натуралният език по подразбиране за целия текст във файла следва да бъде посочен от Lang вписването в документа на Каталог речника.
Всички текстово съдържание в рамките на файл, който се различава от езика по подразбиране, трябва да бъдат посочени чрез използване на `Lang` собственост, прикрепена към маркирано съдържание поредица, или от Lang вписване в елемент на структурата речник ...
ISO- 19005-2, 6.7.4
Освен това за PDF/UA-1, спецификацията ни казва следното (допълва се, за да видим подробности):
Естественият език се обявява... Обявяват се промени в естествения език.
ISO- 14289-1, 7.2
В този блок можете да видите примери: как да се гарантира, че езикът е посочен правилно (разширете, за да видите подробности).
Потребителите следва да гарантират, че езикът е посочен правилно в документа с източник Word:
Или изходния PDF документ:
Фигура Caption
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят надпис на фигурата.
Спецификацията ни казва:
Надписите, придружаващи фигурата, се обозначават с надпис "Caption tag."
ISO- 14289-1, 7. 3
В момента Aspose.Words не може да изнася надписи с табелката “Caption,” така че те трябва да бъдат маркирани в изходния PDF.
В този блок можете да видите примери: как да поставите надписа (разширете, за да видите подробности).
В Microsoft Word, заглавието може да бъде включено в контекстното меню:
В Acrobat заглавието може да бъде добавено или променено чрез `Object` Диалог за настройки:
Алтернативни описания
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, форми и таблици. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.
Спецификацията ни казва:
Всички структурни елементи, чието съдържание няма естествен предварително определен текстов аналог, например изображения, формули и т.н., следва да предоставят алтернативен текстово описание с помощта на Alt запис в речника...
БЕЛЕЖКА Алтернативните описания предоставят текстови описания, които помагат при правилното тълкуване на иначе непрозрачно нетекстово съдържание.
ISO- 19005- 2, 6. 7. 5
В този блок можете да видите примери: как да се гарантира, че всички елементи имат алтернативен текст (за да видите подробности).
Потребителите следва да гарантират, че всички елементи имат алтернативен текст в документа с източника Word:
Или изходния PDF документ:
Алтернативни описания за хипервръзки
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.
За съжаление, не всяко приложение ви позволява да създадете алтернативно описание. Например, Adobe Acrobat понастоящем не позволява да се създаде такова описание за хипервръзки. Но в Microsoft Word, Можете да направите следното:
Понякога има проблем, че не е възможно да се зададе алт текст за автоматично генерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира такива полета и да генерира връзките самостоятелно.
Следвайте примера с кода за актуализиране TOC
полета, използващи Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Заглавни части на таблицата
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Таблици в PDF/UA-1 документи трябва да имат заглавни части . . колона, ред или и двете. PDF/A изисква само стандартна таблица, която няма допълнителни ограничения. Имайте предвид, че Aspose.Words автоматично генерира стандартната таблица.
Спецификацията ни казва:
Масите трябва да включват заглавни части... Таблици могат да съдържат колонки, заглавни редове или и двете.
ISO- 14289-1, 7. 5
В този блок можете да видите примери: как да зададете заглавната част на масата (за да видите подробности).
Заглавната част на масата може да се постави или източник Microsoft Word документ:
Или изход PDF:
Заместващ текст
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва:
Спецификацията ни казва следното:
Всички текстови елементи на структурата, които са представени по нестандартен начин, например потребителски символи или онлайн графики, трябва да предоставят заместващ текст с помощта на `ActualText` влизане в речника на елементите на структурата...
ISO- 19005-2, 67. 7
Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да бъде проверено и фиксиран в изхода PDF:
Съкращения и разширения на акроними
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификацията ни казва:
Всички случаи на съкращения и съкращения в текстовото съдържание трябва да бъдат поставени в последователност от подчертано съдържание с таг с таг с E собственост, чиято текстова експанзия на съкращението или съкращението...
ISO- 19005-2, 6.7.8
Microsoft Word документът не позволява на потребителите да определят съкращения и съкращения разширения. Така че това трябва да бъде проверено и фиксиран в изхода PDF:
Заглавие на документа
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Документът в PDF/UA-1 трябва да има заглавие |
Спецификацията ни казва:
Спецификацията ни казва следното:
Метеорологичният поток в каталогния речник на документа по-долу трябва да съдържа следния текст:
ISO- 14289-1, 7.1
В този блок можете да видите примери: как да зададете заглавието на документа (за да видите подробности).
Заглавието на документа може да бъде създадено или от източника Microsoft Word документ:
Или изход PDF:
Изисквания към шрифта
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Съществуват и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети предвид, ако искате да избегнете възможни проблеми с изходния документ.
Разделите по-долу описват такива нюанси и възможности за тяхното решение.
Шрифт Правни изисквания
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words не проверява законовите ограничения на използваните шрифтове. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за PDF преобразуване, използвайки Aspose.Words.
Спецификацията ни казва:
Използват се само програми за шрифтове, които са законно вградени във файл за неограничен, универсален превод.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (точно същите цитати в две спецификации)
.notdef Glyph
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Използване на .notdef
glyph е забранено. На .notdef
glyph ще се появи, ако документът съдържа символи, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез механизма Font Fallback.
Спецификацията ни казва:
Документът за съответствие не трябва да съдържа позоваване на .notdef glyph от който и да е от операторите, показващи текста, независимо от режима на текстово предаване, във всеки поток от съдържание.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7,21.8 (точно същите цитати в две спецификации)
В този блок можете да видите примери: как да премахнете или замените тези символи (разширете, за да видите подробности).
Потребителите трябва да премахнат или заменят тези знаци в документа с източник Word:
Или изходния PDF документ с помощта на инструмента "Редактиране на PDF":
Частна зона за използване (PUA)
PDF стандартни нива на съответствие в рамките на Aspose.Words | Наличие на изискване |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Private Use Area (PUA) символи се появяват предимно за Windows символични шрифтове като “Symbol,” “Wings,” “Webdings” и др. Microsoft Word форматите не предоставят опция за съхраняване на действителния текст за символи.
Спецификацията ни казва:
За ниво Само съответствие, за всеки символ ..., който е картографиран на код или кодове в Unicode Private Use Area (PUA), за този символ или поредица от символи, от които този символ е част.
ISO- 19005-2, 6.2.11.7. 3
“Segoe UI символ” е Windows Unicode шрифт, който може да се използва като алтернатива на символични шрифтове.
В този блок можете да видите примери: какво трябва да направи потребителят, за да реши проблема със символични шрифтове (за да видите подробности).
Замяна на символичния шрифт с Unicode one в документа източник Word:
Или да добавите текстов запис към проблемните знаци в изходния PDF документ: