Работа с PDF/A или PDF/UA

PDF/A и PDF/UA формат налага няколко изисквания, свързани със съдържанието на документа, които не могат да бъдат изпълнени при автоматично преобразуване от документ във формат Word към PDF. Тези изисквания следва да бъдат проверени и коригирани или в документ на Word преди преобразуване, или в PDF документ след преобразуване, за да се представи изцяло PDF/A и PDF/UA, отговарящ на изискванията.

Основните изисквания са за структурата или шрифтовете на PDF/A и PDF/UA документ, които ще разгледаме в следващите раздели.

Изисквания към структурата на документа

Настоящите изисквания са за PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1 формати.

Има някои нюанси на това как Aspose.Words работи при конвертиране в различни PDF формат стандарти. Те трябва да бъдат взети предвид, ако искате да получите очаквания резултат.

Разделите по-долу описват нюансите на начина, по който Aspose.Words работи при преобразуване в различни PDF формат стандарти и опции за тяхното решение.

Тип структура

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документът PDF е поредица от блокове като заглавия, параграфи, таблици и други. Тези блокове образуват документна структура, силно или слабо.

Силните и слабите структури са валидни за PDF/A. Microsoft Word документите имат слаба структура по дизайн, и Aspose.Words създава PDF съответно със слабата структура и генерира позиции в съответствие с очертаните нива на параграфи в изходния документ.

За документ PDF/UA-1 със слаба структура, допълнително се изисква номерата на заглавията да са в ред без пропуски.

За да се гарантира правилното изпълнение, потребителите трябва да гарантират, че съдържанието на изходния документ е правилно организирано и нивата на очертания са правилно определени за параграфи. В противен случай потребителят трябва да провери и определи структурата на изходния PDF документ.

Маркиране на съдържанието като артефакт

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

В момента, Aspose.Words маркира страници заглавни части и подноси, разделители за ноти, повтарящи се клетки за заглавни маси и декоративни изображения като артефакти. Имайте предвид, че този списък може да бъде актуализиран в бъдеще.

Ако документът съдържа друго съдържание, което трябва да бъде маркирано като артефакт, или ако някое от артефактите съдържа реално съдържание, клиентите трябва да определят това в изходния PDF.

Физически език Спецификация

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Езикът на текста е посочен в Microsoft Word документи. Aspose.Words експортиране на посочения език към изход PDF с Lang атрибут, прикрепен към маркирано съдържание последователност или Span таг го контролира от ExportLanguageToSpanTag собственост. Обикновено няма езикови въпроси, когато текст се въвежда от потребителя чрез Microsoft Word. Но има вероятност езикът да е неточен, ако текстът се генерира автоматично.

Фигура Caption

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят надпис на фигурата.

В момента Aspose.Words не може да изнася надписи с табелката “Caption,” така че те трябва да бъдат маркирани в изходния PDF.

Алтернативни описания

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документите позволяват на потребителите да добавят алтернативен текст към изображения, форми и таблици. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.

Алтернативни описания за хипервръзки

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

В допълнение към предишната точка, Microsoft Word документите също позволяват на потребителите да добавят алтернативен текст към хипервръзките. Aspose.Words експортиране на такъв алтернативен текст към изхода PDF.

За съжаление, не всяко приложение ви позволява да създадете алтернативно описание. Например, Adobe Acrobat понастоящем не позволява да се създаде такова описание за хипервръзки. Но в Microsoft Word, Можете да направите следното:

alternate-descriptions-hyperlinks-mw

Понякога има проблем, че не е възможно да се зададе алт текст за автоматично генерирани хипервръзки в съдържанието (TOC) чрез Microsoft Word GUI. Aspose.Words може да актуализира такива полета и да генерира връзките самостоятелно.

Следвайте примера с кода за актуализиране TOC полета, използващи Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Заглавни части на таблицата

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблици в PDF/UA-1 документи трябва да имат заглавни части . . колона, ред или и двете. PDF/A изисква само стандартна таблица, която няма допълнителни ограничения. Имайте предвид, че Aspose.Words автоматично генерира стандартната таблица.

Заместващ текст

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да задават заместващ текст. Така че това трябва да бъде проверено и фиксиран в изхода PDF:

AcrobatReplacementText

Съкращения и разширения на акроними

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документът не позволява на потребителите да определят съкращения и съкращения разширения. Така че това трябва да бъде проверено и фиксиран в изхода PDF:

AcrobatSplitAddExpansionText

Заглавие на документа

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документът в PDF/UA-1 трябва да има заглавие

Изисквания към шрифта

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Съществуват и редица нюанси на работа с шрифтове при конвертиране в PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 формати, използващи Aspose.Words. Те трябва да бъдат взети предвид, ако искате да избегнете възможни проблеми с изходния документ.

Разделите по-долу описват такива нюанси и възможности за тяхното решение.

Шрифт Правни изисквания

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверява законовите ограничения на използваните шрифтове. С други думи, потребителят не трябва да предоставя неподходящи шрифтове за PDF преобразуване, използвайки Aspose.Words.

.notdef Glyph

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Използване на .notdef glyph е забранено. На .notdef glyph ще се появи, ако документът съдържа символи, които не присъстват в избрания шрифт и които също не могат да бъдат решени чрез механизма Font Fallback.

Частна зона за използване (PUA)

PDF стандартни нива на съответствие в рамките на Aspose.Words Наличие на изискване
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Private Use Area (PUA) символи се появяват предимно за Windows символични шрифтове като “Symbol,” “Wings,” “Webdings” и др. Microsoft Word форматите не предоставят опция за съхраняване на действителния текст за символи.

“Segoe UI символ” е Windows Unicode шрифт, който може да се използва като алтернатива на символични шрифтове.