Работа с PDF/A или PDF/UA

Формат PDF/A и PDF/UA предъявляет несколько требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании из документа в формате Word в PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед конверсией, либо в документе PDF после конверсии, чтобы создать полностью соответствующий документ PDF / A и PDF / UA.

Основные требования к структуре или шрифтам документа PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.

Требования к структуре документов

Текущие требования к форматам PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1.

Есть некоторые нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.

В приведенных ниже подразделах описываются нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF и варианты их решения.

Тип структуры

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа - сильно или слабо.

Как сильные, так и слабые структуры действительны для PDF/A. Microsoft Word документы имеют слабую структуру по дизайну; Aspose.Words Создает PDF со слабой структурой соответственно, а также генерирует заголовки согласно уровням контуров абзацев в исходном документе.

Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли в порядке без пробелов.

Чтобы обеспечить правильный вывод, пользователи должны убедиться, что содержание исходного документа правильно организовано и уровни контуров правильно указаны для абзацев. В противном случае пользователь должен проверить и исправить структуру выводимого PDF-документа.

Маркировка контента как артефакт

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

В данный момент, Aspose.Words отмечает заголовки страниц и нижние колонтитулы, разделители заметок, повторяющиеся ячейки заголовков таблиц и декоративные изображения в качестве артефактов. Обратите внимание, что этот список может быть обновлен в будущем.

Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактов является реальным контентом, клиенты должны исправить это на выходе PDF.

Спецификация естественного языка

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Язык текста указывается в Microsoft Word Документы. Aspose.Words экспортировать указанный язык на выход PDF с Lang атрибут, прикрепленный к последовательности с пометкой или тегу Span - он контролируется ExportLanguageToSpanTag собственность. Как правило, нет языковых проблем, когда текст вводится пользователем через Microsoft Word. Но есть вероятность, что язык может быть неточным, если текст генерируется автоматически.

Рисунок

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word Документы позволяют пользователям добавлять подпись.

В настоящее время Aspose.Words не может экспортировать подписи с тегом Caption, поэтому они должны быть помечены в выходном PDF.

Альтернативные описания

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word Документы позволяют пользователям добавлять альтернативный текст к изображениям, формам и таблицам. Aspose.Words экспортирует такой альтернативный текст на выход PDF.

Альтернативные описания для гиперссылок

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Помимо предыдущего пункта, Microsoft Word Документы также позволяют пользователям добавлять альтернативный текст в гиперссылки. Aspose.Words экспортирует такой альтернативный текст на выход PDF.

К сожалению, не каждое приложение позволяет настроить альтернативное описание. Например, Adobe Acrobat В настоящее время не позволяет настроить такое описание для гиперссылок. Но в Microsoft Word, Вы можете сделать это следующим образом:

alternate-descriptions-hyperlinks-mw

Иногда возникает проблема, что невозможно установить альтернативный текст для автогенерированных гиперссылок в таблице содержимого (TOC) через Microsoft Word Чувак. Aspose.Words Они могут обновлять такие поля и генерировать ссылки самостоятельно.

Следуйте примеру кода для обновления TOC поля, использующие Aspose.Words Document Object Model ()DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Заголовок стола

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблицы в документах PDF/UA-1 должны иметь заголовки - столбец, строку или оба. PDF/A требует только стандартной разметки таблицы, которая не имеет дополнительных ограничений. Заметьте, что Aspose.Words генерирует стандартную разметку таблицы автоматически.

Замена текста

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Документ не позволяет пользователям устанавливать заменяющий текст. Это необходимо проверить и исправить в выходном PDF:

AcrobatReplacementText

Сокращения и акронимы Расширения

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Документ не позволяет пользователям устанавливать аббревиатуры и акронимы расширений. Это необходимо проверить и исправить в выходном PDF:

AcrobatSplitAddExpansionText

Название документа

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документ в формате PDF/UA-1 должен иметь название

Требования к шрифтам

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Существует также ряд нюансов работы с шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.

В приведенных ниже разделах описываются такие нюансы и варианты их решения.

Юридические требования Font

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверяет законные ограничения используемых шрифтов - это зависит от пользователей. Другими словами, пользователь не должен предоставлять неуместные шрифты для преобразования PDF с использованием Aspose.Words.

.notdef Glyph

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Использование The .notdef glyph Запрещено. The .notdef glyph появится, если документ содержит символы, которые не присутствуют в выбранном шрифте и которые также не могут быть решены с помощью механизма Font Fallback.

Зона частного использования (PUA)

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Персонажи в зоне частного использования (PUA) в основном Windows Символические шрифты, такие как “Symbol”, “Wingdings”, “Webdings” и другие. Microsoft Word Форматы не предоставляют возможность хранения фактического текста для символов.

““Segoe UI Symbol” - это Windows шрифт Unicode, который можно использовать в качестве альтернативы символьным шрифтам.