Работа с PDF/A или PDF/UA

Формат PDF/A и PDF/UA предъявляет несколько требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании документа в формате Word в формат PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед преобразованием, либо в документе PDF после преобразования, чтобы создать документ, полностью соответствующий требованиям PDF/A и PDF/UA.

Основные требования предъявляются к структуре или шрифтам документов PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.

Требования к структуре документа

Текущие требования предъявляются к форматам PDF/A-1a, PDF/A-2a, PDF/A-4, и PDF/UA-1.

Существуют некоторые нюансы работы Aspose.Words при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.

В подразделах ниже описаны нюансы работы Aspose.Words при преобразовании в различные стандарты формата PDF и варианты их решения.

Тип конструкции

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа – сильную или слабую.

Для PDF/A допустимы как сильные, так и слабые структуры. Microsoft Word документы имеют слабую структуру по дизайну, и Aspose.Words создает PDF со слабой структурой соответственно, а также генерирует заголовки в соответствии с уровнями структуры абзацев в исходном документе.

Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли по порядку без пробелов.

Чтобы обеспечить корректный вывод, пользователи должны убедиться, что содержимое исходного документа правильно организовано, а уровни структуры абзацев указаны правильно. В противном случае пользователь должен проверить и исправить структуру выходного документа PDF.

Помечение содержимого как артефакта

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

На данный момент Aspose.Words помечает верхние и нижние колонтитулы страниц, разделители заметок, повторяющиеся ячейки заголовка таблицы и декоративные изображения как артефакты. Обратите внимание, что в будущем этот список может быть обновлен.

Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактированных материалов является реальным, клиенты должны исправить это в выходных данных PDF.

Спецификация естественного языка

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Язык текста указан в документах Microsoft Word. Aspose.Words экспортирует указанный язык в выходные данные PDF с атрибутом Lang, прикрепленным к помеченной последовательности содержимого или тегу Span - он управляется свойством export_language_to_span_tag. Как правило, при вводе текста пользователем с помощью Microsoft Word языковых проблем не возникает. Но существует вероятность того, что язык может быть указан неточно, если текст генерируется автоматически.

Альтернативные описания

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документы позволяют пользователям добавлять альтернативный текст к изображениям, фигурам и таблицам. Aspose.Words экспортирует такой альтернативный текст в выходные данные PDF.

Заменяющий текст

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не позволяет пользователям устанавливать текст для замены. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatReplacementText

Сокращения и акронимические дополнения

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не позволяет пользователям устанавливать сокращения. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatSplitAddExpansionText

Требования к шрифту

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Также существует ряд нюансов работы со шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.

В разделах ниже описаны такие нюансы и варианты их решения.

Юридические требования к шрифтам

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверяет соответствие используемых шрифтов юридическим ограничениям – это зависит от пользователей. Другими словами, пользователь не должен предоставлять неподходящие шрифты для преобразования PDF с помощью Aspose.Words.

.notdef Glyph

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Использование символа .notdef запрещено. Символ .notdef появится, если документ содержит символы, которых нет в выбранном шрифте и которые также не могут быть исправлены с помощью резервного механизма изменения шрифта.

Зона частного пользования (PUA)

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Область частного использования (PUA) символы отображаются в основном для Windows символьных шрифтов, таких как “Symbol”, “Wingdings”, “Webdings” и других. Microsoft Word форматы не предоставляют возможности сохранять фактический текст для символов.

“Segoe UI Symbol” - это шрифт Юникода Windows, который можно использовать в качестве альтернативы символьным шрифтам.