Работа с PDF/A или PDF/UA

Формат PDF/A и PDF/UA предъявляет несколько требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании из документа в формате Word в PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед конверсией, либо в документе PDF после конверсии, чтобы создать полностью соответствующий документ PDF / A и PDF / UA.

Основные требования к структуре или шрифтам документа PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.

Требования к структуре документов

Текущие требования к форматам PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1.

Есть некоторые нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.

В приведенных ниже подразделах описываются нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF и варианты их решения.

Тип структуры

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа - сильно или слабо.

Как сильные, так и слабые структуры действительны для PDF/A. Microsoft Word документы имеют слабую структуру по дизайну; Aspose.Words Создает PDF со слабой структурой соответственно, а также генерирует заголовки согласно уровням контуров абзацев в исходном документе.

Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли в порядке без пробелов.

Чтобы обеспечить правильный вывод, пользователи должны убедиться, что содержание исходного документа правильно организовано и уровни контуров правильно указаны для абзацев. В противном случае пользователь должен проверить и исправить структуру выводимого PDF-документа.

Маркировка контента как артефакт

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

В данный момент, Aspose.Words отмечает заголовки страниц и нижние колонтитулы, разделители заметок, повторяющиеся ячейки заголовков таблиц и декоративные изображения в качестве артефактов. Обратите внимание, что этот список может быть обновлен в будущем.

Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактов является реальным контентом, клиенты должны исправить это на выходе PDF.

Спецификация естественного языка

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Язык текста указывается в Microsoft Word Документы. Aspose.Words экспортировать указанный язык на выход PDF с Lang атрибут, прикрепленный к последовательности с пометкой или тегу Span - он контролируется export_language_to_span_tag собственность. Как правило, нет языковых проблем, когда текст вводится пользователем через Microsoft Word. Но есть вероятность, что язык может быть неточным, если текст генерируется автоматически.

Альтернативные описания

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word Документы позволяют пользователям добавлять альтернативный текст к изображениям, формам и таблицам. Aspose.Words экспортирует такой альтернативный текст на выход PDF.

Замена текста

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Документ не позволяет пользователям устанавливать заменяющий текст. Это необходимо проверить и исправить в выходном PDF:

AcrobatReplacementText

Сокращения и акронимы Расширения

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Документ не позволяет пользователям устанавливать аббревиатуры и акронимы расширений. Это необходимо проверить и исправить в выходном PDF:

AcrobatSplitAddExpansionText

Требования к шрифтам

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Существует также ряд нюансов работы с шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.

В приведенных ниже разделах описываются такие нюансы и варианты их решения.

Юридические требования Font

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверяет законные ограничения используемых шрифтов - это зависит от пользователей. Другими словами, пользователь не должен предоставлять неуместные шрифты для преобразования PDF с использованием Aspose.Words.

.notdef Glyph

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Использование The .notdef glyph Запрещено. The .notdef glyph появится, если документ содержит символы, которые не присутствуют в выбранном шрифте и которые также не могут быть решены с помощью механизма Font Fallback.

Зона частного использования (PUA)

Стандартные уровни соответствия PDF в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Персонажи в зоне частного использования (PUA) в основном Windows Символические шрифты, такие как “Symbol”, “Wingdings”, “Webdings” и другие. Microsoft Word Форматы не предоставляют возможность хранения фактического текста для символов.

““Segoe UI Symbol” - это Windows шрифт Unicode, который можно использовать в качестве альтернативы символьным шрифтам.