Работа с PDF/A или PDF/UA

Формат PDF/A и PDF/UA предъявляет несколько требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании документа в формате Word в формат PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед преобразованием, либо в документе PDF после преобразования, чтобы создать документ, полностью соответствующий требованиям PDF/A и PDF/UA.

Основные требования предъявляются к структуре или шрифтам документов PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.

Требования к структуре документа

Текущие требования предъявляются к форматам PDF/A-1a, PDF/A-2a, PDF/A-4, и PDF/UA-1.

Существуют некоторые нюансы работы Aspose.Words при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.

В подразделах ниже описаны нюансы работы Aspose.Words при преобразовании в различные стандарты формата PDF и варианты их решения.

Тип конструкции

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа – сильную или слабую.

Для PDF/A допустимы как сильные, так и слабые структуры. Microsoft Word документы имеют слабую структуру по дизайну, и Aspose.Words создает PDF со слабой структурой соответственно, а также генерирует заголовки в соответствии с уровнями структуры абзацев в исходном документе.

Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли по порядку без пробелов.

Чтобы обеспечить корректный вывод, пользователи должны убедиться, что содержимое исходного документа правильно организовано, а уровни структуры абзацев указаны правильно. В противном случае пользователь должен проверить и исправить структуру выходного документа PDF.

Помечение содержимого как артефакта

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

На данный момент Aspose.Words помечает верхние и нижние колонтитулы страниц, разделители заметок, повторяющиеся ячейки заголовка таблицы и декоративные изображения как артефакты. Обратите внимание, что в будущем этот список может быть обновлен.

Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактированных материалов является реальным, клиенты должны исправить это в выходных данных PDF.

Спецификация естественного языка

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Язык текста указан в документах Microsoft Word. Aspose.Words экспортирует указанный язык в выходные данные PDF с атрибутом Lang, прикрепленным к помеченной последовательности содержимого или тегу Span - он управляется свойством ExportLanguageToSpanTag. Как правило, при вводе текста пользователем с помощью Microsoft Word языковых проблем не возникает. Но существует вероятность того, что язык может быть указан неточно, если текст генерируется автоматически.

Подпись к рисунку

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word документы позволяют пользователям добавлять подписи к рисункам.

В настоящее время Aspose.Words не может экспортировать подписи с тегом Caption, поэтому они должны быть помечены в выходных данных PDF.

Альтернативные описания

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документы позволяют пользователям добавлять альтернативный текст к изображениям, фигурам и таблицам. Aspose.Words экспортирует такой альтернативный текст в выходные данные PDF.

Альтернативные описания для гиперссылок

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

В дополнение к предыдущему пункту, документы Microsoft Word также позволяют пользователям добавлять альтернативный текст к гиперссылкам. Aspose.Words экспортирует такой альтернативный текст в выходные данные PDF.

К сожалению, не каждое приложение позволяет вам настроить альтернативное описание. Например, Adobe Acrobat в настоящее время не позволяет настроить такое описание для гиперссылок. Но в Microsoft Word вы можете сделать это следующим образом:

alternate-descriptions-hyperlinks-mw

Иногда возникает проблема, связанная с невозможностью задать альтернативный текст для автоматически генерируемых гиперссылок в оглавлении (TOC) через Microsoft Word GUI. Aspose.Words можно было бы обновить такие поля и сгенерировать ссылки самостоятельно.

Следуйте примеру кода, чтобы обновить поля TOC, используя объектную модель документа Aspose.Words (DOM).:

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Заголовки таблиц

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблицы в документах PDF/UA-1 должны иметь заголовки – столбец, строку или оба вместе. PDF/A требуется только стандартная табличная разметка, которая не имеет дополнительных ограничений. Обратите внимание, что Aspose.Words автоматически генерирует стандартную табличную разметку.

Заменяющий текст

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не позволяет пользователям устанавливать текст для замены. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatReplacementText

Сокращения и акронимические дополнения

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не позволяет пользователям устанавливать сокращения. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatSplitAddExpansionText

Название документа

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документ в PDF/UA-1 должен иметь заголовок.

Требования к шрифту

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Также существует ряд нюансов работы со шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.

В разделах ниже описаны такие нюансы и варианты их решения.

Юридические требования к шрифтам

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверяет соответствие используемых шрифтов юридическим ограничениям – это зависит от пользователей. Другими словами, пользователь не должен предоставлять неподходящие шрифты для преобразования PDF с помощью Aspose.Words.

.notdef Glyph

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Использование символа .notdef запрещено. Символ .notdef появится, если документ содержит символы, которых нет в выбранном шрифте и которые также не могут быть исправлены с помощью резервного механизма изменения шрифта.

Зона частного пользования (PUA)

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Область частного использования (PUA) символы отображаются в основном для Windows символьных шрифтов, таких как “Symbol”, “Wingdings”, “Webdings” и других. Microsoft Word форматы не предоставляют возможности сохранять фактический текст для символов.

“Segoe UI Symbol” - это шрифт Юникода Windows, который можно использовать в качестве альтернативы символьным шрифтам.