Работа с PDF/A или PDF/UA

Формат PDF/A и PDF/UA предъявляет ряд требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании документа в формате Word в формат PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед преобразованием, либо в документе PDF после преобразования, чтобы создать документ, полностью соответствующий требованиям PDF/A и PDF/UA.

Основные требования предъявляются к структуре или шрифтам документов PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.

Требования к структуре документа

Текущие требования предъявляются к форматам PDF/A-1a, PDF/A-2a, PDF/A-4, и PDF/UA-1.

Существуют некоторые нюансы работы Aspose.Words при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.

В подразделах ниже описаны нюансы работы Aspose.Words при преобразовании в различные стандарты формата PDF и варианты их решения.

Тип конструкции

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа – сильную или слабую.

Для PDF/A допустимы как строгие, так и слабые структуры. Документы Microsoft Word имеют слабую структуру по дизайну, и Aspose.Words создает PDF со слабой структурой соответственно, а также генерирует заголовки в соответствии с уровнями структуры абзацев в исходном документе.

Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли по порядку без пробелов.

Чтобы обеспечить корректный вывод, пользователи должны убедиться, что содержимое исходного документа правильно организовано, а уровни структуры абзацев указаны правильно. В противном случае пользователь должен проверить и исправить структуру выходного документа PDF.

Помечение содержимого как артефакта

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

На данный момент Aspose.Words помечает верхние и нижние колонтитулы страниц, разделители заметок, повторяющиеся ячейки заголовка таблицы и декоративные изображения как артефакты. Обратите внимание, что в будущем этот список может быть обновлен.

Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактированных материалов является реальным, клиенты должны исправить это в выходных данных PDF.

Спецификация естественного языка

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Язык текста указывается в документах Microsoft Word. Aspose.Words экспортирует указанный язык в выходные данные PDF с атрибутом Lang, прикрепленным к помеченной последовательности содержимого или тегу Span - он управляется свойством ExportLanguageToSpanTag. Как правило, при вводе текста пользователем через Microsoft Word языковых проблем не возникает. Но существует вероятность того, что язык может быть указан неточно, если текст генерируется автоматически.

Подпись к рисунку

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Документы Microsoft Word позволяют пользователям добавлять подписи к рисункам.

В настоящее время Aspose.Words не может экспортировать подписи с тегом Caption, поэтому они должны быть помечены в выходных данных PDF.

Альтернативные описания

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документы Microsoft Word позволяют пользователям добавлять альтернативный текст к изображениям, фигурам и таблицам. Aspose.Words экспортирует такой альтернативный текст в выходные данные PDF.

Альтернативные описания для гиперссылок

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

В дополнение к предыдущему пункту, документы Microsoft Word также позволяют пользователям добавлять альтернативный текст к гиперссылкам. Aspose.Words экспортирует такой альтернативный текст в выходные данные PDF.

К сожалению, не каждое приложение позволяет настроить альтернативное описание. Например, в Adobe Acrobat в настоящее время не предусмотрена возможность настройки такого описания для гиперссылок. Но в Microsoft Word это можно сделать следующим образом:

alternate-descriptions-hyperlinks-mw

Иногда возникает проблема, связанная с невозможностью задать альтернативный текст для автоматически генерируемых гиперссылок в оглавлении (TOC) через графический интерфейс Microsoft Word. Aspose.Words можно обновить такие поля и сгенерировать ссылки самостоятельно.

Следуйте примеру кода, чтобы обновить поля TOC, используя объектную модель документа Aspose.Words (DOM).:

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Заголовки таблиц

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблицы в документах PDF/UA-1 должны иметь заголовки – столбец, строку или оба вместе. PDF/A требуется только стандартная табличная разметка, которая не имеет дополнительных ограничений. Обратите внимание, что Aspose.Words автоматически генерирует стандартную табличную разметку.

Заменяющий текст

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Документ Microsoft Word не позволяет пользователям устанавливать текст для замены. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatReplacementText

Сокращения и акронимические дополнения

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Документ Microsoft Word не позволяет пользователям указывать сокращения и аббревиатурные расширения. Поэтому это необходимо проверить и исправить в выходных данных PDF:

AcrobatSplitAddExpansionText

Название документа

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документ в PDF/UA-1 должен иметь заголовок.

Требования к шрифту

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Также существует ряд нюансов работы со шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.

В разделах ниже описаны такие нюансы и варианты их решения.

Юридические требования к шрифтам

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не проверяет соответствие используемых шрифтов юридическим ограничениям – это зависит от пользователей. Другими словами, пользователь не должен предоставлять неподходящие шрифты для преобразования PDF с помощью Aspose.Words.

.notdef Glyph

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Использование символа .notdef запрещено. Символ .notdef появится, если документ содержит символы, которых нет в выбранном шрифте и которые также не могут быть исправлены с помощью резервного механизма изменения шрифта.

Зона частного пользования (PUA)

PDF уровни соответствия стандартам в пределах Aspose.Words Наличие требования
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Символы области частного использования (PUA) отображаются в основном символьными шрифтами Windows, такими как “Symbol”, “Wingdings”, “Webdings” и другими. Форматы Microsoft Word не предоставляют возможности сохранять фактический текст для символов.

“Символ пользовательского интерфейса Segoe” - это шрифт Windows Unicode, который можно использовать в качестве альтернативы символьным шрифтам.