Работа с PDF/A или PDF/UA
Формат PDF/A и PDF/UA предъявляет несколько требований к содержимому документа, которые не могут быть выполнены при автоматическом преобразовании из документа в формате Word в PDF. Эти требования должны быть проверены и исправлены либо в документе Word перед конверсией, либо в документе PDF после конверсии, чтобы создать полностью соответствующий документ PDF / A и PDF / UA.
Основные требования к структуре или шрифтам документа PDF/A и PDF/UA, которые мы рассмотрим в следующих разделах.
Требования к структуре документов
Текущие требования к форматам PDF/A-1a, PDF/A-2a, PDF/A-4 и PDF/UA-1.
Есть некоторые нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF. Их необходимо учитывать, если вы хотите получить ожидаемый результат.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Авторам не рекомендуется создавать структурную или семантическую информацию с использованием автоматизированных процессов без соответствующей проверки.
ISO 19005-2, 6.7.1
В приведенных ниже подразделах описываются нюансы того, как Aspose.Words Работает при конвертации в различные стандарты формата PDF и варианты их решения.
Тип структуры
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Документ PDF представляет собой последовательность блоков, таких как заголовки, абзацы, таблицы и другие. Эти блоки образуют структуру документа - сильно или слабо.
Как сильные, так и слабые структуры действительны для PDF/A. Microsoft Word документы имеют слабую структуру по дизайну; Aspose.Words Создает PDF со слабой структурой соответственно, а также генерирует заголовки согласно уровням контуров абзацев в исходном документе.
Для документа PDF/UA-1 со слабой структурой дополнительно требуется, чтобы номера заголовков шли в порядке без пробелов.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Структура на уровне блоков может следовать одной из двух основных парадигм:
ISO-32000-1, 14.8.4.3.5
Для документов PDF/UA-1 спецификация содержит дополнение, относящееся к уровням заголовков (расширить, чтобы увидеть детали):
Если семантика документа требует нисходящей последовательности заголовков, такая последовательность должна протекать в строгом численном порядке и не должна пропускать промежуточный уровень заголовка. H1 H2 H3 допустим, а H1 H3 - нет.
ISO-14289-1, 7.4.2
Чтобы обеспечить правильный вывод, пользователи должны убедиться, что содержание исходного документа правильно организовано и уровни контуров правильно указаны для абзацев. В противном случае пользователь должен проверить и исправить структуру выводимого PDF-документа.
В этом блоке вы можете увидеть примеры: как установить уровни контуров в Microsoft Word или проверить и исправить структуру выходного документа PDF (расширить, чтобы увидеть детали).
в Microsoft Word По умолчанию стили "Heading X" могут использоваться для определения уровня контура:
Кроме того, уровень контуров можно было проверить или изменить в окне "Параграф":
В Acrobat структура документа может быть проверена или изменена в панели "Тэги":
Маркировка контента как артефакт
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
В данный момент, Aspose.Words отмечает заголовки страниц и нижние колонтитулы, разделители заметок, повторяющиеся ячейки заголовков таблиц и декоративные изображения в качестве артефактов. Обратите внимание, что этот список может быть обновлен в будущем.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Графические объекты в документе можно разделить на два класса:
ISO-32000-1, 14.8.2.2.1
Если документ содержит какой-либо другой контент, который должен быть помечен как артефакт, или если какой-либо из артефактов является реальным контентом, клиенты должны исправить это на выходе PDF.
В этом блоке можно увидеть примеры: как маркировать формы как декоративные Microsoft Word или отметьте форму как артефакт в выходном документе PDF (расширьте, чтобы увидеть детали).
Например, формы могут быть помечены как декоративные. Microsoft Word, Поэтому они будут экспортироваться в PDF в качестве артефакта:
Вы можете пометить форму как артефакт на выходе PDF:
Также можно переключать текст в заголовке с артефакта на реальный контент на выходе PDF:
Спецификация естественного языка
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Язык текста указывается в Microsoft Word Документы. Aspose.Words экспортирует указанный язык на выход PDF с Lang атрибут, прикрепленный к последовательности с пометкой или тегу Span - он контролируется ExportLanguageToSpanTag собственность. Как правило, нет языковых проблем, когда текст вводится пользователем через Microsoft Word. Но есть вероятность, что язык может быть неточным, если текст генерируется автоматически.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Естественный язык по умолчанию для всего текста в файле должен быть указан записью Lang в словаре каталога документа.
Все текстовое содержимое в файле, которое отличается от языка по умолчанию, должно быть указано с помощью `Lang` свойство, прикрепленное к последовательности с маркировкой контента или записью Lang в словаре элементов структуры.
ISO19005-2, 6.7.4
Дополнительно для PDF/UA-1 спецификация сообщает нам следующее (расширить, чтобы увидеть детали):
Естественный язык должен быть... Объявляются изменения в естественном языке.
ISO-14289-1, 7.2
В этом блоке можно увидеть примеры: как убедиться, что язык указан правильно (расширить, чтобы увидеть детали).
Пользователи должны убедиться, что язык указан правильно в исходном документе Word:
Или выходной PDF-документ:
Рисунок
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word Документы позволяют пользователям добавлять подпись.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Подпись, сопровождающая фигуру, должна быть помечена тегом подписи.
ISO-14289-1, 7.3
В настоящее время Aspose.Words не может экспортировать подписи с тегом Caption, поэтому они должны быть помечены в выходном PDF.
В этом блоке можно увидеть примеры: как вставить подпись (расширить, чтобы увидеть детали).
в Microsoft Word, Подпись может быть вставлена через контекстное меню:
В Acrobat подпись может быть добавлена или изменена через `Object` Диалог свойств:
Альтернативные описания
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word Документы позволяют пользователям добавлять альтернативный текст к изображениям, формам и таблицам. Aspose.Words экспортирует такой альтернативный текст на выход PDF.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Все элементы структуры, содержание которых не имеет естественного предопределенного текстового аналога, например изображения, формулы и т.д., должны предоставлять альтернативное текстовое описание с использованием записи Alt в словаре элементов структуры.
Примечание Альтернативные описания предоставляют текстовые описания, которые помогают в правильной интерпретации непрозрачного нетекстового контента.
ISO19005-2, 6.7.5
В этом блоке можно увидеть примеры: как убедиться, что все элементы имеют альтернативный текст (расширить, чтобы увидеть детали).
Пользователи должны убедиться, что все элементы имеют альтернативный текст в исходном документе Word:
Или выходной PDF-документ:
Альтернативные описания для гиперссылок
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Помимо предыдущего пункта, Microsoft Word Документы также позволяют пользователям добавлять альтернативный текст в гиперссылки. Aspose.Words экспортирует такой альтернативный текст на выход PDF.
К сожалению, не каждое приложение позволяет настроить альтернативное описание. Например, Adobe Acrobat В настоящее время не позволяет настроить такое описание для гиперссылок. Но в Microsoft Word, Вы можете сделать это следующим образом:
Иногда возникает проблема, что невозможно установить альтернативный текст для автогенерированных гиперссылок в таблице содержимого (TOC) через Microsoft Word Чувак. Aspose.Words Они могут обновлять такие поля и генерировать ссылки самостоятельно.
Следуйте примеру кода для обновления TOC
поля, использующие Aspose.Words Document Object Model ()DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Заголовок стола
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Таблицы в документах PDF/UA-1 должны иметь заголовки - столбец, строку или оба. PDF/A требует только стандартной разметки таблицы, которая не имеет дополнительных ограничений. Обратите внимание, что Aspose.Words генерирует стандартную разметку таблицы автоматически.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Таблицы должны включать заголовки... Таблицы могут содержать заголовки колонок, заголовки строк или оба.
ISO-14289-1, 7,5
В этом блоке можно увидеть примеры: как установить заголовок таблицы (расширить, чтобы увидеть детали).
Заголовок стола может быть настроен либо источником Microsoft Word документ:
Или выходной PDF:
Замена текста
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Спецификация говорит нам следующее:
Все элементы текстуальной структуры, которые представлены нестандартным образом, например, пользовательские символы или встроенная графика, должны поставлять заменяющий текст с использованием стандарта. `ActualText` Введение в словарь элементов структуры...
ISO19005-2, 6.7.7
Microsoft Word Документ не позволяет пользователям устанавливать заменяющий текст. Это необходимо проверить и исправить в выходном PDF:
Сокращения и акронимы Расширения
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Все экземпляры аббревиатур и аббревиатур в текстовом контенте должны быть помещены в последовательность с пометкой "Span", свойство E которой обеспечивает текстовое расширение аббревиатуры или аббревиатуры.
ISO19005-2, 6.7.8
Microsoft Word Документ не позволяет пользователям устанавливать аббревиатуры и акронимы расширений. Это необходимо проверить и исправить в выходном PDF:
Название документа
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Документ в формате PDF/UA-1 должен иметь название |
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Спецификация говорит нам следующее:
Поток метаданных в каталоге документа должен содержать запись dc:title, где dc является рекомендуемым префиксом для схемы метаданных Dublin Core.
ISO-14289-1, 7.1
В этом блоке можно увидеть примеры: как задать заголовок документа (расширить, чтобы увидеть детали).
Заголовок документа может быть установлен либо источником Microsoft Word документ:
Или выходной PDF:
Требования к шрифтам
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Существует также ряд нюансов работы с шрифтами при конвертации в форматы PDF/A-1, PDF/A-2, PDF/A-4 или PDF/UA-1 с использованием Aspose.Words. Их необходимо учитывать, если вы хотите избежать возможных проблем с выходным документом.
В приведенных ниже разделах описываются такие нюансы и варианты их решения.
Юридические требования Font
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words не проверяет законные ограничения используемых шрифтов – это зависит от пользователей. Другими словами, пользователь не должен предоставлять неуместные шрифты для преобразования PDF с использованием Aspose.Words.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Используются только программы шрифтов, которые юридически встраиваются в файл для неограниченного универсального рендеринга.
ISO19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (точно такие же цитаты в двух спецификациях)
.notdef Glyph
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Использование The .notdef
glyph Запрещено. The .notdef
glyph появится, если документ содержит символы, которые не присутствуют в выбранном шрифте и которые также не могут быть решены с помощью механизма Font Fallback.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
Соответствующий документ не должен содержать ссылки на .notdef glyph от любого из текстов, показывающих операторов, независимо от режима рендеринга текста, в любом потоке контента.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (точно такие же котировки в двух спецификациях)
В этом блоке можно увидеть примеры: как удалить или заменить эти символы (расширить, чтобы увидеть детали).
Пользователи должны удалить или заменить эти символы в исходном документе Word:
Или выведите PDF-документ с помощью инструмента "Edit PDF":
Зона частного использования (PUA)
Стандартные уровни соответствия PDF в пределах Aspose.Words | Наличие требования |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Персонажи в зоне частного использования (PUA) в основном Windows Символические шрифты, такие как “Symbol”, “Wingdings”, “Webdings” и другие. Microsoft Word Форматы не предоставляют возможность хранения фактического текста для символов.
Спецификация говорит нам следующее (расширьте, чтобы увидеть детали):
для уровня Только соответствие для любого символа ..., который отображается в коде или кодах в зоне частного использования Unicode (PUA), запись ActualText ... должна присутствовать для этого символа или последовательности символов, частью которых является такой символ.
ISO19005-2, 6.2.11.7.3
““Segoe UI Symbol” - это Windows шрифт Unicode, который можно использовать в качестве альтернативы символьным шрифтам.
В этом блоке можно увидеть примеры: что пользователь должен сделать, чтобы решить проблему с помощью символьных шрифтов (расширить, чтобы увидеть детали).
Замените символьный шрифт на Unicode в исходном документе Word:
Или добавьте запись ActualText к проблемным символам в выходном документе PDF: