Робота з PDF/A або PDF/UA

У форматі PDF/A та PDF/UA передбачено декілька вимог, пов’язаних із вмістом документа, які не можуть виконуватися під час автоматичного перетворення з документа у форматі Word у PDF. Ці вимоги повинні бути перевірені та виправлені або у документі Word перед перетворенням або у документі PDF після перетворення, щоб зробити повністю PDF/A та PDF/UA сумісний документ.

Основні вимоги до структури або шрифтів документа PDF/A та PDF/UA, які ми розглянемо в наступних розділах.

Вимоги до структури документів

Поточні вимоги до PDF/A-1a, PDF/A-2a, PDF/A-4 та PDF/UA-1.

Є деякі нюанси того, як Aspose.Words працює при конвертуванні різних стандартів формату PDF. Вони повинні бути враховані, якщо ви хочете отримати очікуваний результат.

Підрозділи нижче описують нюанси як Aspose.Words працює при перетворенні в різні стандарти формату PDF і варіанти їх вирішення.

Тип конструкції

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1 tick

Документ PDF є послідовністю блоків, таких як заголовки, абзаци, таблиці та інші. Ці блоки утворюють структуру документа – сильно або слабкий.

І сильні і слабкі конструкції діють для PDF/A. Microsoft Word документи мають слабку структуру за допомогою дизайну і Aspose.Words створює PDF зі слабкою структурою відповідно, а також генерує заголовки відповідно до рівнів абзаців у початковому документі.

Для документу PDF/UA-1 зі слабкою структурою необхідно додатково, щоб заголовки залишалися без проміжків.

Щоб забезпечити правильний вихід, користувачі повинні переконатися, що вміст початкового документа належним чином організований і окреслювати рівні правильно вказані для абзаців. В іншому випадку користувач повинен перевірити і виправити структуру вихідного документа PDF.

Маркування контенту як артефакт

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1 tick

На даний момент Aspose.Words розмітки сторінок заголовків і нижніх колонок, замітка сепараторів, повторних клітин заголовка столу, декоративних зображень як артефакти. Зверніть увагу, що цей список може бути оновлено в майбутньому.

Якщо документ містить будь-який інший зміст, який повинен бути позначений як артефакт, або якщо будь-який з записаного вмісту є справжнім змістом, клієнти повинні виправити це у вихідному PDF.

Специфікація натуральної мови

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1 tick

Текстова мова вказана в Microsoft Word документи. Aspose.Words експорт вказаної мови до виходу PDF з Lang атрибут, прикріплений до послідовності позначеного вмісту або тегу Span - він керується ExportLanguageToSpanTag майно. Зазвичай не існує мовних питань, коли текст вводиться користувачем через Microsoft Wordй Якщо текст автоматично генерується.

Фігурне затримання

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-2а
PDF/UA-1 tick

Microsoft Word документи дозволяють користувачам додати підписку на фігуру.

В наявності Aspose.Words не можна експортувати підписи з тегом Caption, щоб вони повинні бути позначені у виході PDF.

Альтернативні описи

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1 tick

Microsoft Word документи дозволяють користувачам додати альтернативний текст на зображення, форми та таблиці. Aspose.Words експортує такий альтернативний текст до виходу PDF.

Альтернативні описи для гіперпосилання

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-2а
PDF/UA-1 tick

Крім попередньої точки, Microsoft Word документи також дозволяють користувачам додати альтернативний текст до гіперпосилання. Aspose.Words експортує такий альтернативний текст до виходу PDF.

На жаль, не кожен додаток дозволяє встановити альтернативний опис. Наприклад, Adobe Acrobat В даний час не в змозі встановити такий опис для гіперпосилання. Але в Microsoft Word, Ви можете зробити це наступним чином:

alternate-descriptions-hyperlinks-mw

Іноді виникає проблема, що неможливо встановити альт текст для автоматизації гіперпосилання в таблиці змісту (TOC) через Microsoft Word Інтерфейс. Aspose.Words може оновити такі поля і створити посилання на власні.

Додайте приклад коду, щоб оновити TOC поля з використанням Aspose.Words Document Object Model (Українська)DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Наголовки таблиці

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-2а
PDF/UA-1 tick

Столи у документах PDF/UA-1 повинні мати заголовки – стовпчик, ряд або обидва. PDF/A вимагає стандартного розмітки таблиці, що не має додаткових обмежень. Примітка Aspose.Words автоматично генерує стандартну розмітку таблиці.

Заміна тексту

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1

Microsoft Word документ не дозволяє користувачам встановлювати заміну тексту. Отже, це потрібно перевірити і зафіксувати у вихідному форматі PDF:

AcrobatReplacementText

Аббревіатури та акроніми Розширення

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-2а tick
PDF/UA-1

Microsoft Word документ не дозволяє користувачам встановлювати скорочення та розширення акронімів. Отже, це потрібно перевірити і зафіксувати у вихідному форматі PDF:

AcrobatSplitAddExpansionText

Назва документа

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-2а
PDF/А-4
PDF/UA-1 tick
Документ у PDF/UA-1 має назву

Вимоги до шрифту

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2а tick
PDF/A-2б tick
PDF/А-4 tick
PDF/UA-1 tick

Також є ряд нюансів роботи з шрифтами при перетворенні в PDF/A-1, PDF/A-2, PDF/A-4 або PDF/UA-1 з використанням Aspose.Wordsй Вони повинні бути враховані, якщо ви хочете уникнути можливих проблем з вихідним документом.

Зрізи нижче описують такі нюанси і варіанти їх вирішення.

Юридичні вимоги

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2а tick
PDF/A-2б tick
PDF/А-4 tick
PDF/UA-1 tick

Aspose.Words не перевіряє правові обмеження використовуваних шрифтів – це до користувачів. Іншими словами, користувач не повинен надавати недорогі шрифти для перетворення PDF Aspose.Wordsй

.недф Glyph

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-1b
PDF/A-2а tick
PDF/A-2б tick
PDF/А-4 tick
PDF/UA-1 tick

Використання .notdef glyph забороняється. Про нас .notdef glyph з’явиться, якщо документ містить символи, які не присутні в вибраному шрифті, і які також не можуть бути вирішені за допомогою механізму “Фонс”.

Приватна область використання (PUA)

Рівень відповідності стандарту PDF в межах Aspose.Words Наявність вимог
PDF/A-1a
PDF/A-1b
PDF/A-2а tick
PDF/A-2б tick
PDF/А-4 tick
PDF/UA-1

Приватні символи використання (PUA) з’являються переважно для Windows символічні шрифти типу “Symbol”, “Wingdings”, “Webdings”, та інші. Microsoft Word Формати не дають можливості зберігати фактичний текст для символів.

“Символ Segoe UI Windows Унікод шрифт, який можна використовувати як альтернативу символічним шрифтам.