Робота з PDF/A або PDF/UA

Формат PDF/A і PDF/UA пред’являє кілька вимог до вмісту документа, які не можуть бути виконані при автоматичному перетворенні документа в форматі Word в формат PDF. Ці вимоги повинні бути перевірені та виправлені або в документі Word перед перетворенням, або в документі PDF після перетворення, щоб отримати документ, який повністю відповідає вимогам PDF/A та PDF/UA.

Основні вимоги пред’являються до структури або шрифтів документів PDF/A і PDF/UA, які ми розглянемо в наступних розділах.

Вимоги до структури документа

Поточні вимоги пред’являються до форматів PDF/A-1a, PDF/A-2a, PDF/A-4, і PDF/UA-1.

Існують деякі нюанси роботи Aspose.Words при конвертації в різні стандарти формату PDF. Їх необхідно враховувати, якщо ви хочете отримати очікуваний результат.

У підрозділах нижче описані нюанси роботи Aspose.Words при перетворенні в різні стандарти формату PDF і варіанти їх вирішення.

Тип конструкції

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Документ PDF являє собою послідовність блоків, таких як заголовки, абзаци, таблиці та інші. Ці блоки утворюють структуру документа-сильну або слабку.

Для PDF/A допустимі як сильні, так і слабкі структури. Microsoft Word документи мають слабку структуру за дизайном, і Aspose.Words створює PDF зі слабкою структурою відповідно, а також генерує заголовки відповідно до рівнів структури абзаців у вихідному документі.

Для документа PDF/UA-1 зі слабкою структурою додатково потрібно, щоб номери заголовків йшли по порядку без пробілів.

Щоб забезпечити коректний висновок, користувачі повинні переконатися, що вміст вихідного документа правильно організовано, а рівні структури абзаців вказані правильно. В іншому випадку користувач повинен перевірити та виправити структуру вихідного документа PDF.

Позначення вмісту як артефакту

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

На даний момент Aspose.Words позначає верхні та нижні колонтитули сторінок, роздільники нотаток, повторювані клітинки заголовка таблиці та декоративні зображення як артефакти. Зверніть увагу, що в майбутньому цей список може бути оновлений.

Якщо документ містить будь-який інший вміст, який повинен бути позначений як артефакт, або якщо будь-який з артефактованих матеріалів є реальним, клієнти повинні виправити це у вихідних даних PDF.

Специфікація природної мови

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Мова тексту вказана в документах Microsoft Word. Aspose.Words експортує зазначену мову у вихідні дані PDF з атрибутом Lang, прикріпленим до позначеної послідовності вмісту або Тегу Span - він управляється властивістю ExportLanguageToSpanTag. Як правило, при введенні тексту Користувачем за допомогою Microsoft Word мовних проблем не виникає. Але існує ймовірність того, що мова може бути вказана неточно, якщо текст генерується автоматично.

Підпис до малюнка

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word документи дозволяють користувачам додавати підписи до малюнків.

В даний час Aspose.Words не може експортувати підписи з тегом Caption, тому вони повинні бути позначені у вихідних даних PDF.

Альтернативні описи

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word документи дозволяють користувачам додавати альтернативний текст до зображень, фігур та таблиць. Aspose.Words експортує такий альтернативний текст у вихідні дані PDF.

Альтернативні описи для гіперпосилань

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

На додаток до попереднього пункту, документи Microsoft Word також дозволяють користувачам додавати альтернативний текст до гіперпосилань. Aspose.Words експортує такий альтернативний текст у вихідні дані PDF.

На жаль, не кожна програма дозволяє налаштувати альтернативний опис. Наприклад, Adobe Acrobat наразі не дозволяє налаштувати такий опис для гіперпосилань. Але в Microsoft Word ви можете зробити це наступним чином:

alternate-descriptions-hyperlinks-mw

Іноді виникає проблема, пов’язана з неможливістю задати альтернативний текст для автоматично генеруються гіперпосилань в змісті (TOC) через Microsoft Word GUI. Aspose.Words можна було б оновити такі поля і згенерувати посилання самостійно.

Дотримуйтесь прикладу коду, щоб оновити поля TOC, використовуючи об’єктну модель документа Aspose.Words (DOM).:

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Заголовки таблиць

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Таблиці в документах PDF/UA-1 повинні мати заголовки – стовпець, рядок або обидва разом. PDF/A потрібна лише стандартна таблична розмітка, яка не має додаткових обмежень. Зверніть увагу, що Aspose.Words автоматично генерує стандартну табличну розмітку.

Замінний текст

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не дозволяє користувачам встановлювати текст для заміни. Тому це потрібно перевірити та виправити у вихідних даних PDF:

AcrobatReplacementText

Скорочення та акронімічні Доповнення

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word документ не дозволяє користувачам встановлювати скорочення. Тому це потрібно перевірити та виправити у вихідних даних PDF:

AcrobatSplitAddExpansionText

Назва документа

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Документ у PDF/UA-1 повинен мати заголовок.

Вимоги до шрифту

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Також існує ряд нюансів роботи зі шрифтами при конвертації в формати PDF/A-1, PDF/A-2, PDF/A-4 або PDF/UA-1 за допомогою Aspose.Words. Їх необхідно враховувати, якщо ви хочете уникнути можливих проблем з вихідним документом.

У розділах нижче описані такі нюанси і варіанти їх вирішення.

Юридичні вимоги до шрифтів

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words не перевіряє відповідність використовуваних шрифтів юридичним обмеженням – це залежить від користувачів. Іншими словами, користувач не повинен надавати невідповідні шрифти для перетворення PDF за допомогою Aspose.Words.

.notdef Glyph

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Використання символу .notdef заборонено. Символ .notdef з’явиться, якщо документ містить Символи, яких немає у вибраному шрифті і які також не можуть бути виправлені за допомогою резервного механізму зміни шрифту.

Зона приватного користування (PUA)

PDF рівні відповідності стандартам в межах Aspose.Words Наявність вимоги
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Область приватного використання (PUA) символи відображаються в основному для Windows символьних шрифтів, таких як “Symbol”, “Wingdings”, “Webdings” та інших. Microsoft Word формати не надають можливості зберігати фактичний текст для символів.

“Segoe UI Symbol” - це Шрифт Unicode Windows, який можна використовувати як альтернативу шрифтам символів.