Робота з PDF/A або PDF/UA
У форматі PDF/A та PDF/UA передбачено декілька вимог, пов’язаних із вмістом документа, які не можуть виконуватися під час автоматичного перетворення з документа у форматі Word у PDF. Ці вимоги повинні бути перевірені та виправлені або у документі Word перед перетворенням або у документі PDF після перетворення, щоб зробити повністю PDF/A та PDF/UA сумісний документ.
Основні вимоги до структури або шрифтів документа PDF/A та PDF/UA, які ми розглянемо в наступних розділах.
Вимоги до структури документів
Поточні вимоги до PDF/A-1a, PDF/A-2a, PDF/A-4 та PDF/UA-1.
Є деякі нюанси того, як Aspose.Words працює при конвертуванні різних стандартів формату PDF. Вони повинні бути враховані, якщо ви хочете отримати очікуваний результат.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Для створення структурної або семантичної інформації з використанням автоматизованих процесів без відповідної перевірки.
ISO 19005-2, 6.7.1
Підрозділи нижче описують нюанси як Aspose.Words працює при перетворенні в різні стандарти формату PDF і варіанти їх вирішення.
Тип конструкції
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Документ PDF є послідовністю блоків, таких як заголовки, абзаци, таблиці та інші. Ці блоки утворюють структуру документа – сильно або слабкий.
І сильні і слабкі конструкції діють для PDF/A. Microsoft Word документи мають слабку структуру за допомогою дизайну і Aspose.Words створює PDF зі слабкою структурою відповідно, а також генерує заголовки відповідно до рівнів абзаців у початковому документі.
Для документу PDF/UA-1 зі слабкою структурою необхідно додатково, щоб заголовки залишалися без проміжків.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Структура блоку може слідувати одному з двох основних парадигм:
ISO-32000-1, 14.8.4.3.5
Для документів PDF/UA-1, специфікація містить доповнення, пов’язані з рівнями заголовка (розширити деталі):
Якщо документ семантика вимагає спадаючої послідовності заголовків, така послідовність продовжиться в строгому чисельному порядку і не пропускає домокання рівня заголовка. H1 H2 H3 допустимо, в той час як H1 H3 не є.
ISO-14289-1, 7.4.2
Щоб забезпечити правильний вихід, користувачі повинні переконатися, що вміст початкового документа належним чином організований і окреслювати рівні правильно вказані для абзаців. В іншому випадку користувач повинен перевірити і виправити структуру вихідного документа PDF.
У цьому блокі можна побачити приклади: як встановити рівні контурів в Microsoft Word або перевірте та зафіксуйте структуру вихідного документа PDF (поширюйте деталі).
У Microsoft Word За замовчуванням "Heading X" можна використовувати для встановлення рівня контуру:
Крім того, рівень контуру можна перевірити або змінити у вікні "Параграф":
У документі може бути зареєстрований або змінений у сковороді "Таги":
Маркування контенту як артефакт
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
На даний момент Aspose.Words розмітки сторінок заголовків і нижніх колонок, замітка сепараторів, повторних клітин заголовка столу, декоративних зображень як артефакти. Зверніть увагу, що цей список може бути оновлено в майбутньому.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Графічні об'єкти в документі можна розділити на два класи:
ISO-32000-1, 14.8.2.2.1
Якщо документ містить будь-який інший зміст, який повинен бути позначений як артефакт, або якщо будь-який з записаного вмісту є справжнім змістом, клієнти повинні виправити це у вихідному PDF.
У цьому блоці можна побачити приклади: як розмітити форми як декоративні в Microsoft Word або позначте форму як артефакт у вихідному документі PDF (поширюйте деталі).
Наприклад, форми можуть бути позначені як декоративними Microsoft Word, щоб вони будуть експортовані в PDF як артефакт:
Ви можете відмітити форму як артефакт у виході PDF:
Також ви можете переключати текст у заголовку з артефакту до реального вмісту у вихідному PDF:
Специфікація натуральної мови
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Текстова мова вказана в Microsoft Word документи. Aspose.Words експорт вказаної мови до виходу PDF з Lang атрибут, прикріплений до послідовності позначеного вмісту або тегу Span - він керується ExportLanguageToSpanTag майно. Зазвичай не існує мовних питань, коли текст вводиться користувачем через Microsoft Wordй Якщо текст автоматично генерується.
Спеціалізацію розповідає нам про наступні (поширити деталі):
За замовчуванням природна мова для всіх текстів у файлі повинна бути вказана записом Lang у словнику каталогу документа.
Весь текстовий вміст у файлі, який відрізняється від мови за замовчуванням, необхідно вказати за допомогою використання файлу `Lang` майно, прикріплене до означеної послідовності, або шляхом входу Lang в структурний елемент словника ...
ISO-19005-2, 6.7.4
Додатково для PDF/UA-1, специфікація розповідає нам:
Природна мова повинна бути заявлена... Зміни у природній мові будуть оголошені.
ISO-14289-1, 7.2
У цьому блоці ви можете побачити приклади: як забезпечити те, що мова вказана правильно (розширити деталі).
Користувачі повинні переконатися, що мова вказана належним чином в будь-якому документі Word:
Або вихід документа PDF:
Фігурне затримання
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Microsoft Word документи дозволяють користувачам додати підписку на фігуру.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Вказка, що супроводжується фігурою, повинна бути позначена тегом підписки.
ISO-14289-1, 7.3
В наявності Aspose.Words не можна експортувати підписи з тегом Caption, щоб вони повинні бути позначені у виході PDF.
У цьому блоці можна побачити приклади: як вставити підпис (поширити деталі).
У Microsoft Word, У контекстному меню можна вставляти підписку:
Прийняти підписку можна додавати або змінити через `Object` Властивості діалог:
Альтернативні описи
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Microsoft Word документи дозволяють користувачам додати альтернативний текст на зображення, форми та таблиці. Aspose.Words експортує такий альтернативний текст до виходу PDF.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Всі елементи структури, вміст яких не має природного заданого текстового аналога, наприклад зображення, формула і т.д., повинні надати альтернативний текст опису за допомогою Alt запису в структурі елемент словника...
ЗАМОВИТИ Визначені описи дають текстові описи, які допомагають при правильній інтерпретації іншого непрозорого нетекстового вмісту.
ISO-19005-2, 6.7.5
У цьому блоці ви можете побачити приклади: як забезпечити, що всі елементи мають альтернативний текст (розширити деталі).
Користувачі повинні переконатися, що всі елементи мають альтернативний текст або джерело документ Word:
Або вихід документа PDF:
Альтернативні описи для гіперпосилання
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Крім попередньої точки, Microsoft Word документи також дозволяють користувачам додати альтернативний текст до гіперпосилання. Aspose.Words експортує такий альтернативний текст до виходу PDF.
На жаль, не кожен додаток дозволяє встановити альтернативний опис. Наприклад, Adobe Acrobat В даний час не в змозі встановити такий опис для гіперпосилання. Але в Microsoft Word, Ви можете зробити це наступним чином:
Іноді виникає проблема, що неможливо встановити альт текст для автоматизації гіперпосилання в таблиці змісту (TOC) через Microsoft Word Інтерфейс. Aspose.Words може оновити такі поля і створити посилання на власні.
Додайте приклад коду, щоб оновити TOC
поля з використанням Aspose.Words Document Object Model (Українська)DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Наголовки таблиці
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Столи у документах PDF/UA-1 повинні мати заголовки – стовпчик, ряд або обидва. PDF/A вимагає стандартного розмітки таблиці, що не має додаткових обмежень. Примітка Aspose.Words автоматично генерує стандартну розмітку таблиці.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Столи повинні включати заголовки ... Столи можуть містити колонки, заголовки рядків або обидва.
ISO-14289-1, 7.5
У цьому блокі можна побачити приклади: як встановити заголовок таблиці (поширити деталі).
Заголовок таблиці можна встановити як джерело Microsoft Word документ:
Або вихід PDF:
Заміна тексту
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Спеціалізацію розповідає нам про наступні (поширити деталі):
Специфікація розповідає нам про наступне:
Всі елементи текстури, які представлені в нестандартному порядку, наприклад, користувацьких символів або вбудованої графіки, повинні поставляти заміну тексту за допомогою параметра `ActualText` запис у структурний елемент словника...
ISO-19005-2, 6.7.7
Microsoft Word документ не дозволяє користувачам встановлювати заміну тексту. Отже, це потрібно перевірити і зафіксувати у вихідному форматі PDF:
Аббревіатури та акроніми Розширення
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/UA-1 |
Спеціалізацію розповідає нам про наступні (поширити деталі):
Всі екземпляри аббревіатури та акронімів у текстовому вмісті повинні бути розміщені в позначеній послідовності вмісту з тегом Span, який E має текстове розширення аббревіатури або acronym...
ISO-19005-2, 6.7.8
Microsoft Word документ не дозволяє користувачам встановлювати скорочення та розширення акронімів. Отже, це потрібно перевірити і зафіксувати у вихідному форматі PDF:
Назва документа
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-2а | |
PDF/А-4 | |
PDF/UA-1 |
Документ у PDF/UA-1 має назву |
Спеціалізацію розповідає нам про наступні (поширити деталі):
Специфікація розповідає нам про наступне:
Потік метаданих у словнику каталогу документа повинен містити dc: запис назви, де dc є рекомендованим префіксом для Дубліна Core метаданих schema ...
ISO-14289-1, 7.1
У цьому блоці ви можете побачити приклади: як встановити назву документа (дивитись деталі).
Назва документа може бути встановлена як джерело Microsoft Word документ:
Або вихід PDF:
Вимоги до шрифту
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2а | |
PDF/A-2б | |
PDF/А-4 | |
PDF/UA-1 |
Також є ряд нюансів роботи з шрифтами при перетворенні в PDF/A-1, PDF/A-2, PDF/A-4 або PDF/UA-1 з використанням Aspose.Wordsй Вони повинні бути враховані, якщо ви хочете уникнути можливих проблем з вихідним документом.
Зрізи нижче описують такі нюанси і варіанти їх вирішення.
Юридичні вимоги
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2а | |
PDF/A-2б | |
PDF/А-4 | |
PDF/UA-1 |
Aspose.Words не перевіряє правові обмеження використовуваних шрифтів – це до користувачів. Іншими словами, користувач не повинен надавати недорогі шрифти для перетворення PDF Aspose.Wordsй
Спеціалізацію розповідає нам про наступні (поширити деталі):
У файлі для необмеженого, універсального рендерингу використовуються тільки програми шрифту, які є юридично зібраними у файлі.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (зазвичай однакові котирування в двох специфікаціях)
.недф Glyph
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2а | |
PDF/A-2б | |
PDF/А-4 | |
PDF/UA-1 |
Використання .notdef
glyph забороняється. Про нас .notdef
glyph з’явиться, якщо документ містить символи, які не присутні в вибраному шрифті, і які також не можуть бути вирішені за допомогою механізму “Фонс”.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Не містить посилання на .notdef glyph від будь-яких операторів текстового показу, незалежно від способу відображення тексту, в будь-якому потоковому режимі.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (зазвичай однакові лапки в двох специфікаціях)
У цьому блоці ви можете побачити приклади: як видалити або замінити ці символи (дивитись деталі).
Користувачі повинні видалити або замінити ці символи в документі Word:
Або вихід документа PDF за допомогою інструмента "Редагувати PDF":
Приватна область використання (PUA)
Рівень відповідності стандарту PDF в межах Aspose.Words | Наявність вимог |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2а | |
PDF/A-2б | |
PDF/А-4 | |
PDF/UA-1 |
Приватні символи використання (PUA) з’являються переважно для Windows символічні шрифти типу “Symbol”, “Wingdings”, “Webdings”, та інші. Microsoft Word Формати не дають можливості зберігати фактичний текст для символів.
Спеціалізацію розповідає нам про наступні (поширити деталі):
Для рівня Єдиний, для будь-якого персонажа ... який наклеєний кодом або кодами в зоні Private Use (PUA), Актуальний запис тексту ... буде присутній для цього персонажа або послідовності символів, які такий символ є частиною.
ISO-19005-2, 6.2.11.7.3
“Символ Segoe UI Windows Унікод шрифт, який можна використовувати як альтернативу символічним шрифтам.
У цьому блоці ви можете побачити приклади: який користувач повинен зробити для вирішення проблеми з символічними шрифтами (поширити деталі).
Замініть символічний шрифт з унікодом один у документі Word:
Або додайте актуальний запис тексту до проблемних символів у вихідному документі PDF: