Práce s PDF/A nebo PDF/UA
Formát PDF/A a PDF/UA ukládá několik požadavků týkajících se obsahu dokumentu, které nelze splnit při automatickém převodu z dokumentu ve formátu Word do PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před přeměnou, nebo v dokumentu PDF po konverzi, aby byl vytvořen plně vyhovující dokument PDF/A a PDF/UA.
Základními požadavky jsou struktura nebo písma dokumentu PDF/A a PDF/UA, o kterých budeme uvažovat v následujících oddílech.
Požadavky na strukturu dokumentů
Aktuální požadavky jsou pro formáty PDF/A-1a, PDF/A-2a, PDF/A-4 a PDF/UA-1.
Existuje několik nuancí, jak Aspose.Words pracuje při převodu na různé standardy formátu PDF. Musí být zohledněny, pokud chcete získat očekávaný výsledek.
Specifikace nám říká následující (expand to see details):
Pro spisovatele není vhodné vytvářet strukturální nebo sémantické informace pomocí automatizovaných procesů bez vhodného ověření.
ISO 19005-2, 6.7.1
Níže uvedené pododdíly popisují nuance jak Aspose.Words pracuje při převodu na různé standardy formátu PDF a možnosti jejich řešení.
Typ struktury
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokument PDF je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu, silně nebo slabě.
Silné i slabé struktury platí pro PDF/A. Microsoft Word dokumenty mají podle návrhu slabou strukturu a Aspose.Words vytváří PDF se slabou strukturou a také generuje nadpisy podle obrysových úrovní odstavců ve zdrojovém dokumentu.
U dokumentu PDF/UA-1 se slabou strukturou se navíc vyžaduje, aby čísla záhlaví byla v pořádku bez mezer.
Specifikace nám říká následující (expand to see details):
Struktura bloku může následovat jeden ze dvou hlavních parametrů:
ISO-32000-1, 14.8.4.3.5.
U dokumentů PDF/UA-1 obsahuje specifikace doplněk týkající se úrovní nadpisu (expand to see details):
Pokud sémantika dokumentu vyžaduje sestupnou posloupnost hlaviček, musí taková posloupnost postupovat v přísném číselném pořadí a nesmí přeskočit úroveň intervenující hlavičky. H1 H2 H3 je přípustné, zatímco H1 H3 není.
ISO-14289-1, 7.4.2
Aby uživatelé zajistili správný výstup, musí zajistit, aby byl obsah zdrojového dokumentu řádně organizován a aby byly správně specifikovány úrovně obrysů. Jinak by uživatel měl ověřit a opravit strukturu výstupního PDF dokumentu.
V tomto bloku můžete vidět příklady: jak nastavit úroveň obrysu Microsoft Word nebo zkontrolujte a opravte strukturu výstupního PDF dokumentu (expand to see details).
In Microsoft Word výchozí styl "Heading X" by mohl být použit pro nastavení úrovně obrysu:
Kromě toho lze úroveň obrysu zkontrolovat nebo změnit v okně "Paragraph":
V Acrobatu by struktura dokumentu mohla být zkontrolována nebo změněna v tabulce "Štítky":
Označení obsahu jako artefakt
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
V tuto chvíli, Aspose.Words označuje hlavičky stránek a zápatí, oddělovače poznámek, opakované buňky hlavičky stolu a dekorativní obrazy jako artefakty. Všimněte si, že tento seznam může být v budoucnu aktualizován.
Specifikace nám říká následující (expand to see details):
Grafické objekty v dokumentu lze rozdělit do dvou tříd:
ISO-32000-1, 14.8.2.2.1
Pokud dokument obsahuje jakýkoliv jiný obsah, který by měl být označen jako artefakt, nebo je-li některý z artefaktovaných obsah je skutečný obsah, zákazníci by měli opravit, že ve výstupní PDF.
V tomto bloku můžete vidět příklady: jak označit tvary jako dekorativní Microsoft Word nebo označit tvar jako artefakt ve výstupním dokumentu PDF (expand to see details).
Například tvary mohou být označeny jako dekorativní v Microsoft Word, takže budou vyvezeny do PDF jako artefakt:
Můžete označit tvar jako artefakt ve výstupní PDF:
Také můžete přepnout text v záhlaví z artefaktu na skutečný obsah ve výstupním PDF:
Specifikace přirozeného jazyka
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Textový jazyk je uveden v Microsoft Word dokumenty. Aspose.Words exportuje uvedený jazyk do výstupního PDF s Lang atribut připojený k sekvenci označeného obsahu nebo značky Span, kterou ovládá ExportLanguageToSpanTag majetek. Obecně neexistují žádné jazykové problémy, když uživatel zadá text prostřednictvím Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.
Specifikace nám říká následující (expand to see details):
Výchozí přirozený jazyk pro všechny texty v souboru by měl být specifikován zápisem Lang do katalogového slovníku dokumentu.
Veškerý textový obsah v souboru, který se liší od výchozího jazyka, by měl být uveden pomocí `Lang` vlastnost připojena k sekvenci označeného obsahu, nebo Lang záznam ve struktuře elementu slovníku ...
ISO- 19005-2, 6.7.4
Navíc pro PDF/UA-1, specifikace nám říká následující (expand to see details):
Přirozený jazyk bude prohlášen... Musí být uvedeny změny přirozeného jazyka.
ISO-14289-1, 7.2
V tomto bloku můžete vidět příklady: jak zajistit, aby byl jazyk správně zadán (rozšiřte podrobnosti).
Uživatelé by měli zajistit, aby byl jazyk správně uveden buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument:
Titulek obrázku
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word Dokumenty umožňují uživatelům přidat obrázek.
Specifikace nám říká následující (expand to see details):
Titulek, který je přiložen k obrázku, musí být označen značkou Caption.
ISO-14289-1, 7.3
V současné době Aspose.Words nelze exportovat titulky pomocí značky Caption, takže musí být označeny ve výstupní PDF.
V tomto bloku naleznete příklady: jak vložit popisek (expand to see details).
In Microsoft Word, popisek může být vložen do kontextového menu:
V Acrobatu může být název doplněn nebo změněn prostřednictvím `Object` Dialog vlastností:
Alternativní popisy
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umožňují uživatelům přidat alternativní text do obrázků, tvarů a tabulek. Aspose.Words exportuje takový alternativní text do výstupní PDF.
Specifikace nám říká následující (expand to see details):
Všechny prvky struktury, jejichž obsah nemá přirozený předurčený textový analog, např. obrázky, vzorce atd., by měly dodat alternativní textový popis pomocí Alt záznamu ve slovníku prvku struktury...
POZNÁMKA Alternativní popisy poskytují textové popisy, které pomáhají při správné interpretaci jinak neprůhledného netextového obsahu.
ISO- 19005-2, 6.7. 5
V tomto bloku naleznete příklady: jak zajistit, aby všechny prvky měly alternativní text (expand to see details).
Uživatelé by měli zajistit, aby všechny prvky měly alternativní text buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument:
Alternativní popisy hypertextových odkazů
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidat alternativní text do hypertextových odkazů. Aspose.Words exportuje takový alternativní text do výstupní PDF.
Bohužel ne každá aplikace vám umožňuje nastavit alternativní popis. Například, Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word, Můžete to udělat takto:
Někdy je problém, že není možné nastavit alt text pro autogenerované hypertextové odkazy v tabulce obsahu (TOC) přes Microsoft Word GUI. Aspose.Words mohla tato pole aktualizovat a sama vytvářet odkazy.
Postupujte podle příkladu kódu pro aktualizaci TOC
Pole používající Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Hlavičky tabulky
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabulky v dokumentech PDF/UA-1 musí mít hlavičky sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní přirážku tabulky, která nemá žádná další omezení. Všimněte si, že Aspose.Words automaticky generuje standardní markup tabulky.
Specifikace nám říká následující (expand to see details):
Tabulky by měly zahrnovat hlavičky... Tabulky mohou obsahovat hlavičky sloupců, záhlaví řádků nebo obojí.
ISO-14289- 1, 7, 5
V tomto bloku vidíte příklady: jak nastavit hlavičku tabulky (expand to see details).
Hlavička stolu může být nastavena buď zdroj Microsoft Word dokument:
Nebo výstupní PDF:
Náhradní text
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specifikace nám říká následující (expand to see details):
Specifikace nám říká následující:
Všechny textové prvky struktury, které jsou zastoupeny nestandardním způsobem, např. vlastními znaky nebo inline grafikou, by měly poskytovat náhradní text pomocí `ActualText` vstup do slovníku prvků struktury...
ISO- 19005-2, 6.7.7
Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. Takže to je třeba ověřit a opravit ve výstupním PDF:
Zkratky a akronymní rozšíření
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specifikace nám říká následující (expand to see details):
Všechny případy zkratek a zkratek v textovém obsahu by měly být umístěny v sekvenci označeného obsahu se značkou Span, jejíž vlastnost E poskytuje textové rozšíření zkratky nebo zkratky...
ISO- 19005-2, 6.7.8
Microsoft Word dokument neumožňuje uživatelům nastavit zkratky a zkratky rozšíření. Takže to je třeba ověřit a opravit ve výstupní PDF:
Název dokumentu
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument v PDF/UA-1 by měl mít název |
Specifikace nám říká následující (expand to see details):
Specifikace nám říká následující:
Metadatový proud v katalogovém slovníku dokumentu musí obsahovat položku dc:title, kde DC je doporučený prefix pro Dublin Core metadata schema...
ISO-14289- 1, 7, 1
V tomto bloku naleznete příklady: jak nastavit název dokumentu (rozšiřte podrobnosti).
Název dokumentu může být nastaven buď zdroj Microsoft Word dokument:
Nebo výstupní PDF:
Požadavky na písmo
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Existuje také řada nuancí práce s písmy při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Je třeba je vzít v úvahu, pokud se chcete vyhnout možným problémům s výstupním dokumentem.
Níže uvedené oddíly popisují tyto nuance a možnosti jejich řešení.
Písmo Právní požadavky
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words neověřuje právní omezení použitých písem a je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro převod PDF pomocí Aspose.Words.
Specifikace nám říká následující (expand to see details):
Použije se pouze fontové programy, které jsou právně vložené do souboru pro neomezené, univerzální vykreslování.
ISO-19005-2, 6.2.1.4.1; ISO-14289-1, 7.21.4.1 (přesně stejné citace ve dvou specifikacích)
.notdef Glyph
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Použití .notdef
glyph je zakázáno. The .notdef
glyph se objeví, pokud dokument obsahuje znaky, které nejsou ve zvoleném písmu přítomny a které nelze vyřešit pomocí mechanismu Font Fallback.
Specifikace nám říká následující (expand to see details):
Shodný dokument nesmí obsahovat odkaz na .notdef glyph z některého z textů zobrazujících operátory bez ohledu na režim vykreslování textu v jakémkoli proudu obsahu.
ISO-19005-2, 6.2.1.8; ISO-14289-1, 7.2.1.8 (přesně stejné citace ve dvou specifikacích)
V tomto bloku můžete vidět příklady: jak odstranit nebo nahradit tyto znaky (expand to see details).
Uživatelé by měli tyto znaky odstranit nebo nahradit buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument pomocí nástroje "Edit PDF":
Oblast soukromého použití (PUA)
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol,” “Wingdings,” “Webdings” a další. Microsoft Word formáty neposkytují možnost ukládat skutečný text pro znaky.
Specifikace nám říká následující (expand to see details):
Pro úroveň Pouze shoda pro jakýkoli znak ..., který je zmapován na kód nebo kódy v oblasti Unicode Private Use Area (PUA), musí být přítomen aktuální text textu ... pro tento znak nebo posloupnost znaků, z nichž je takový znak součástí.
ISO-19005-2, 6, 2.11.7. 3
“Segoe UI Symbol” je Windows Font Unicode, který by mohl být použit jako alternativa k symbolickým písmům.
V tomto bloku vidíte příklady: co by měl uživatel udělat, aby problém vyřešil symbolickými písmy (expand to see details).
Nahradit symbolické písmo Unicode jedním ve zdrojovém dokumentu Word:
Nebo přidat položku AktualText do problematických znaků ve výstupním PDF dokumentu: