Práce s PDF/A nebo PDF/UA
Formát PDF/A a PDF/UA ukládá několik požadavků týkajících se obsahu dokumentu, které nelze splnit při automatické konverzi z dokumentu ve formátu Word do PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před přeměnou, nebo v dokumentu PDF po převodu, aby byl vytvořen plně vyhovující dokument PDF/A a PDF/UA.
Základními požadavky jsou struktura nebo písma dokumentu PDF/A a PDF/UA, o kterých budeme uvažovat v následujících oddílech.
Požadavky na strukturu dokumentu
Aktuální požadavky jsou pro formáty PDF/A-1a, PDF/A-2a, PDF/A-4 a PDF/UA-1.
Existují určité nuance, jak Aspose.Words pracuje při převodu na různé standardy formátu PDF. Musí být zohledněny, pokud chcete získat očekávaný výsledek.
Specifikace nám říká následující (expand to see details):
Pro spisovatele není vhodné vytvářet strukturální nebo sémantické informace pomocí automatizovaných procesů bez vhodného ověření.
ISO 19005-2, 6.7.1
Níže uvedené pododdíly popisují nuance jak Aspose.Words pracuje při převodu na různé standardy formátu PDF a možnosti jejich řešení.
Typ struktury
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokument PDF je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu, která je silně nebo slabá.
Silné i slabé konstrukce platí pro PDF/A. Microsoft Word dokumenty mají podle návrhu slabou strukturu a Aspose.Words vytvoří PDF se slabou strukturou a také generuje nadpisy podle obrysových úrovní odstavců ve zdrojovém dokumentu.
Pro dokument PDF/UA-1 se slabou strukturou je navíc nutné, aby čísla záhlaví byla v pořádku bez mezer.
Specifikace nám říká následující (expand to see details):
Struktura bloku může následovat jeden ze dvou hlavních parametrů:
ISO- 32000-1, 14, 8. 4. 3, 5
U dokumentů PDF/UA-1 obsahuje specifikace doplněk týkající se úrovní záhlaví (rozšíření viz podrobnosti):
Pokud sémantika dokumentů vyžaduje sestupnou posloupnost hlaviček, musí taková posloupnost postupovat v přísném číselném pořadí a nesmí přeskočit úroveň intervenující hlavičky. H1 H2 H3 je přípustné, zatímco H1 H3 není.
ISO-14289-1, 7.4.2
Aby uživatelé zajistili správný výstup, musí zajistit, aby byl obsah zdrojového dokumentu řádně organizován a aby byly pro odstavce správně specifikovány obrysy. V opačném případě by uživatel měl ověřit a opravit strukturu výstupního PDF dokumentu.
V tomto bloku můžete vidět příklady: jak nastavit úroveň obrysu Microsoft Word nebo zkontrolujte a upravte strukturu výstupního PDF dokumentu (expand to see details).
In Microsoft Word výchozí styl "Heading X" by mohl být použit pro nastavení úrovně obrysu:
Kromě toho lze úroveň obrysu zkontrolovat nebo změnit v okně "Paragraph":
V Acrobat může být struktura dokumentu zkontrolována nebo změněna v tabulce "Štítky":
Označení obsahu jako artefakt
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
V tuto chvíli, Aspose.Words označuje hlavičky stránek a zápatí, oddělovače poznámek, opakované buňky hlaviček stolu a dekorativní obrazy jako artefakty. Všimněte si, že tento seznam může být v budoucnu aktualizován.
Specifikace nám říká následující (expand to see details):
Grafické objekty v dokumentu lze rozdělit do dvou tříd:
ISO-32000-1, 14,8.2.2.1
Pokud dokument obsahuje jakýkoliv jiný obsah, který by měl být označen jako artefakt, nebo je-li některý z artefaktových obsahů skutečným obsahem, zákazníci by to měli ve výstupní PDF opravit.
V tomto bloku můžete vidět příklady: jak označit tvary jako dekorativní v Microsoft Word nebo označit tvar jako artefakt ve výstupním PDF dokumentu (expand pro zobrazení detailů).
Například tvary mohou být označeny jako dekorativní Microsoft Word, takže budou vyvezeny do PDF jako artefakt:
Můžete označit tvar jako artefakt ve výstupním PDF:
Také můžete přepnout text v záhlaví z artefaktu na skutečný obsah ve výstupním PDF:
Specifikace přirozeného jazyka
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Textový jazyk je uveden v Microsoft Word dokumenty. Aspose.Words exportuje uvedený jazyk do výstupní PDF s Lang atribut připojený k sekvenci označeného obsahu nebo značce Span je kontrolován ExportLanguageToSpanTag majetek. Obecně nejsou žádné jazykové problémy, když uživatel zadá text prostřednictvím Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.
Specifikace nám říká následující (expand to see details):
Výchozí přirozený jazyk pro všechny texty v souboru by měl být určen Lang záznamem v dokumentu Merantis Katalogový slovník.
Veškerý textový obsah v souboru, který se liší od výchozího jazyka, by měl být uveden pomocí `Lang` vlastnost připojená k sekvenci označeného obsahu, nebo Lang záznam ve struktuře prvku slovníku ...
ISO- 19005-2, 6.7.4
Navíc pro PDF/UA-1, specifikace nám říká následující (rozšířit na detaily):
Přirozený jazyk bude prohlášen... Musí být uvedeny změny přirozeného jazyka.
ISO-14289-1, 7.2
V tomto bloku vidíte příklady: jak zajistit, aby byl jazyk správně zadán (rozšiřte podrobnosti).
Uživatelé by měli zajistit, aby byl jazyk správně uveden buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument:
Titulek obrázku
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word Dokumenty umožňují uživatelům přidat popisek obrázku.
Specifikace nám říká následující (expand to see details):
Titulek, který je přiložen k postavě, musí být označen značkou Caption.
ISO-14289-1, 7.3
V současné době Aspose.Words nelze exportovat titulky pomocí značky Caption, takže musí být označeny ve výstupním PDF.
V tomto bloku vidíte příklady: jak vložit popisek (expand to see details).
In Microsoft Word, popisek by mohl být vložen do kontextového menu:
V Acrobatu může být název doplněn nebo změněn prostřednictvím `Object` Dialog vlastností:
Alternativní popisy
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umožňují uživatelům přidávat alternativní text do obrázků, tvarů a tabulek. Aspose.Words exportuje takový alternativní text do výstupní PDF.
Specifikace nám říká následující (expand to see details):
Všechny prvky struktury, jejichž obsah nemá přirozený předurčený textový analog, např. obrázky, vzorce atd., by měly poskytnout alternativní textový popis pomocí Alt záznamu ve slovníku prvku struktury...
POZNÁMKA Alternativní popisy poskytují textové popisy, které pomáhají při správné interpretaci jinak neprůhledného netextového obsahu.
ISO- 19005-2, 6.7. 5
V tomto bloku vidíte příklady: jak zajistit, aby všechny prvky měly alternativní text (rozšiřte podrobnosti).
Uživatelé by měli zajistit, aby všechny prvky měly alternativní text buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument:
Alternativní popisy hypertextových odkazů
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidat alternativní text do hypertextových odkazů. Aspose.Words exportuje takový alternativní text do výstupní PDF.
Bohužel, ne každá aplikace vám umožní nastavit alternativní popis. Například: Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word, Můžete to udělat takto:
Někdy je problém, že není možné nastavit alt text pro autogenerované hypertextové odkazy v tabulce obsahu (TOC) přes Microsoft Word GUI. Aspose.Words mohla tato pole aktualizovat a sama vytvářet odkazy.
Postupujte podle příkladu kódu pro aktualizaci TOC
Pole používající Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Hlavičky tabulky
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabulky v dokumentech PDF/UA-1 musí mít hlavičky sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní označení tabulky, které nemá žádná další omezení. Všimněte si, že Aspose.Words automaticky generuje standardní markup tabulky.
Specifikace nám říká následující (expand to see details):
Tabulky by měly zahrnovat hlavičky... Tabulky mohou obsahovat hlavičky sloupců, záhlaví řádků nebo obojí.
ISO-14289- 1, 7, 5
V tomto bloku vidíte příklady: jak nastavit hlavičku tabulky (expand to see details).
Hlavička tabulky může být nastavena buď zdroj Microsoft Word doklad:
Nebo výstupní PDF:
Náhradní text
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specifikace nám říká následující (expand to see details):
Specifikace nám říká následující:
Všechny textové prvky struktury, které jsou zastoupeny nestandardním způsobem, např. vlastními znaky nebo inline grafikou, by měly poskytovat náhradní text pomocí `ActualText` vstup do slovníku prvků struktury...
ISO- 19005-2, 6.7. 7
Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. To je tedy nutné ověřit a opravit ve výstupním PDF:
Zkratky a akronymní rozšíření
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specifikace nám říká následující (expand to see details):
Všechny případy zkratek a zkratek v textovém obsahu by měly být umístěny v sekvenci označeného obsahu se značkou Span, jejíž vlastnost E poskytuje textové rozšíření zkratky nebo zkratky...
ISO- 19005-2, 6.7.8
Microsoft Word dokument neumožňuje uživatelům nastavit zkratky a zkratky rozšíření. To je tedy nutné ověřit a opravit ve výstupním PDF:
Název dokumentu
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument v PDF/UA-1 by měl mít název |
Specifikace nám říká následující (expand to see details):
Specifikace nám říká následující:
Metadatový proud v katalogovém slovníku dokumentu musí obsahovat položku DC:title, kde DC je doporučený prefix pro Dublin Core metadata schema...
ISO-14289- 1, 7, 1
V tomto bloku najdete příklady: jak nastavit název dokumentu (expand to see details).
Název dokumentu by mohl být nastaven buď zdroj Microsoft Word doklad:
Nebo výstupní PDF:
Požadavky na písmo
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Existuje také řada nuancí práce s fonty při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Musí být zohledněny, pokud se chcete vyhnout možným problémům s výstupním dokumentem.
Níže uvedené oddíly popisují tyto nuance a možnosti jejich řešení.
Písmo Právní požadavky
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words neověřuje právní omezení použitých písem a je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro převod PDF pomocí Aspose.Words.
Specifikace nám říká následující (expand to see details):
Použije se pouze fontové programy, které jsou právně vložené do souboru pro neomezené, univerzální vykreslování.
ISO-19005-2, 6.2.1.4.1; ISO-14289-1, 7.21.4.1 (přesně stejné citace ve dvou specifikacích)
.notdef Glyph
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Použití .notdef
glyph je zakázáno. • .notdef
glyph se objeví, pokud dokument obsahuje znaky, které nejsou přítomny ve zvoleném písmu a které nelze vyřešit pomocí mechanismu Font Fallback.
Specifikace nám říká následující (expand to see details):
Odpovídající dokument nesmí obsahovat odkaz na .notdef glyph z některého z textů zobrazujících operátory bez ohledu na režim vykreslování textu v jakémkoli proudu obsahu.
ISO-19005-2, 6.2.1.8; ISO-14289-1, 7.2.1.8 (přesně stejné citace ve dvou specifikacích)
V tomto bloku vidíte příklady: jak odstranit nebo nahradit tyto znaky (expand to see details).
Uživatelé by měli tyto znaky odstranit nebo nahradit buď ve zdrojovém dokumentu Word:
Nebo výstupní PDF dokument pomocí nástroje "Edit PDF":
Oblast soukromého využití (PUA)
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol,” “Wingdings,” “Webdings” a další. Microsoft Word formáty neposkytují možnost ukládat skutečný text pro znaky.
Specifikace nám říká následující (expand to see details):
Pro úroveň Pouze pro každý znak ..., který je zmapován na kód nebo kódy v oblasti Unicode Private Use Area (PUA), musí být pro tento znak nebo sekvenci znaků, jichž je takový znak součástí.
ISO-19005-2, 6, 2.11.7. 3
“Segoe UI Symbol” je Windows Font Unicode, který by mohl být použit jako alternativa k symbolickým písmům.
V tomto bloku vidíte příklady: co by měl uživatel udělat pro vyřešení problému symbolickými písmy (rozšiřte podrobnosti).
Nahraďte symbolické písmo Unicode jedním ve zdrojovém dokumentu Word:
Nebo přidat položku AktualText do problematických znaků ve výstupním PDF dokumentu: