Práce s PDF/A nebo PDF/UA
Formát PDF/A a PDF/UA ukládá několik požadavků souvisejících s obsahem dokumentu, které nelze splnit při automatickém převodu z dokumentu ve formátu Word na PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před konverzí, nebo v dokumentu PDF po konverzi, aby se vytvořil plně vyhovující dokument PDF/A a PDF/UA.
Základní požadavky jsou na strukturu nebo písma dokumentu PDF/A a PDF/UA, které zvážíme v následujících částech.
Požadavky Na Strukturu Dokumentu
Současné požadavky jsou pro PDF/A-1a, PDF/A-2a, PDF/A-4, a PDF/UA-1 formáty.
Existují určité nuance toho, jak Aspose.Words funguje při převodu na různé standardy formátu PDF. Je třeba je vzít v úvahu, pokud chcete dosáhnout očekávaného výsledku.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Pro autory se nedoporučuje generovat strukturální nebo sémantické informace pomocí automatizovaných procesů bez odpovídajícího ověření.
ISO 19005-2, 6.7.1
Níže uvedené podsekce popisují nuance toho, jak Aspose.Words funguje při převodu na různé standardy formátu PDF a možnosti jejich řešení.
Typ Struktury
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
PDF dokument je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu-silně nebo slabě.
Silné i slabé struktury platí pro PDF/A. Microsoft Word dokumenty mají slabou strukturu podle návrhu a Aspose.Words vytváří PDF se slabou strukturou a také generuje nadpisy podle úrovní osnovy odstavců ve zdrojovém dokumentu.
U dokumentu PDF/UA-1 se slabou strukturou je navíc nutné, aby čísla nadpisů byla v pořádku bez mezer.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Struktura na úrovni bloku může následovat jedno ze dvou hlavních paradigmat:
ISO-32000-1, 14.8.4.3.5
Pro PDF/UA-1 dokumenty obsahuje SPECIFIKACE Dodatek týkající se úrovní nadpisů (rozbalte pro zobrazení podrobností):
Pokud sémantika dokumentu vyžaduje sestupnou posloupnost záhlaví, musí taková posloupnost probíhat v přísném číselném pořadí a nesmí přeskočit intervenující úroveň nadpisu. H1 H2 H3 je přípustné, zatímco H1 H3 není.
ISO-14289-1, 7.4.2
Pro zajištění správného výstupu musí uživatelé zajistit, aby obsah zdrojového dokumentu byl správně uspořádán a úrovně osnovy byly správně zadány pro odstavce. V opačném případě by měl uživatel ověřit a opravit strukturu výstupního dokumentu PDF.
V tomto bloku můžete vidět příklady: jak nastavit úrovně osnovy v Microsoft Word nebo zkontrolovat a opravit strukturu výstupního PDF dokumentu (rozbalte pro zobrazení podrobností).
V Microsoft Word výchozí styly" Nadpis X " lze použít k nastavení úrovně obrysu:
Kromě toho lze v okně "Odstavec" zkontrolovat nebo změnit úroveň obrysu:
V aplikaci Acrobat lze strukturu dokumentu zkontrolovat nebo změnit v podokně " značky:
Označení obsahu jako artefakt
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
V tuto chvíli Aspose.Words označuje záhlaví a zápatí stránek, oddělovače poznámek, opakované buňky záhlaví tabulky a dekorativní obrázky jako artefakty. Upozorňujeme, že tento seznam může být v budoucnu aktualizován.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Grafické objekty v dokumentu lze rozdělit do dvou tříd:
ISO-32000-1, 14.8.2.2.1
Pokud dokument obsahuje jakýkoli jiný obsah, který by měl být označen jako artefakt, nebo pokud je některý z umělého obsahu skutečným obsahem, zákazníci by to měli opravit ve výstupu PDF.
V tomto bloku můžete vidět příklady: jak označit tvary jako dekorativní v Microsoft Word nebo označit tvar jako artefakt ve výstupním dokumentu PDF (rozbalte pro zobrazení podrobností).
Například tvary mohou být označeny jako dekorativní v Microsoft Word, takže budou exportovány do PDF jako artefakt:
Tvar můžete označit jako artefakt ve výstupu PDF:
Můžete také přepnout text v záhlaví z artefaktu na skutečný obsah ve výstupu PDF:
SPECIFIKACE Přirozeného Jazyka
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Jazyk textu je uveden v dokumentech Microsoft Word. Aspose.Words exportuje zadaný jazyk na výstup PDF s atributem Lang připojeným k sekvenci označeného obsahu nebo značce rozpětí-je řízen vlastností ExportLanguageToSpanTag. Obecně neexistují žádné jazykové problémy, když uživatel zadává text pomocí Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Výchozí přirozený jazyk pro veškerý text v souboru by měl být specifikován položkou Lang ve slovníku katalogu dokumentu.
Veškerý textový obsah v souboru, který se liší od výchozího jazyka, by měl být označen použitím vlastnosti `Lang` připojené k sekvenci označeného obsahu nebo položkou Lang ve slovníku prvků struktury ...
ISO-19005-2, 6.7.4
Navíc pro PDF/UA-1 nám SPECIFIKACE říká následující (rozbalte pro zobrazení podrobností):
Bude vyhlášen přirozený jazyk ... budou vyhlášeny změny v přirozeném jazyce.
ISO-14289-1, 7.2
V tomto bloku můžete vidět příklady: jak zajistit, aby byl jazyk zadán správně (Rozbalte a zobrazte podrobnosti).
Uživatelé by se měli ujistit, že jazyk je správně zadán buď ve zdrojovém Word dokumentu:
Nebo výstup PDF dokumentu:
Obrázek Titulek
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umožňují uživatelům přidat titulek obrázku.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Popisek doprovázející obrázek musí být označen značkou titulků.
ISO-14289-1, 7.3
V současné době Aspose.Words nelze exportovat titulky se značkou Caption, takže musí být označeny ve výstupu PDF.
V tomto bloku můžete vidět příklady: jak vložit titulek (rozbalte pro zobrazení podrobností).
V Microsoft Word lze titulek vložit prostřednictvím kontextové nabídky:
V aplikaci Acrobat lze titulek přidat nebo změnit pomocí dialogu vlastností `Object`:
Alternativní Popisy
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umožňují uživatelům přidávat alternativní text k obrázkům, tvarům a tabulkám. Aspose.Words exportuje takový alternativní text na výstup PDF.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Všechny prvky struktury, jejichž obsah nemá přirozený předem určený textový Analog, např. obrázky, vzorce atd., by měl poskytnout alternativní textový popis pomocí položky Alt ve slovníku prvků struktury...
NOTE alternativní popisy poskytují textové popisy, které pomáhají při správné interpretaci jinak neprůhledného netextového obsahu.
ISO-19005-2, 6.7.5
V tomto bloku můžete vidět příklady: jak zajistit, aby všechny prvky měly alternativní text (Rozbalte a zobrazte podrobnosti).
Uživatelé by měli zajistit, aby všechny prvky měly alternativní text buď ve zdrojovém Word dokumentu:
Nebo výstup PDF dokumentu:
Alternativní popisy hypertextových odkazů
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidávat alternativní text k hypertextovým odkazům. Aspose.Words exportuje takový alternativní text na výstup PDF.
Bohužel ne každá aplikace umožňuje nastavit alternativní popis. Například Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word to můžete udělat následovně:
Někdy je problém, že není možné nastavit alternativní text pro autogenerované hypertextové odkazy v obsahu (TOC) přes Microsoft Word GUI. Aspose.Words Může tato pole aktualizovat a generovat odkazy Samostatně.
Postupujte podle příkladu kódu a aktualizujte pole TOC
pomocí modelu objektu dokumentu Aspose.Words (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Záhlaví Tabulky
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabulky v dokumentech PDF/UA-1 musí mít záhlaví-sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní značení tabulky, které nemá žádná další omezení. Všimněte si, že Aspose.Words generuje standardní značení tabulky automaticky.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Tabulky by měly obsahovat záhlaví ... tabulky mohou obsahovat záhlaví sloupců, záhlaví řádků nebo obojí.
ISO-14289-1, 7.5
V tomto bloku můžete vidět příklady: jak nastavit záhlaví tabulky (rozbalte pro zobrazení podrobností).
Záhlaví tabulky lze nastavit buď jako zdrojový Microsoft Word dokument:
Nebo výstup PDF:
Náhradní Text
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
SPECIFIKACE nám říká následující:
Všechny prvky textové struktury, které jsou reprezentovány nestandardním způsobem, např. vlastní znaky nebo vložená grafika, by měly dodávat náhradní text pomocí položky `ActualText` ve slovníku prvků struktury...
ISO-19005-2, 6.7.7
Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. To je tedy třeba ověřit a opravit ve výstupu PDF:
Rozšíření zkratek a zkratek
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Všechny instance zkratek a zkratek v textovém obsahu by měly být umístěny v sekvenci označeného obsahu se značkou rozpětí, jejíž vlastnost E poskytuje textové rozšíření zkratky nebo zkratky...
ISO-19005-2, 6.7.8
Microsoft Word dokument neumožňuje uživatelům nastavit rozšíření zkratek a zkratek. To je tedy třeba ověřit a opravit ve výstupu PDF:
Název Dokumentu
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument v PDF/UA-1 by měl mít název. |
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
SPECIFIKACE nám říká následující:
Proud metadat ve slovníku katalogu dokumentu musí obsahovat položku dc: title, Kde dc je doporučená předpona pro schéma metadat Dublin Core…
ISO-14289-1, 7.1
V tomto bloku můžete vidět příklady: jak nastavit název dokumentu (rozbalte pro zobrazení podrobností).
Název dokumentu lze nastavit buď jako zdrojový Microsoft Word dokument:
Nebo výstup PDF:
Požadavky Na Písmo
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Existuje také řada nuancí práce s písmy při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Je třeba je vzít v úvahu, pokud se chcete vyhnout možným problémům s výstupním dokumentem.
Níže uvedené části popisují takové nuance a možnosti jejich řešení.
Právní Požadavky Na Písmo
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words neověřuje zákonná omezení použitých písem – je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro konverzi PDF Pomocí Aspose.Words.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Používají se pouze programy písem, které lze legálně vložit do souboru pro neomezené univerzální Vykreslování.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (přesně stejné citace ve dvou specifikacích)
.notdef Glyph
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Použití .notdef
glyfu je zakázáno. .notdef
glyf se objeví, pokud dokument obsahuje znaky, které nejsou přítomny ve vybraném písmu a které také nelze vyřešit pomocí mechanismu záložního písma.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Odpovídající dokument nesmí obsahovat odkaz na.notdef glyf z kteréhokoli z operátorů zobrazujících text, bez ohledu na režim vykreslování textu, v jakémkoli proudu obsahu.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (přesně stejné citace ve dvou specifikacích)
V tomto bloku můžete vidět příklady: jak odstranit nebo nahradit tyto znaky (rozbalte pro zobrazení podrobností).
Uživatelé by měli odstranit nebo nahradit tyto znaky buď ve zdrojovém Word dokumentu:
Nebo výstupní dokument PDF pomocí nástroje" Upravit PDF":
Oblast Soukromého Použití (PUA)
PDF standardní úrovně shody v rámci Aspose.Words | Přítomnost požadavku |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol”, “Wingdings”, “Webdings” a další. Formáty Microsoft Word neposkytují možnost ukládat skutečný text pro znaky.
SPECIFIKACE nám říká následující (rozbalte podrobnosti):
Pouze pro shodu úrovně a, pro jakýkoli znak ... to je mapováno na kód nebo kódy v oblasti soukromého použití Unicode (PUA), záznam ActualText... musí být přítomen pro tento znak nebo posloupnost znaků, jejichž součástí je tento znak.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” je Windows písmo Unicode, které lze použít jako alternativu k symbolickým písmům.
V tomto bloku můžete vidět příklady: co by měl uživatel udělat, aby vyřešil problém se symbolickými písmy (Rozbalte a zobrazte podrobnosti).
Nahraďte symbolické písmo Unicode ve zdrojovém dokumentu Word:
Nebo přidejte ActualText záznam k problematickým znakům ve výstupním PDF dokumentu: