Práce s PDF/A nebo PDF/UA

Formát PDF/A a PDF/UA ukládá několik požadavků souvisejících s obsahem dokumentu, které nelze splnit při automatickém převodu z dokumentu ve formátu Word na PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před konverzí, nebo v dokumentu PDF po konverzi, aby se vytvořil plně vyhovující dokument PDF/A a PDF/UA.

Základní požadavky jsou na strukturu nebo písma dokumentu PDF/A a PDF/UA, které zvážíme v následujících částech.

Požadavky Na Strukturu Dokumentu

Současné požadavky jsou pro PDF/A-1a, PDF/A-2a, PDF/A-4, a PDF/UA-1 formáty.

Existují určité nuance toho, jak Aspose.Words funguje při převodu na různé standardy formátu PDF. Je třeba je vzít v úvahu, pokud chcete dosáhnout očekávaného výsledku.

Níže uvedené podsekce popisují nuance toho, jak Aspose.Words funguje při převodu na různé standardy formátu PDF a možnosti jejich řešení.

Typ Struktury

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

PDF dokument je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu-silně nebo slabě.

Silné i slabé struktury platí pro PDF/A. Microsoft Word dokumenty mají slabou strukturu podle návrhu a Aspose.Words vytváří PDF se slabou strukturou a také generuje nadpisy podle úrovní osnovy odstavců ve zdrojovém dokumentu.

U dokumentu PDF/UA-1 se slabou strukturou je navíc nutné, aby čísla nadpisů byla v pořádku bez mezer.

Pro zajištění správného výstupu musí uživatelé zajistit, aby obsah zdrojového dokumentu byl správně uspořádán a úrovně osnovy byly správně zadány pro odstavce. V opačném případě by měl uživatel ověřit a opravit strukturu výstupního dokumentu PDF.

Označení obsahu jako artefakt

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

V tuto chvíli Aspose.Words označuje záhlaví a zápatí stránek, oddělovače poznámek, opakované buňky záhlaví tabulky a dekorativní obrázky jako artefakty. Upozorňujeme, že tento seznam může být v budoucnu aktualizován.

Pokud dokument obsahuje jakýkoli jiný obsah, který by měl být označen jako artefakt, nebo pokud je některý z umělého obsahu skutečným obsahem, zákazníci by to měli opravit ve výstupu PDF.

SPECIFIKACE Přirozeného Jazyka

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Jazyk textu je uveden v dokumentech Microsoft Word. Aspose.Words exportuje zadaný jazyk na výstup PDF s atributem Lang připojeným k sekvenci označeného obsahu nebo značce rozpětí-je řízen vlastností ExportLanguageToSpanTag. Obecně neexistují žádné jazykové problémy, když uživatel zadává text pomocí Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.

Obrázek Titulek

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word dokumenty umožňují uživatelům přidat titulek obrázku.

V současné době Aspose.Words nelze exportovat titulky se značkou Caption, takže musí být označeny ve výstupu PDF.

Alternativní Popisy

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word dokumenty umožňují uživatelům přidávat alternativní text k obrázkům, tvarům a tabulkám. Aspose.Words exportuje takový alternativní text na výstup PDF.

Alternativní popisy hypertextových odkazů

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidávat alternativní text k hypertextovým odkazům. Aspose.Words exportuje takový alternativní text na výstup PDF.

Bohužel ne každá aplikace umožňuje nastavit alternativní popis. Například Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word to můžete udělat následovně:

alternate-descriptions-hyperlinks-mw

Někdy je problém, že není možné nastavit alternativní text pro autogenerované hypertextové odkazy v obsahu (TOC) přes Microsoft Word GUI. Aspose.Words Může tato pole aktualizovat a generovat odkazy Samostatně.

Postupujte podle příkladu kódu a aktualizujte pole TOC pomocí modelu objektu dokumentu Aspose.Words (DOM):

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Záhlaví Tabulky

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabulky v dokumentech PDF/UA-1 musí mít záhlaví-sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní značení tabulky, které nemá žádná další omezení. Všimněte si, že Aspose.Words generuje standardní značení tabulky automaticky.

Náhradní Text

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. To je tedy třeba ověřit a opravit ve výstupu PDF:

AcrobatReplacementText

Rozšíření zkratek a zkratek

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit rozšíření zkratek a zkratek. To je tedy třeba ověřit a opravit ve výstupu PDF:

AcrobatSplitAddExpansionText

Název Dokumentu

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument v PDF/UA-1 by měl mít název.

Požadavky Na Písmo

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Existuje také řada nuancí práce s písmy při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Je třeba je vzít v úvahu, pokud se chcete vyhnout možným problémům s výstupním dokumentem.

Níže uvedené části popisují takové nuance a možnosti jejich řešení.

Právní Požadavky Na Písmo

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words neověřuje zákonná omezení použitých písem – je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro konverzi PDF Pomocí Aspose.Words.

.notdef Glyph

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Použití .notdef glyfu je zakázáno. .notdef glyf se objeví, pokud dokument obsahuje znaky, které nejsou přítomny ve vybraném písmu a které také nelze vyřešit pomocí mechanismu záložního písma.

Oblast Soukromého Použití (PUA)

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol”, “Wingdings”, “Webdings” a další. Formáty Microsoft Word neposkytují možnost ukládat skutečný text pro znaky.

“Segoe UI Symbol” je Windows písmo Unicode, které lze použít jako alternativu k symbolickým písmům.