Práce s PDF/A nebo PDF/UA

Formát PDF/A a PDF/UA ukládá několik požadavků týkajících se obsahu dokumentu, které nelze splnit při automatickém převodu z dokumentu ve formátu Word do PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před přeměnou, nebo v dokumentu PDF po konverzi, aby byl vytvořen plně vyhovující dokument PDF/A a PDF/UA.

Základními požadavky jsou struktura nebo písma dokumentu PDF/A a PDF/UA, o kterých budeme uvažovat v následujících oddílech.

Požadavky na strukturu dokumentů

Aktuální požadavky jsou pro formáty PDF/A-1a, PDF/A-2a, PDF/A-4 a PDF/UA-1.

Existuje několik nuancí, jak Aspose.Words pracuje při převodu na různé standardy formátu PDF. Musí být zohledněny, pokud chcete získat očekávaný výsledek.

Níže uvedené pododdíly popisují nuance jak Aspose.Words pracuje při převodu na různé standardy formátu PDF a možnosti jejich řešení.

Typ struktury

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Dokument PDF je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu, silně nebo slabě.

Silné i slabé struktury platí pro PDF/A. Microsoft Word dokumenty mají podle návrhu slabou strukturu a Aspose.Words vytváří PDF se slabou strukturou a také generuje nadpisy podle obrysových úrovní odstavců ve zdrojovém dokumentu.

U dokumentu PDF/UA-1 se slabou strukturou se navíc vyžaduje, aby čísla záhlaví byla v pořádku bez mezer.

Aby uživatelé zajistili správný výstup, musí zajistit, aby byl obsah zdrojového dokumentu řádně organizován a aby byly správně specifikovány úrovně obrysů. Jinak by uživatel měl ověřit a opravit strukturu výstupního PDF dokumentu.

Označení obsahu jako artefakt

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

V tuto chvíli, Aspose.Words označuje hlavičky stránek a zápatí, oddělovače poznámek, opakované buňky hlavičky stolu a dekorativní obrazy jako artefakty. Všimněte si, že tento seznam může být v budoucnu aktualizován.

Pokud dokument obsahuje jakýkoliv jiný obsah, který by měl být označen jako artefakt, nebo je-li některý z artefaktovaných obsah je skutečný obsah, zákazníci by měli opravit, že ve výstupní PDF.

Specifikace přirozeného jazyka

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Textový jazyk je uveden v Microsoft Word dokumenty. Aspose.Words exportuje uvedený jazyk do výstupního PDF s Lang atribut připojený k sekvenci označeného obsahu nebo značky Span, kterou ovládá ExportLanguageToSpanTag majetek. Obecně neexistují žádné jazykové problémy, když uživatel zadá text prostřednictvím Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.

Titulek obrázku

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word Dokumenty umožňují uživatelům přidat obrázek.

V současné době Aspose.Words nelze exportovat titulky pomocí značky Caption, takže musí být označeny ve výstupní PDF.

Alternativní popisy

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word dokumenty umožňují uživatelům přidat alternativní text do obrázků, tvarů a tabulek. Aspose.Words exportuje takový alternativní text do výstupní PDF.

Alternativní popisy hypertextových odkazů

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidat alternativní text do hypertextových odkazů. Aspose.Words exportuje takový alternativní text do výstupní PDF.

Bohužel ne každá aplikace vám umožňuje nastavit alternativní popis. Například, Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word, Můžete to udělat takto:

alternate-descriptions-hyperlinks-mw

Někdy je problém, že není možné nastavit alt text pro autogenerované hypertextové odkazy v tabulce obsahu (TOC) přes Microsoft Word GUI. Aspose.Words mohla tato pole aktualizovat a sama vytvářet odkazy.

Postupujte podle příkladu kódu pro aktualizaci TOC Pole používající Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Hlavičky tabulky

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabulky v dokumentech PDF/UA-1 musí mít hlavičky sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní přirážku tabulky, která nemá žádná další omezení. Všimněte si, že Aspose.Words automaticky generuje standardní markup tabulky.

Náhradní text

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. Takže to je třeba ověřit a opravit ve výstupním PDF:

AcrobatReplacementText

Zkratky a akronymní rozšíření

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit zkratky a zkratky rozšíření. Takže to je třeba ověřit a opravit ve výstupní PDF:

AcrobatSplitAddExpansionText

Název dokumentu

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument v PDF/UA-1 by měl mít název

Požadavky na písmo

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Existuje také řada nuancí práce s písmy při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Je třeba je vzít v úvahu, pokud se chcete vyhnout možným problémům s výstupním dokumentem.

Níže uvedené oddíly popisují tyto nuance a možnosti jejich řešení.

Písmo Právní požadavky

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words neověřuje právní omezení použitých písem a je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro převod PDF pomocí Aspose.Words.

.notdef Glyph

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Použití .notdef glyph je zakázáno. The .notdef glyph se objeví, pokud dokument obsahuje znaky, které nejsou ve zvoleném písmu přítomny a které nelze vyřešit pomocí mechanismu Font Fallback.

Oblast soukromého použití (PUA)

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol,” “Wingdings,” “Webdings” a další. Microsoft Word formáty neposkytují možnost ukládat skutečný text pro znaky.

“Segoe UI Symbol” je Windows Font Unicode, který by mohl být použit jako alternativa k symbolickým písmům.