Práce s PDF/A nebo PDF/UA

Formát PDF/A a PDF/UA ukládá několik požadavků týkajících se obsahu dokumentu, které nelze splnit při automatické konverzi z dokumentu ve formátu Word do PDF. Tyto požadavky by měly být ověřeny a opraveny buď v dokumentu Word před přeměnou, nebo v dokumentu PDF po převodu, aby byl vytvořen plně vyhovující dokument PDF/A a PDF/UA.

Základními požadavky jsou struktura nebo písma dokumentu PDF/A a PDF/UA, o kterých budeme uvažovat v následujících oddílech.

Požadavky na strukturu dokumentu

Aktuální požadavky jsou pro formáty PDF/A-1a, PDF/A-2a, PDF/A-4 a PDF/UA-1.

Existují určité nuance, jak Aspose.Words pracuje při převodu na různé standardy formátu PDF. Musí být zohledněny, pokud chcete získat očekávaný výsledek.

Níže uvedené pododdíly popisují nuance jak Aspose.Words pracuje při převodu na různé standardy formátu PDF a možnosti jejich řešení.

Typ struktury

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Dokument PDF je posloupnost bloků, jako jsou nadpisy, odstavce, tabulky a další. Tyto bloky tvoří strukturu dokumentu, která je silně nebo slabá.

Silné i slabé konstrukce platí pro PDF/A. Microsoft Word dokumenty mají podle návrhu slabou strukturu a Aspose.Words vytvoří PDF se slabou strukturou a také generuje nadpisy podle obrysových úrovní odstavců ve zdrojovém dokumentu.

Pro dokument PDF/UA-1 se slabou strukturou je navíc nutné, aby čísla záhlaví byla v pořádku bez mezer.

Aby uživatelé zajistili správný výstup, musí zajistit, aby byl obsah zdrojového dokumentu řádně organizován a aby byly pro odstavce správně specifikovány obrysy. V opačném případě by uživatel měl ověřit a opravit strukturu výstupního PDF dokumentu.

Označení obsahu jako artefakt

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

V tuto chvíli, Aspose.Words označuje hlavičky stránek a zápatí, oddělovače poznámek, opakované buňky hlaviček stolu a dekorativní obrazy jako artefakty. Všimněte si, že tento seznam může být v budoucnu aktualizován.

Pokud dokument obsahuje jakýkoliv jiný obsah, který by měl být označen jako artefakt, nebo je-li některý z artefaktových obsahů skutečným obsahem, zákazníci by to měli ve výstupní PDF opravit.

Specifikace přirozeného jazyka

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Textový jazyk je uveden v Microsoft Word dokumenty. Aspose.Words exportuje uvedený jazyk do výstupní PDF s Lang atribut připojený k sekvenci označeného obsahu nebo značce Span je kontrolován ExportLanguageToSpanTag majetek. Obecně nejsou žádné jazykové problémy, když uživatel zadá text prostřednictvím Microsoft Word. Existuje však možnost, že jazyk může být nepřesný, pokud je text generován automaticky.

Titulek obrázku

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word Dokumenty umožňují uživatelům přidat popisek obrázku.

V současné době Aspose.Words nelze exportovat titulky pomocí značky Caption, takže musí být označeny ve výstupním PDF.

Alternativní popisy

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word dokumenty umožňují uživatelům přidávat alternativní text do obrázků, tvarů a tabulek. Aspose.Words exportuje takový alternativní text do výstupní PDF.

Alternativní popisy hypertextových odkazů

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Kromě předchozího bodu Microsoft Word dokumenty také umožňují uživatelům přidat alternativní text do hypertextových odkazů. Aspose.Words exportuje takový alternativní text do výstupní PDF.

Bohužel, ne každá aplikace vám umožní nastavit alternativní popis. Například: Adobe Acrobat v současné době neumožňuje nastavit takový popis hypertextových odkazů. Ale v Microsoft Word, Můžete to udělat takto:

alternate-descriptions-hyperlinks-mw

Někdy je problém, že není možné nastavit alt text pro autogenerované hypertextové odkazy v tabulce obsahu (TOC) přes Microsoft Word GUI. Aspose.Words mohla tato pole aktualizovat a sama vytvářet odkazy.

Postupujte podle příkladu kódu pro aktualizaci TOC Pole používající Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Hlavičky tabulky

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabulky v dokumentech PDF/UA-1 musí mít hlavičky sloupec, řádek nebo obojí. PDF/A vyžaduje pouze standardní označení tabulky, které nemá žádná další omezení. Všimněte si, že Aspose.Words automaticky generuje standardní markup tabulky.

Náhradní text

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit náhradní text. To je tedy nutné ověřit a opravit ve výstupním PDF:

AcrobatReplacementText

Zkratky a akronymní rozšíření

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument neumožňuje uživatelům nastavit zkratky a zkratky rozšíření. To je tedy nutné ověřit a opravit ve výstupním PDF:

AcrobatSplitAddExpansionText

Název dokumentu

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument v PDF/UA-1 by měl mít název

Požadavky na písmo

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Existuje také řada nuancí práce s fonty při převodu na PDF/A-1, PDF/A-2, PDF/A-4 nebo PDF/UA-1 formáty pomocí Aspose.Words. Musí být zohledněny, pokud se chcete vyhnout možným problémům s výstupním dokumentem.

Níže uvedené oddíly popisují tyto nuance a možnosti jejich řešení.

Písmo Právní požadavky

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words neověřuje právní omezení použitých písem a je to na uživatelích. Jinými slovy, uživatel by neměl poskytovat nevhodná písma pro převod PDF pomocí Aspose.Words.

.notdef Glyph

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Použití .notdef glyph je zakázáno. • .notdef glyph se objeví, pokud dokument obsahuje znaky, které nejsou přítomny ve zvoleném písmu a které nelze vyřešit pomocí mechanismu Font Fallback.

Oblast soukromého využití (PUA)

PDF standardní úrovně shody v rámci Aspose.Words Přítomnost požadavku
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Znaky Private Use Area (PUA) se objevují většinou pro Windows symbolická písma jako “Symbol,” “Wingdings,” “Webdings” a další. Microsoft Word formáty neposkytují možnost ukládat skutečný text pro znaky.

“Segoe UI Symbol” je Windows Font Unicode, který by mohl být použit jako alternativa k symbolickým písmům.