Arbeiten mit PDF/A oder PDF/UA

Das PDF/A- und PDF/UA-Format stellt mehrere Anforderungen an den Dokumentinhalt, die bei der automatischen Konvertierung von einem Dokument im Word-Format in PDF nicht erfüllt werden können. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-kompatibles Dokument zu erstellen.

Grundlegende Anforderungen bestehen an die Struktur bzw. Schriftarten eines PDF/A- und PDF/UA-Dokuments, die wir in den folgenden Abschnitten betrachten.

Anforderungen an die Dokumentstruktur

Die aktuellen Anforderungen gelten für die Formate PDF/A-1a, PDF/A-2a, PDF/A-4 und PDF/UA-1.

Es gibt einige Nuancen in der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erzielen möchten.

In den folgenden Unterabschnitten werden die Nuancen der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards und Optionen für deren Lösung beschrieben.

Strukturtyp

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ein PDF-Dokument ist eine Folge von Blöcken wie Überschriften, Absätzen, Tabellen und anderen. Diese Blöcke bilden eine Dokumentstruktur – stark oder schwach.

Für PDF/A gelten sowohl starke als auch schwache Strukturen. Microsoft Word-Dokumente haben von Natur aus eine schwache Struktur, und Aspose.Words erstellt PDFs mit entsprechend schwacher Struktur und generiert außerdem Überschriften entsprechend der Gliederungsebene der Absätze im Quelldokument.

Bei einem PDF/UA-1-Dokument mit schwacher Struktur ist es zusätzlich erforderlich, dass die Überschriftennummern lückenlos in der richtigen Reihenfolge stehen.

Um eine korrekte Ausgabe zu gewährleisten, müssen Benutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert ist und die Gliederungsebenen für Absätze korrekt angegeben sind. Andernfalls sollte der Benutzer die Struktur des ausgegebenen PDF-Dokuments überprüfen und korrigieren.

Den Inhalt als Artefakt markieren

Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Derzeit markiert Aspose.Words Seitenkopf- und -fußzeilen, Notiztrennzeichen, wiederholte Tabellenkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft möglicherweise aktualisiert wird.

Wenn ein Dokument andere Inhalte enthält, die als Artefakt markiert werden sollten, oder wenn es sich bei den artefaktierten Inhalten um echte Inhalte handelt, sollten Kunden dies im Ausgabe-PDF korrigieren.

Spezifikation natürlicher Sprache

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Die Textsprache wird in Microsoft Word-Dokumenten angegeben. Aspose.Words exportiert die angegebene Sprache in ein Ausgabe-PDF, wobei das Lang-Attribut an eine markierte Inhaltssequenz oder ein Span-Tag angehängt wird – dies wird durch die ExportLanguageToSpanTag-Eigenschaft gesteuert. Im Allgemeinen gibt es keine Sprachprobleme, wenn der Benutzer Text über Microsoft Word eingibt. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch generiert wird.

Bilderüberschrift

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von Bildunterschriften.

Derzeit kann Aspose.Words keine Untertitel mit dem Caption-Tag exportieren, daher müssen sie im Ausgabe-PDF gekennzeichnet werden.

Alternative Beschreibungen

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von Alternativtext zu Bildern, Formen und Tabellen. Aspose.Words exportiert einen solchen Alternativtext in das Ausgabe-PDF.

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Zusätzlich zum vorherigen Punkt ermöglichen Microsoft Word-Dokumente Benutzern auch das Hinzufügen von Alternativtext zu Hyperlinks. Aspose.Words exportiert einen solchen Alternativtext in das Ausgabe-PDF.

Leider ist es nicht in jeder Anwendung möglich, eine alternative Beschreibung einzurichten. Beispielsweise bietet Adobe Acrobat derzeit keine Möglichkeit, eine solche Beschreibung für Hyperlinks einzurichten. In Microsoft Word können Sie dies jedoch wie folgt tun:

Alternative-Beschreibungen-Hyperlinks-mw

Manchmal besteht das Problem, dass es nicht möglich ist, über die Microsoft Word-GUI Alternativtext für automatisch generierte Hyperlinks im Inhaltsverzeichnis (TOC) festzulegen. Aspose.Words könnte solche Felder aktualisieren und die Links selbst generieren.

Befolgen Sie das Codebeispiel, um TOC-Felder mithilfe von Aspose.Words Document Object Model (DOM) zu aktualisieren:

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Tabellenüberschriften

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabellen in PDF/UA-1-Dokumenten müssen Kopfzeilen haben – Spalten, Zeilen oder beides. PDF/A erfordert nur Standard-Tabellen-Markup, für das keine zusätzlichen Einschränkungen gelten. Beachten Sie, dass Aspose.Words das Standardtabellen-Markup automatisch generiert.

Ersatztext

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Im Microsoft Word-Dokument können Benutzer keinen Ersatztext festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:

AcrobatReplacementText

Abkürzungen und Akronymerweiterungen

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Im Microsoft Word-Dokument können Benutzer keine Abkürzungen und Akronymerweiterungen festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:

AcrobatSplitAddExpansionText

Dokumenttitel

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Das Dokument in PDF/UA-1 sollte einen Titel haben

Schriftartanforderungen

Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Auch bei der Konvertierung in die Formate PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1 mit Aspose.Words gibt es einige Nuancen bei der Arbeit mit Schriftarten. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.

Die folgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.

Gesetzliche Anforderungen an Schriftarten

Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten – es liegt in der Verantwortung der Benutzer. Mit anderen Worten: Ein Benutzer sollte keine ungeeigneten Schriftarten für die PDF-Konvertierung mit Aspose.Words bereitstellen.

.notdef Glyph

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Die Nutzung des .notdef glyph ist untersagt. Das .notdef glyph erscheint, wenn ein Dokument Zeichen enthält, die in der ausgewählten Schriftart nicht vorhanden sind und die auch nicht über den Font-Fallback-Mechanismus aufgelöst werden können.

Privatnutzungsbereich (PUA)

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

PUA-Zeichen (Private Use Area) erscheinen hauptsächlich für symbolische Windows-Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word-Formate bieten keine Möglichkeit, tatsächlichen Text für Zeichen zu speichern.

“Segoe UI Symbol” ist eine Windows-Unicode-Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.