Arbeiten mit PDF/A oder PDF/UA

Das PDF/A- und PDF/UA-Format stellt mehrere Anforderungen an den Dokumentinhalt, die bei der automatischen Konvertierung von einem Dokument im Word-Format in PDF nicht erfüllt werden können. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-kompatibles Dokument zu erstellen.

Grundlegende Anforderungen bestehen an die Struktur bzw. Schriftarten eines PDF/A- und PDF/UA-Dokuments, die wir in den folgenden Abschnitten betrachten.

Anforderungen an die Dokumentstruktur

Die aktuellen Anforderungen gelten für die Formate PDF/A-1a, PDF/A-2a, PDF/A-4 und PDF/UA-1.

Es gibt einige Nuancen in der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erzielen möchten.

In den folgenden Unterabschnitten werden die Nuancen der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards und Optionen für deren Lösung beschrieben.

Strukturtyp

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ein PDF-Dokument ist eine Folge von Blöcken wie Überschriften, Absätzen, Tabellen und anderen. Diese Blöcke bilden eine Dokumentstruktur – stark oder schwach.

Für PDF/A gelten sowohl starke als auch schwache Strukturen. Microsoft Word-Dokumente haben von Natur aus eine schwache Struktur, und Aspose.Words erstellt PDFs mit entsprechend schwacher Struktur und generiert außerdem Überschriften entsprechend der Gliederungsebene der Absätze im Quelldokument.

Bei einem PDF/UA-1-Dokument mit schwacher Struktur ist es zusätzlich erforderlich, dass die Überschriftennummern lückenlos in der richtigen Reihenfolge stehen.

Um eine korrekte Ausgabe zu gewährleisten, müssen Benutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert ist und die Gliederungsebenen für Absätze korrekt angegeben sind. Andernfalls sollte der Benutzer die Struktur des ausgegebenen PDF-Dokuments überprüfen und korrigieren.

Den Inhalt als Artefakt markieren

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Derzeit markiert Aspose.Words Seitenkopf- und -fußzeilen, Notiztrennzeichen, wiederholte Tabellenkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft möglicherweise aktualisiert wird.

Wenn ein Dokument andere Inhalte enthält, die als Artefakt markiert werden sollten, oder wenn es sich bei den artefaktierten Inhalten um echte Inhalte handelt, sollten Kunden dies im Ausgabe-PDF korrigieren.

Spezifikation natürlicher Sprache

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Die Textsprache wird in Microsoft Word-Dokumenten angegeben. Aspose.Words exportiert die angegebene Sprache in ein Ausgabe-PDF, wobei das Lang-Attribut an eine markierte Inhaltssequenz oder ein Span-Tag angehängt wird – dies wird durch die export_language_to_span_tag-Eigenschaft gesteuert. Im Allgemeinen gibt es keine Sprachprobleme, wenn der Benutzer Text über Microsoft Word eingibt. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch generiert wird.

Alternative Beschreibungen

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von Alternativtext zu Bildern, Formen und Tabellen. Aspose.Words exportiert einen solchen Alternativtext in das Ausgabe-PDF.

Ersatztext

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Im Microsoft Word-Dokument können Benutzer keinen Ersatztext festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:

AcrobatReplacementText

Abkürzungen und Akronymerweiterungen

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Im Microsoft Word-Dokument können Benutzer keine Abkürzungen und Akronymerweiterungen festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:

AcrobatSplitAddExpansionText

Schriftartanforderungen

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Auch bei der Konvertierung in die Formate PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1 mit Aspose.Words gibt es einige Nuancen bei der Arbeit mit Schriftarten. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.

Die folgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.

Gesetzliche Anforderungen an Schriftarten

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten – es liegt in der Verantwortung der Benutzer. Mit anderen Worten: Ein Benutzer sollte keine ungeeigneten Schriftarten für die PDF-Konvertierung mit Aspose.Words bereitstellen.

.notdef Glyph

Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Die Nutzung des .notdef glyph ist untersagt. Das .notdef glyph erscheint, wenn ein Dokument Zeichen enthält, die in der ausgewählten Schriftart nicht vorhanden sind und die auch nicht über den Font-Fallback-Mechanismus aufgelöst werden können.

Privatnutzungsbereich (PUA)

PDF-Standardkonformitätsstufen innerhalb von Aspose.Words Vorliegen einer Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

PUA-Zeichen (Private Use Area) erscheinen hauptsächlich für symbolische Windows-Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word-Formate bieten keine Möglichkeit, tatsächlichen Text für Zeichen zu speichern.

“Segoe UI Symbol” ist eine Windows-Unicode-Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.