Arbeiten mit PDF/A oder PDF/UA

PDF/A und PDF/UA-Format verhängen mehrere Anforderungen an den Dokumenteninhalt, der bei der automatischen Umwandlung von einem Dokument in Word-Format auf PDF nicht erfüllt werden kann. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-konformes Dokument zu erstellen.

Grundlegende Anforderungen sind die Struktur oder Schriftart eines PDF/A- und PDF/UA-Dokuments, das wir in den folgenden Abschnitten berücksichtigen werden.

Anforderungen an die Struktur

Die aktuellen Anforderungen sind für PDF/A-1a, PDF/A-2a, PDF/A-4 und PDF/UA-1 Formate.

Es gibt einige Nuancen von wie Aspose.Words arbeitet bei der Umwandlung in verschiedene PDF-Format-Standards. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erhalten möchten.

Die folgenden Unterabschnitte beschreiben Nuancen, wie Aspose.Words arbeitet bei der Umwandlung in verschiedene PDF-Format Standards und Optionen für ihre Lösung.

Strukturtyp

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ein PDF-Dokument ist eine Folge von Blöcken wie Überschriften, Absätze, Tabellen und andere. Diese Blöcke bilden eine Dokumentenstruktur – stark oder schwach.

Sowohl starke als auch schwache Strukturen sind für PDF/A gültig. Microsoft Word Dokumente haben eine schwache Struktur durch Design, und Aspose.Words erstellt PDF mit der schwachen Struktur bzw. erzeugt auch Überschriften nach den Umrissebenen der Absätze im Quelldokument.

Für ein PDF/UA-1 Dokument mit einer schwachen Struktur ist es zusätzlich erforderlich, dass die Überschriften ohne Lücken in Ordnung gehen.

Um eine korrekte Ausgabe zu gewährleisten, müssen die Nutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert wird und die Umrissebenen für die Absätze korrekt festgelegt werden. Andernfalls sollte der Benutzer die Struktur des Ausgabe-PDF-Dokuments überprüfen und festlegen.

Inhalt als Artefakt markieren

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Im Moment, Aspose.Words markiert Seitenüberschriften und Fußzeilen, Notentrennzeichen, wiederholte Tischkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft aktualisiert werden kann.

Wenn ein Dokument andere Inhalte enthält, die als Artefakt gekennzeichnet werden sollten, oder wenn einer der artefaktierten Inhalte ein echter Inhalt ist, sollten die Kunden das in der Ausgabe PDF festlegen.

Natürliche Sprache Spezifikation

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Textsprache ist in Microsoft Word Dokumente. Aspose.Words exportiert die angegebene Sprache in eine Ausgabe PDF mit der Lang Attribut an einer markierten Inhaltssequenz oder einem Span-Tag – es wird von der ExportLanguageToSpanTag Eigentum. Im Allgemeinen gibt es keine Sprachprobleme, wenn der Text vom Benutzer über Microsoft Word. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch erzeugt wird.

Bildunterschrift

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word Dokumente ermöglichen es Benutzern, Bildunterschrift hinzuzufügen.

Derzeit Aspose.Words nicht mit dem Caption-Tag Untertitel exportieren, so dass sie in der Ausgabe PDF markiert werden müssen.

Alternate Beschreibungen

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word Dokumente ermöglichen es Benutzern, abwechselnden Text zu Bildern, Formen und Tabellen hinzuzufügen. Aspose.Words exportiert einen solchen Wechseltext in die Ausgabe PDF.

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Neben dem vorhergehenden Punkt, Microsoft Word Dokumente ermöglichen es Benutzern auch, alternativen Text zu Hyperlinks hinzuzufügen. Aspose.Words exportiert einen solchen Wechseltext in die Ausgabe PDF.

Leider können Sie nicht jede Anwendung eine alternative Beschreibung einrichten. Zum Beispiel Adobe Acrobat derzeit nicht in der Lage, eine solche Beschreibung für Hyperlinks einzurichten. Aber in Microsoft Word, Sie können dies wie folgt tun:

alternate-descriptions-hyperlinks-mw

Manchmal gibt es ein Problem, dass es nicht möglich ist, Alttext für autogenerierte Hyperlinks in der Inhaltstabelle (TOC) durch die Microsoft Word GUI. Aspose.Words könnte solche Felder aktualisieren und die Links selbst generieren.

Folgen Sie dem Codebeispiel zum Update TOC Felder mit Aspose.Words Document Object Model (DOM:

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Tabelle Header

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabellen in PDF/UA-1 Dokumenten müssen Header haben – Spalte, Zeile oder beide. PDF/A erfordert nur eine Standard-Tabellenmarkierung, die keine zusätzlichen Einschränkungen hat. Anmerkung: Aspose.Words generiert automatisch die Standard-Tabellenmarkierung.

Ersatz Text

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Dokument erlaubt es den Benutzern nicht, Ersatztext festzulegen. Dies muss also im Output PDF überprüft und behoben werden:

AcrobatReplacementText

Abkürzungen und Akronyme Erweiterungen

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Das Dokument erlaubt es Benutzern nicht, Abkürzungen und Akronyme Erweiterungen festzulegen. Dies muss also im Output PDF überprüft und behoben werden:

AcrobatSplitAddExpansionText

Titel des Dokuments

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument in PDF/UA-1 sollte einen Titel haben

Anforderungen an die Schriftart

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Es gibt auch eine Reihe von Nuancen der Arbeit mit Schriften bei der Umwandlung in PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1 Formate mit Aspose.Words. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.

Die nachfolgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.

Schriftliche Anforderungen

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten – es liegt an den Benutzern. Mit anderen Worten, ein Benutzer sollte keine unangemessenen Schriften für die PDF-Konvertierung mit Aspose.Words.

.notdef Glyph

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Die Nutzung der .notdef glyph ist verboten. Die .notdef glyph erscheint, wenn ein Dokument Zeichen enthält, die nicht in der ausgewählten Schrift vorhanden sind und die auch nicht über den Font Fallback-Mechanismus behoben werden können.

Privater Nutzungsbereich (PUA)

PDF-Standard-Konformitätsstufen innerhalb Aspose.Words Voraussetzung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Private Use Area (PUA) Zeichen erscheinen meist für Windows symbolische Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word Formate bieten keine Möglichkeit, den aktuellen Text für Zeichen zu speichern.

“Segoe UI Symbol” ist ein Windows Unicode Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.