Arbeiten mit PDF/A oder PDF/UA

Das Format PDF/A und PDF/UA stellt mehrere Anforderungen in Bezug auf den Dokumentinhalt, die bei der automatischen Konvertierung von einem Dokument im Word-Format nach PDF nicht erfüllt werden können. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-konformes Dokument zu erstellen.

Grundvoraussetzungen sind die Struktur oder Schriftarten eines PDF/A - und PDF/UA -Dokuments, auf die wir in den folgenden Abschnitten eingehen werden.

Anforderungen an die Dokumentenstruktur

Die aktuellen Anforderungen sind für PDF/A-1a, PDF/A-2a, PDF/A-4, und PDF/UA-1 Formate.

Es gibt einige Nuancen, wie Aspose.Words bei der Konvertierung in verschiedene PDF -Formatstandards funktioniert. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erzielen möchten.

In den folgenden Unterabschnitten werden Nuancen der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF -Formatstandards und Optionen für deren Lösung beschrieben.

Strukturtyp

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Ein PDF -Dokument ist eine Folge von Blöcken wie Überschriften, Absätzen, Tabellen und anderen. Diese Blöcke bilden eine Dokumentenstruktur – stark oder schwach.

Sowohl starke als auch schwache Strukturen sind für PDF/A gültig. Microsoft Word -Dokumente haben von Natur aus eine schwache Struktur, und Aspose.Words erstellt PDF mit der schwachen Struktur bzw. generiert auch Überschriften gemäß den Gliederungsebenen von Absätzen im Quelldokument.

Bei einem PDF/UA-1 -Dokument mit einer schwachen Struktur ist es zusätzlich erforderlich, dass die Überschriftennummern ohne Lücken in der Reihenfolge angeordnet sind.

Um eine korrekte Ausgabe zu gewährleisten, müssen Benutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert ist und Gliederungsebenen für Absätze korrekt angegeben sind. Andernfalls sollte der Benutzer die Struktur des Ausgabedokuments PDF überprüfen und korrigieren.

Markieren des Inhalts als Artefakt

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Derzeit markiert Aspose.Words Kopf- und Fußzeilen von Seiten, Notentrennzeichen, wiederholte Tabellenkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft aktualisiert werden kann.

Wenn ein Dokument andere Inhalte enthält, die als Artefakt markiert werden sollen, oder wenn es sich bei einem der Artefakte um echte Inhalte handelt, sollten Kunden dies in der Ausgabe PDF korrigieren.

Spezifikation natürlicher Sprache

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Die Textsprache ist in Microsoft Word-Dokumenten angegeben. Aspose.Words exportiert die angegebene Sprache in eine Ausgabe PDF mit dem Attribut Lang, das an eine Sequenz mit markiertem Inhalt oder ein Span-Tag angehängt ist - es wird von der Eigenschaft ExportLanguageToSpanTag gesteuert. Im Allgemeinen gibt es keine Sprachprobleme, wenn Text vom Benutzer über Microsoft Word eingegeben wird. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch generiert wird.

Bildunterschrift

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word -Dokumente ermöglichen Benutzern das Hinzufügen von Bildunterschriften.

Derzeit kann Aspose.Words keine Untertitel mit dem Caption-Tag exportieren, daher müssen sie in der Ausgabe PDF gekennzeichnet sein.

Alternative Beschreibungen

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von alternativem Text zu Bildern, Formen und Tabellen. Aspose.Words exportiert einen solchen Alternativtext in die Ausgabe PDF.

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Zusätzlich zum vorherigen Punkt können Benutzer in Microsoft Word -Dokumenten auch alternativen Text zu Hyperlinks hinzufügen. Aspose.Words exportiert einen solchen Alternativtext in die Ausgabe PDF.

Leider können Sie nicht in jeder Anwendung eine alternative Beschreibung einrichten. Zum Beispiel ermöglicht Adobe Acrobat derzeit nicht, eine solche Beschreibung für Hyperlinks einzurichten. In Microsoft Word können Sie dies jedoch wie folgt tun:

alternate-descriptions-hyperlinks-mw

Manchmal gibt es ein Problem, dass es nicht möglich ist, Alternativtext für automatisch generierte Hyperlinks im Inhaltsverzeichnis (TOC) über Microsoft Word GUI festzulegen. Aspose.Words könnte solche Felder aktualisieren und die Links selbst generieren.

Befolgen Sie das Codebeispiel, um TOC -Felder mithilfe des Aspose.Words -Dokumentobjektmodells (DOM) zu aktualisieren:

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Tabellenkopf

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabellen in PDF/UA-1-Dokumenten müssen Überschriften haben - Spalte, Zeile oder beides. PDF/A erfordert nur Standardtabellenmarkierungen, für die keine zusätzlichen Einschränkungen gelten. Beachten Sie, dass Aspose.Words das Standardtabellen-Markup automatisch generiert.

Ersetzungstext

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word -Dokument erlaubt Benutzern nicht, Ersatztext festzulegen. Dies muss also in der Ausgabe PDF überprüft und behoben werden:

AcrobatReplacementText

Abkürzungen und Akronyme Erweiterungen

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word Dokument erlaubt Benutzern nicht, Abkürzungen und Akronym-Erweiterungen festzulegen. Dies muss also in der Ausgabe PDF überprüft und behoben werden:

AcrobatSplitAddExpansionText

Dokumenttitel

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument in PDF/UA-1 sollte einen Titel haben.

Anforderungen an die Schriftart

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Es gibt auch eine Reihe von Nuancen beim Arbeiten mit Schriftarten beim Konvertieren in PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1-Formate mit Aspose.Words. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.

Die folgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.

Schriftrechtliche Anforderungen

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten - es liegt an den Benutzern. Mit anderen Worten, ein Benutzer sollte keine unangemessenen Schriftarten für die PDF -Konvertierung mit Aspose.Words bereitstellen.

.notdef Glyph

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Die Verwendung der .notdef Glyphe ist verboten. Das Symbol .notdef wird angezeigt, wenn ein Dokument Zeichen enthält, die in der ausgewählten Schriftart nicht vorhanden sind und die auch nicht über den Schriftarten-Fallback-Mechanismus aufgelöst werden können.

Privater Bereich (PUA)

PDF Standard-Konformitätsstufen innerhalb von Aspose.Words Vorhandensein der Anforderung
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Privatnutzungsbereich (PUA) Zeichen erscheinen hauptsächlich für Windows symbolische Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word -Formate bieten keine Option zum Speichern von tatsächlichem Text für Zeichen.

“Segoe UI Symbol” ist eine Windows Unicode-Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.