Arbeiten mit PDF/A oder PDF/UA
Das Format PDF/A und PDF/UA stellt mehrere Anforderungen in Bezug auf den Dokumentinhalt, die bei der automatischen Konvertierung von einem Dokument im Word-Format nach PDF nicht erfüllt werden können. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-konformes Dokument zu erstellen.
Grundvoraussetzungen sind die Struktur oder Schriftarten eines PDF/A - und PDF/UA -Dokuments, auf die wir in den folgenden Abschnitten eingehen werden.
Anforderungen an die Dokumentenstruktur
Die aktuellen Anforderungen sind für PDF/A-1a, PDF/A-2a, PDF/A-4, und PDF/UA-1 Formate.
Es gibt einige Nuancen, wie Aspose.Words bei der Konvertierung in verschiedene PDF -Formatstandards funktioniert. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erzielen möchten.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Es ist für Autoren nicht ratsam, strukturelle oder semantische Informationen mit automatisierten Prozessen ohne entsprechende Überprüfung zu generieren.
ISO 19005-2, 6.7.1
In den folgenden Unterabschnitten werden Nuancen der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF -Formatstandards und Optionen für deren Lösung beschrieben.
Strukturtyp
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ein PDF -Dokument ist eine Folge von Blöcken wie Überschriften, Absätzen, Tabellen und anderen. Diese Blöcke bilden eine Dokumentenstruktur – stark oder schwach.
Sowohl starke als auch schwache Strukturen sind für PDF/A gültig. Microsoft Word -Dokumente haben von Natur aus eine schwache Struktur, und Aspose.Words erstellt PDF mit der schwachen Struktur bzw. generiert auch Überschriften gemäß den Gliederungsebenen von Absätzen im Quelldokument.
Bei einem PDF/UA-1 -Dokument mit einer schwachen Struktur ist es zusätzlich erforderlich, dass die Überschriftennummern ohne Lücken in der Reihenfolge angeordnet sind.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Die Struktur auf Blockebene kann einem von zwei Hauptparadigmen folgen:
ISO-32000-1, 14.8.4.3.5
Für PDF/UA-1-Dokumente enthält die Spezifikation einen Zusatz in Bezug auf Überschriftenebenen (erweitern, um Details anzuzeigen):
Wenn die Dokumentensemantik eine absteigende Abfolge von Überschriften erfordert, muss eine solche Abfolge in strikter numerischer Reihenfolge erfolgen und darf eine dazwischenliegende Überschriftenebene nicht überspringen. H1 H2 H3 ist zulässig, H1 H3 nicht.
ISO-14289-1, 7.4.2
Um eine korrekte Ausgabe zu gewährleisten, müssen Benutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert ist und Gliederungsebenen für Absätze korrekt angegeben sind. Andernfalls sollte der Benutzer die Struktur des Ausgabedokuments PDF überprüfen und korrigieren.
In diesem Block sehen Sie Beispiele: Festlegen von Gliederungsebenen in Microsoft Word oder Überprüfen und Korrigieren der Struktur des Ausgabedokuments PDF (erweitern, um Details anzuzeigen).
In Microsoft Word könnten Standardstile "Überschrift X" verwendet werden, um die Gliederungsebene festzulegen:
Zusätzlich könnte die Gliederungsebene im Fenster "Absatz" überprüft oder geändert werden:
In Acrobat konnte die Dokumentstruktur im Bereich "Tags" überprüft oder geändert werden:
Markieren des Inhalts als Artefakt
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Derzeit markiert Aspose.Words Kopf- und Fußzeilen von Seiten, Notentrennzeichen, wiederholte Tabellenkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft aktualisiert werden kann.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Die Grafikobjekte in einem Dokument können in zwei Klassen unterteilt werden:
ISO-32000-1, 14.8.2.2.1
Wenn ein Dokument andere Inhalte enthält, die als Artefakt markiert werden sollen, oder wenn es sich bei einem der Artefakte um echte Inhalte handelt, sollten Kunden dies in der Ausgabe PDF korrigieren.
In diesem Block sehen Sie Beispiele: Markieren von Formen als dekorativ in Microsoft Word oder Markieren von Formen als Artefakt im Ausgabedokument PDF (erweitern, um Details anzuzeigen).
Beispielsweise könnten Formen in Microsoft Word als dekorativ markiert werden, sodass sie als Artefakt nach PDF exportiert werden:
Sie können die Form als Artefakt in der Ausgabe PDF markieren:
Außerdem können Sie Text in einer Kopfzeile vom Artefakt zu echtem Inhalt in der Ausgabe PDF wechseln:
Spezifikation natürlicher Sprache
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Textsprache ist in Microsoft Word-Dokumenten angegeben. Aspose.Words exportiert die angegebene Sprache in eine Ausgabe PDF mit dem Attribut Lang, das an eine Sequenz mit markiertem Inhalt oder ein Span-Tag angehängt ist - es wird von der Eigenschaft ExportLanguageToSpanTag gesteuert. Im Allgemeinen gibt es keine Sprachprobleme, wenn Text vom Benutzer über Microsoft Word eingegeben wird. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch generiert wird.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Die standardmäßige natürliche Sprache für den gesamten Text in einer Datei sollte durch den Spracheintrag im Katalogwörterbuch des Dokuments angegeben werden.
Alle Textinhalte in einer Datei, die von der Standardsprache abweichen, sollten durch Verwendung einer `Lang` -Eigenschaft, die an eine Sequenz mit markiertem Inhalt angehängt ist, oder durch einen Spracheintrag in einem Strukturelement-Wörterbuch angezeigt werden...
ISO-19005-2, 6.7.4
Zusätzlich für PDF/UA-1 sagt uns die Spezifikation Folgendes (erweitern, um Details zu sehen):
Natürliche Sprache wird deklariert ... Änderungen in der natürlichen Sprache werden deklariert.
ISO-14289-1, 7.2
In diesem Block sehen Sie Beispiele: So stellen Sie sicher, dass die Sprache korrekt angegeben ist (erweitern Sie, um Details anzuzeigen).
Benutzer sollten sicherstellen, dass die Sprache im Word-Quelldokument korrekt angegeben ist:
Oder das Ausgabedokument PDF:
Bildunterschrift
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word -Dokumente ermöglichen Benutzern das Hinzufügen von Bildunterschriften.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Eine Bildunterschrift, die einer Abbildung beigefügt ist, muss mit einem Beschriftungs-Tag versehen sein.
ISO-14289-1, 7.3
Derzeit kann Aspose.Words keine Untertitel mit dem Caption-Tag exportieren, daher müssen sie in der Ausgabe PDF gekennzeichnet sein.
In diesem Block sehen Sie Beispiele: Einfügen der Beschriftung (erweitern, um Details anzuzeigen).
In Microsoft Word könnte die Beschriftung über das Kontextmenü eingefügt werden:
In Acrobat kann die Beschriftung über den Eigenschaftendialog `Object` hinzugefügt oder geändert werden:
Alternative Beschreibungen
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von alternativem Text zu Bildern, Formen und Tabellen. Aspose.Words exportiert einen solchen Alternativtext in die Ausgabe PDF.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Alle Strukturelemente, deren Inhalt kein natürliches vorgegebenes textliches Analogon hat, z. B. Bilder, Formeln usw., sollte eine alternative Textbeschreibung unter Verwendung des Alt-Eintrags im Strukturelement-Wörterbuch liefern...
NOTE Alternative Beschreibungen stellen textuelle Beschreibungen bereit, die bei der korrekten Interpretation ansonsten undurchsichtiger nicht-textueller Inhalte helfen.
ISO-19005-2, 6.7.5
In diesem Block sehen Sie Beispiele: So stellen Sie sicher, dass alle Elemente einen alternativen Text haben (erweitern Sie, um Details anzuzeigen).
Benutzer sollten sicherstellen, dass alle Elemente einen alternativen Text im Word-Quelldokument enthalten:
Oder das Ausgabedokument PDF:
Alternative Beschreibungen für Hyperlinks
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Zusätzlich zum vorherigen Punkt können Benutzer in Microsoft Word -Dokumenten auch alternativen Text zu Hyperlinks hinzufügen. Aspose.Words exportiert einen solchen Alternativtext in die Ausgabe PDF.
Leider können Sie nicht in jeder Anwendung eine alternative Beschreibung einrichten. Zum Beispiel ermöglicht Adobe Acrobat derzeit nicht, eine solche Beschreibung für Hyperlinks einzurichten. In Microsoft Word können Sie dies jedoch wie folgt tun:
Manchmal gibt es ein Problem, dass es nicht möglich ist, Alternativtext für automatisch generierte Hyperlinks im Inhaltsverzeichnis (TOC) über Microsoft Word GUI festzulegen. Aspose.Words könnte solche Felder aktualisieren und die Links selbst generieren.
Befolgen Sie das Codebeispiel, um TOC
-Felder mithilfe des Aspose.Words -Dokumentobjektmodells (DOM) zu aktualisieren:
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Tabellenkopf
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabellen in PDF/UA-1-Dokumenten müssen Überschriften haben - Spalte, Zeile oder beides. PDF/A erfordert nur Standardtabellenmarkierungen, für die keine zusätzlichen Einschränkungen gelten. Beachten Sie, dass Aspose.Words das Standardtabellen-Markup automatisch generiert.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Tabellen sollten Überschriften enthalten ... Tabellen können Spaltenüberschriften, Zeilenüberschriften oder beides enthalten.
ISO-14289-1, 7.5
In diesem Block sehen Sie Beispiele: Festlegen des Tabellenkopfs (erweitern, um Details anzuzeigen).
Der Tabellenkopf kann entweder im Quelldokument Microsoft Word eingerichtet werden:
Oder die Ausgabe PDF:
Ersetzungstext
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Die Spezifikation sagt uns Folgendes:
Alle Textstrukturelemente, die nicht standardgemäß dargestellt werden, z. B. benutzerdefinierte Zeichen oder Inline-Grafiken, sollten Ersatztext mit dem Eintrag `ActualText` im Strukturelementwörterbuch liefern...
ISO-19005-2, 6.7.7
Microsoft Word -Dokument erlaubt Benutzern nicht, Ersatztext festzulegen. Dies muss also in der Ausgabe PDF überprüft und behoben werden:
Abkürzungen und Akronyme Erweiterungen
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Alle Vorkommen von Abkürzungen und Akronymen im Textinhalt sollten in einer Sequenz mit markiertem Inhalt mit einem Span-Tag platziert werden, dessen E-Eigenschaft eine textuelle Erweiterung der Abkürzung oder des Akronyms bereitstellt...
ISO-19005-2, 6.7.8
Microsoft Word Dokument erlaubt Benutzern nicht, Abkürzungen und Akronym-Erweiterungen festzulegen. Dies muss also in der Ausgabe PDF überprüft und behoben werden:
Dokumenttitel
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument in PDF/UA-1 sollte einen Titel haben. |
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Die Spezifikation sagt uns Folgendes:
Der Metadatenstrom im Katalogwörterbuch des Dokuments muss einen dc:title-Eintrag enthalten, wobei dc das empfohlene Präfix für das Dublin Core-Metadatenschema ist…
ISO-14289-1, 7.1
In diesem Block sehen Sie Beispiele: Festlegen des Dokumenttitels (erweitern, um Details anzuzeigen).
Der Dokumenttitel kann entweder im Quelldokument Microsoft Word eingerichtet werden:
Oder die Ausgabe PDF:
Anforderungen an die Schriftart
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Es gibt auch eine Reihe von Nuancen beim Arbeiten mit Schriftarten beim Konvertieren in PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1-Formate mit Aspose.Words. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.
Die folgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.
Schriftrechtliche Anforderungen
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten - es liegt an den Benutzern. Mit anderen Worten, ein Benutzer sollte keine unangemessenen Schriftarten für die PDF -Konvertierung mit Aspose.Words bereitstellen.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Es dürfen nur Schriftprogramme verwendet werden, die für unbegrenztes, universelles Rendering legal in eine Datei einbettbar sind.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 ( genau die gleichen Zitate in zwei Spezifikationen)
.notdef Glyph
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Die Verwendung der .notdef
Glyphe ist verboten. Das Symbol .notdef
wird angezeigt, wenn ein Dokument Zeichen enthält, die in der ausgewählten Schriftart nicht vorhanden sind und die auch nicht über den Schriftarten-Fallback-Mechanismus aufgelöst werden können.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Ein konformes Dokument darf keinen Verweis auf die enthalten.notdef Glyphe aus einem beliebigen Text, der Operatoren anzeigt, unabhängig vom Textwiedergabemodus in einem beliebigen Inhaltsstrom.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 ( genau die gleichen Zitate in zwei Spezifikationen)
In diesem Block sehen Sie Beispiele: Entfernen oder Ersetzen dieser Zeichen (erweitern, um Details anzuzeigen).
Benutzer sollten diese Zeichen entweder im Word-Quelldokument entfernen oder ersetzen:
Oder das Ausgabedokument PDF mit dem Werkzeug "PDF bearbeiten":
Privater Bereich (PUA)
PDF Standard-Konformitätsstufen innerhalb von Aspose.Words | Vorhandensein der Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Privatnutzungsbereich (PUA) Zeichen erscheinen hauptsächlich für Windows symbolische Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word -Formate bieten keine Option zum Speichern von tatsächlichem Text für Zeichen.
Die Spezifikation sagt uns Folgendes (erweitern, um Details zu sehen):
Nur für Level-A-Konformität, für jeden Charakter ... das ist einem Code oder Codes im Unicode Private Use Area (PUA), einem ActualText -Eintrag, zugeordnet... muss für dieses Zeichen oder eine Zeichenfolge, zu der ein solches Zeichen gehört, vorhanden sein.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” ist eine Windows Unicode-Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.
In diesem Block sehen Sie Beispiele: Was Benutzer tun sollten, um das Problem mit symbolischen Schriftarten zu lösen (erweitern, um Details anzuzeigen).
Ersetzen Sie die symbolische Schriftart im Word-Quelldokument durch eine Unicode-Schriftart:
Oder fügen Sie den problematischen Zeichen im Ausgabedokument PDF einen Eintrag ActualText hinzu: