Arbeiten mit PDF/A oder PDF/UA
Das PDF/A- und PDF/UA-Format stellt mehrere Anforderungen an den Dokumentinhalt, die bei der automatischen Konvertierung von einem Dokument im Word-Format in PDF nicht erfüllt werden können. Diese Anforderungen sollten entweder in einem Word-Dokument vor der Konvertierung oder in einem PDF-Dokument nach der Konvertierung überprüft und korrigiert werden, um ein vollständig PDF/A- und PDF/UA-kompatibles Dokument zu erstellen.
Grundlegende Anforderungen bestehen an die Struktur bzw. Schriftarten eines PDF/A- und PDF/UA-Dokuments, die wir in den folgenden Abschnitten betrachten.
Anforderungen an die Dokumentstruktur
Die aktuellen Anforderungen gelten für die Formate PDF/A-1a, PDF/A-2a, PDF/A-4 und PDF/UA-1.
Es gibt einige Nuancen in der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards. Sie müssen berücksichtigt werden, wenn Sie das erwartete Ergebnis erzielen möchten.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Es ist für Autoren nicht ratsam, strukturelle oder semantische Informationen mithilfe automatisierter Prozesse ohne entsprechende Überprüfung zu generieren.
ISO 19005-2, 6.7.1
In den folgenden Unterabschnitten werden die Nuancen der Funktionsweise von Aspose.Words bei der Konvertierung in verschiedene PDF-Formatstandards und Optionen für deren Lösung beschrieben.
Strukturtyp
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Ein PDF-Dokument ist eine Folge von Blöcken wie Überschriften, Absätzen, Tabellen und anderen. Diese Blöcke bilden eine Dokumentstruktur – stark oder schwach.
Für PDF/A gelten sowohl starke als auch schwache Strukturen. Microsoft Word-Dokumente haben von Natur aus eine schwache Struktur, und Aspose.Words erstellt PDFs mit entsprechend schwacher Struktur und generiert außerdem Überschriften entsprechend der Gliederungsebene der Absätze im Quelldokument.
Bei einem PDF/UA-1-Dokument mit schwacher Struktur ist es zusätzlich erforderlich, dass die Überschriftennummern lückenlos in der richtigen Reihenfolge stehen.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Die Struktur auf Blockebene kann einem von zwei Hauptparadigmen folgen:
ISO-32000-1, 14.8.4.3.5
Für PDF/UA-1-Dokumente enthält die Spezifikation einen Zusatz in Bezug auf Überschriftenebenen (erweitern Sie, um Details anzuzeigen):
Wenn die Dokumentsemantik eine absteigende Folge von Überschriften erfordert, muss diese Folge in streng numerischer Reihenfolge erfolgen und darf keine dazwischen liegende Überschriftenebene überspringen. H1 H2 H3 ist zulässig, H1 H3 hingegen nicht.
ISO-14289-1, 7.4.2
Um eine korrekte Ausgabe zu gewährleisten, müssen Benutzer sicherstellen, dass der Inhalt des Quelldokuments ordnungsgemäß organisiert ist und die Gliederungsebenen für Absätze korrekt angegeben sind. Andernfalls sollte der Benutzer die Struktur des ausgegebenen PDF-Dokuments überprüfen und korrigieren.
In diesem Block sehen Sie Beispiele: wie Sie Gliederungsebenen in Microsoft Word festlegen oder die Struktur des ausgegebenen PDF-Dokuments überprüfen und korrigieren (erweitern Sie, um Details anzuzeigen).
In Microsoft Word können die Standardformate "Überschrift X" verwendet werden, um die Gliederungsebene festzulegen:
Darüber hinaus konnte im Fenster "Absatz" die Gliederungsebene überprüft bzw. geändert werden:
In Acrobat kann die Dokumentstruktur im Bereich "Tags" überprüft oder geändert werden:
Den Inhalt als Artefakt markieren
Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Derzeit markiert Aspose.Words Seitenkopf- und -fußzeilen, Notiztrennzeichen, wiederholte Tabellenkopfzellen und dekorative Bilder als Artefakte. Beachten Sie, dass diese Liste in Zukunft möglicherweise aktualisiert wird.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Die Grafikobjekte in einem Dokument können in zwei Klassen unterteilt werden:
ISO-32000-1, 14.8.2.2.1
Wenn ein Dokument andere Inhalte enthält, die als Artefakt markiert werden sollten, oder wenn es sich bei den artefaktierten Inhalten um echte Inhalte handelt, sollten Kunden dies im Ausgabe-PDF korrigieren.
In diesem Block sehen Sie Beispiele: wie man Formen in Microsoft Word als dekorativ markiert oder Formen im ausgegebenen PDF-Dokument als Artefakt markiert (erweitern Sie, um Details anzuzeigen).
Formen könnten beispielsweise in Microsoft Word als dekorativ markiert werden, sodass sie als Artefakt in PDF exportiert werden:
Sie können die Form im Ausgabe-PDF als Artefakt markieren:
Außerdem können Sie den Text in einer Kopfzeile vom Artefakt in echten Inhalt im Ausgabe-PDF umwandeln:
Spezifikation natürlicher Sprache
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Textsprache wird in Microsoft Word-Dokumenten angegeben. Aspose.Words exportiert die angegebene Sprache in ein Ausgabe-PDF, wobei das Lang-Attribut an eine markierte Inhaltssequenz oder ein Span-Tag angehängt wird – dies wird durch die ExportLanguageToSpanTag-Eigenschaft gesteuert. Im Allgemeinen gibt es keine Sprachprobleme, wenn der Benutzer Text über Microsoft Word eingibt. Es besteht jedoch die Möglichkeit, dass die Sprache ungenau ist, wenn der Text automatisch generiert wird.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Die standardmäßige natürliche Sprache für den gesamten Text in einer Datei sollte durch den Lang-Eintrag im Katalogwörterbuch des Dokuments angegeben werden.
Alle Textinhalte innerhalb einer Datei, die von der Standardsprache abweichen, sollten durch die Verwendung einer `Lang`-Eigenschaft angegeben werden, die an eine Sequenz mit markiertem Inhalt angehängt ist, oder durch einen Lang-Eintrag in einem Strukturelementwörterbuch ...
ISO-19005-2, 6.7.4
Darüber hinaus sagt uns die Spezifikation für PDF/UA-1 Folgendes (erweitern Sie, um Details anzuzeigen):
Natürliche Sprache muss deklariert werden. Änderungen in der natürlichen Sprache müssen deklariert werden.
ISO-14289-1, 7.2
In diesem Block sehen Sie Beispiele: So stellen Sie sicher, dass die Sprache korrekt angegeben ist (erweitern Sie, um Details anzuzeigen).
Benutzer sollten sicherstellen, dass die Sprache im Word-Quelldokument korrekt angegeben ist:
Oder das ausgegebene PDF-Dokument:
Bilderüberschrift
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von Bildunterschriften.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Eine einer Abbildung beigefügte Bildunterschrift muss mit einem Caption-Tag versehen werden.
ISO-14289-1, 7.3
Derzeit kann Aspose.Words keine Untertitel mit dem Caption-Tag exportieren, daher müssen sie im Ausgabe-PDF gekennzeichnet werden.
In diesem Block sehen Sie Beispiele: wie die Beschriftung eingefügt wird (erweitern Sie, um Details anzuzeigen).
In Microsoft Word könnte die Beschriftung über das Kontextmenü eingefügt werden:
In Acrobat kann die Beschriftung über den `Object`-Eigenschaftendialog hinzugefügt oder geändert werden:
Alternative Beschreibungen
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word-Dokumente ermöglichen Benutzern das Hinzufügen von Alternativtext zu Bildern, Formen und Tabellen. Aspose.Words exportiert einen solchen Alternativtext in das Ausgabe-PDF.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Alle Strukturelemente, deren Inhalt kein natürlich vorgegebenes textliches Analogon hat, z. B. Bilder, Formeln usw., sollten über den Alt-Eintrag im Strukturelement-Wörterbuch eine alternative Textbeschreibung bereitstellen ...
HINWEIS Alternative Beschreibungen bieten Textbeschreibungen, die bei der richtigen Interpretation ansonsten undurchsichtiger nicht-textueller Inhalte helfen.
ISO-19005-2, 6.7.5
In diesem Block sehen Sie Beispiele: So stellen Sie sicher, dass alle Elemente einen alternativen Text haben (erweitern Sie, um Details anzuzeigen).
Benutzer sollten sicherstellen, dass alle Elemente im Word-Quelldokument einen alternativen Text haben:
Oder das ausgegebene PDF-Dokument:
Alternative Beschreibungen für Hyperlinks
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Zusätzlich zum vorherigen Punkt ermöglichen Microsoft Word-Dokumente Benutzern auch das Hinzufügen von Alternativtext zu Hyperlinks. Aspose.Words exportiert einen solchen Alternativtext in das Ausgabe-PDF.
Leider ist es nicht in jeder Anwendung möglich, eine alternative Beschreibung einzurichten. Beispielsweise bietet Adobe Acrobat derzeit keine Möglichkeit, eine solche Beschreibung für Hyperlinks einzurichten. In Microsoft Word können Sie dies jedoch wie folgt tun:
Manchmal besteht das Problem, dass es nicht möglich ist, über die Microsoft Word-GUI Alternativtext für automatisch generierte Hyperlinks im Inhaltsverzeichnis (TOC) festzulegen. Aspose.Words könnte solche Felder aktualisieren und die Links selbst generieren.
Befolgen Sie das Codebeispiel, um TOC
-Felder mithilfe von Aspose.Words Document Object Model (DOM) zu aktualisieren:
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Tabellenüberschriften
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabellen in PDF/UA-1-Dokumenten müssen Kopfzeilen haben – Spalten, Zeilen oder beides. PDF/A erfordert nur Standard-Tabellen-Markup, für das keine zusätzlichen Einschränkungen gelten. Beachten Sie, dass Aspose.Words das Standardtabellen-Markup automatisch generiert.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Tabellen sollten Überschriften enthalten. Tabellen können Spaltenüberschriften, Zeilenüberschriften oder beides enthalten.
ISO-14289-1, 7.5
In diesem Block sehen Sie Beispiele: wie man den Tabellenkopf festlegt (erweitern Sie, um Details anzuzeigen).
Der Tabellenkopf kann entweder im Microsoft Word-Quelldokument eingerichtet werden:
Oder das Ausgabe-PDF:
Ersatztext
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Die Spezifikation sagt uns Folgendes:
Alle textuellen Strukturelemente, die auf nicht standardmäßige Weise dargestellt werden, z. B. benutzerdefinierte Zeichen oder Inline-Grafiken, sollten Ersatztext mithilfe des `ActualText`-Eintrags im Strukturelementwörterbuch bereitstellen ...
ISO-19005-2, 6.7.7
Im Microsoft Word-Dokument können Benutzer keinen Ersatztext festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:
Abkürzungen und Akronymerweiterungen
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Alle Instanzen von Abkürzungen und Akronymen im Textinhalt sollten in einer markierten Inhaltssequenz mit einem Span-Tag platziert werden, dessen E-Eigenschaft eine Texterweiterung der Abkürzung oder des Akronyms bereitstellt ...
ISO-19005-2, 6.7.8
Im Microsoft Word-Dokument können Benutzer keine Abkürzungen und Akronymerweiterungen festlegen. Dies muss also im Ausgabe-PDF überprüft und behoben werden:
Dokumenttitel
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Das Dokument in PDF/UA-1 sollte einen Titel haben |
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Die Spezifikation sagt uns Folgendes:
Der Metadatenstrom im Katalogwörterbuch des Dokuments muss einen dc:title-Eintrag enthalten, wobei dc das empfohlene Präfix für das Dublin Core-Metadatenschema ist.
ISO-14289-1, 7.1
In diesem Block sehen Sie Beispiele: wie Sie den Dokumenttitel festlegen (erweitern Sie, um Details anzuzeigen).
Der Dokumenttitel kann entweder für das Microsoft Word-Quelldokument eingerichtet werden:
Oder das Ausgabe-PDF:
Schriftartanforderungen
Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Auch bei der Konvertierung in die Formate PDF/A-1, PDF/A-2, PDF/A-4 oder PDF/UA-1 mit Aspose.Words gibt es einige Nuancen bei der Arbeit mit Schriftarten. Sie müssen berücksichtigt werden, wenn Sie mögliche Probleme mit dem Ausgabedokument vermeiden möchten.
Die folgenden Abschnitte beschreiben solche Nuancen und Optionen für ihre Lösung.
Gesetzliche Anforderungen an Schriftarten
Konformitätsstufen des PDF-Standards innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words überprüft nicht die rechtlichen Einschränkungen der verwendeten Schriftarten – es liegt in der Verantwortung der Benutzer. Mit anderen Worten: Ein Benutzer sollte keine ungeeigneten Schriftarten für die PDF-Konvertierung mit Aspose.Words bereitstellen.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Es dürfen nur Schriftprogramme verwendet werden, die für eine unbegrenzte, universelle Wiedergabe gesetzlich in eine Datei einbettbar sind.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (genau die gleichen Anführungszeichen in zwei Spezifikationen)
.notdef Glyph
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Die Nutzung des .notdef
glyph ist untersagt. Das .notdef
glyph erscheint, wenn ein Dokument Zeichen enthält, die in der ausgewählten Schriftart nicht vorhanden sind und die auch nicht über den Font-Fallback-Mechanismus aufgelöst werden können.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Ein konformes Dokument darf keinen Verweis auf das .notdef glyph von einem der Textanzeigeoperatoren in irgendeinem Inhaltsstrom enthalten, unabhängig vom Textwiedergabemodus.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (genau die gleichen Anführungszeichen in zwei Spezifikationen)
In diesem Block sehen Sie Beispiele: wie diese Zeichen entfernt oder ersetzt werden (erweitern Sie, um Details anzuzeigen).
Benutzer sollten diese Zeichen im Word-Quelldokument entfernen oder ersetzen:
Oder das ausgegebene PDF-Dokument mit dem Tool "PDF bearbeiten":
Privatnutzungsbereich (PUA)
PDF-Standardkonformitätsstufen innerhalb von Aspose.Words | Vorliegen einer Anforderung |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
PUA-Zeichen (Private Use Area) erscheinen hauptsächlich für symbolische Windows-Schriftarten wie “Symbol”, “Wingdings”, “Webdings” und andere. Microsoft Word-Formate bieten keine Möglichkeit, tatsächlichen Text für Zeichen zu speichern.
Die Spezifikation sagt uns Folgendes (erweitern Sie, um Details anzuzeigen):
Nur für Level-A-Konformität muss für jedes Zeichen ..., das einem oder mehreren Codes in der Unicode Private Use Area (PUA) zugeordnet ist, ein ActualText-Eintrag ... für dieses Zeichen oder eine Zeichenfolge davon vorhanden sein Ein Charakter ist ein Teil.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” ist eine Windows-Unicode-Schriftart, die als Alternative zu symbolischen Schriftarten verwendet werden könnte.
In diesem Block sehen Sie Beispiele: Was der Benutzer tun sollte, um das Problem mit symbolischen Schriftarten zu lösen (erweitern Sie, um Details anzuzeigen).
Ersetzen Sie die symbolische Schriftart durch eine Unicode-Schriftart im Word-Quelldokument:
Oder fügen Sie einen ActualText-Eintrag zu den problematischen Zeichen im ausgegebenen PDF-Dokument hinzu: