Travailler avec PDF/A ou PDF/UA

Le format PDF/A et PDF/UA impose plusieurs exigences liées au contenu du document qui ne peuvent pas être remplies lors de la conversion automatique d’un document en format Word au format PDF. Ces exigences devraient être vérifiées et corrigées soit dans un document Word avant la conversion, soit dans un document PDF après la conversion, afin de produire un document entièrement conforme PDF/A et PDF/UA.

Les exigences de base sont pour la structure ou les polices d’un document PDF/A et PDF/UA, que nous examinerons dans les sections suivantes.

Exigences relatives à la structure des documents

Les exigences actuelles sont pour les formats PDF/A-1a, PDF/A-2a, PDF/A-4 et PDF/UA-1.

Il y a quelques nuances de comment Aspose.Words fonctionne lors de la conversion à divers standards de format PDF. Ils doivent être pris en compte si vous voulez obtenir le résultat attendu.

Les sous-sections ci-dessous décrivent les nuances Aspose.Words fonctionne lors de la conversion à divers standards et options de format PDF pour leur solution.

Type de structure

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1 tick

Un document PDF est une séquence de blocs tels que des titres, des paragraphes, des tableaux, etc. Ces blocs forment une structure de document – forte ou faible.

Les structures fortes et faibles sont valables pour PDF/A. Microsoft Word les documents ont une structure faible par conception, et Aspose.Words crée un PDF avec la structure faible respectivement et génère également des en-têtes selon les niveaux de contour des paragraphes du document source.

Pour un document PDF/UA-1 avec une structure faible, il est en outre nécessaire que les numéros de cap s’ajustent sans discontinuité.

Pour assurer une sortie correcte, les utilisateurs doivent s’assurer que le contenu du document source est correctement organisé et que les niveaux d’esquisse sont correctement spécifiés pour les paragraphes. Sinon, l’utilisateur devrait vérifier et fixer la structure du document PDF de sortie.

Marquage du contenu comme artéfact

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1 tick

Pour le moment, Aspose.Words marque les en-têtes de page et les pied de page, les séparateurs de note, les cellules d’en-tête de table répétées et les images décoratives comme artefacts. Veuillez noter que cette liste pourra être mise à jour à l’avenir.

Si un document contient tout autre contenu qui devrait être marqué comme artefact, ou si l’un des contenus artefacts est un contenu réel, les clients devraient le corriger dans la sortie PDF.

Spécification du langage naturel

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1 tick

La langue du texte est spécifiée dans Microsoft Word des documents. Aspose.Words exporte la langue spécifiée vers un PDF de sortie avec Lang attribut attaché à une séquence de contenu marqué ou à une balise Span – il est contrôlé par la ExportLanguageToSpanTag propriété. En général, il n’y a pas de problèmes de langue lorsque le texte est entré par l’utilisateur via Microsoft Word. Mais il est possible que la langue soit inexacte si le texte est généré automatiquement.

Graphique

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-2a
PDF/UA-1 tick

Microsoft Word Les documents permettent aux utilisateurs d’ajouter une légende graphique.

Actuellement Aspose.Words ne peut pas exporter les légendes avec la balise Caption, de sorte qu’elles doivent être indiquées dans la sortie PDF.

Autres descriptions

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word les documents permettent aux utilisateurs d’ajouter du texte alternatif aux images, aux formes et aux tableaux. Aspose.Words exporte un tel texte alternatif vers la sortie PDF.

Descriptions alternatives pour hyperliens

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-2a
PDF/UA-1 tick

Outre le point précédent, Microsoft Word Les documents permettent également aux utilisateurs d’ajouter un autre texte aux hyperliens. Aspose.Words exporte un tel texte alternatif vers la sortie PDF.

Malheureusement, chaque application ne vous permet pas de configurer une autre description. Par exemple, Adobe Acrobat actuellement ne permet pas de configurer une telle description pour les hyperliens. Mais dans Microsoft Word, vous pouvez le faire comme suit:

alternate-descriptions-hyperlinks-mw

Parfois, il y a un problème qu’il n’est pas possible de définir alt texte pour les hyperliens générés automatiquement dans la table des matières (TOC) à travers la Microsoft Word - Oui. Aspose.Words pourrait mettre à jour ces champs et générer les liens par lui-même.

Suivez l’exemple de code à mettre à jour TOC les champs utilisant les Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

En-têtes de tableau

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-2a
PDF/UA-1 tick

Les tableaux des documents PDF/UA-1 doivent comporter des en-têtes – colonne, ligne ou les deux. PDF/A n’exige qu’un balisage standard, qui ne comporte aucune restriction supplémentaire. Notez que Aspose.Words génère automatiquement le balisage de table standard.

Texte de remplacement

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word document ne permet pas aux utilisateurs de définir le texte de remplacement. Cela doit donc être vérifié et corrigé dans la sortie PDF:

AcrobatReplacementText

Abréviations et acronymes Expansion

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word document ne permet pas aux utilisateurs de définir des abréviations et des acronymes expansions. Ceci doit donc être vérifié et corrigé dans la sortie PDF:

AcrobatSplitAddExpansionText

Titre du document

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Le document en format PDF/UA-1 devrait avoir un titre

Exigences de police

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Il y a aussi un certain nombre de nuances de travail avec les polices lors de la conversion en format PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 en utilisant Aspose.Words. Ils doivent être pris en compte si vous voulez éviter d’éventuels problèmes avec le document de sortie.

Les sections ci-dessous décrivent ces nuances et options pour leur solution.

Police Exigences légales

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words ne vérifie pas les restrictions légales des polices utilisées – il appartient aux utilisateurs. En d’autres termes, un utilisateur ne devrait pas fournir des polices inappropriées pour la conversion PDF en utilisant Aspose.Words.

.notdef Glyph

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

L’utilisation des .notdef glyph est interdite. Les .notdef glyph s’affichera si un document contient des caractères qui ne sont pas présents dans la police sélectionnée et qui ne peuvent pas être résolus par l’intermédiaire du mécanisme Font Fallback.

Zone à usage privé (PUA)

Niveaux de conformité standard PDF Aspose.Words Présence d ' une prescription
Annexe
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Les caractères de la zone d’utilisation privée (PUA) apparaissent principalement pour Windows polices symboliques comme “Symbol”, “Wingdings”, “Webdings”, et autres. Microsoft Word formats ne fournissent pas une option pour stocker le texte réel pour les caractères.

“Le symbole “Segoe UI Symbol” est un Windows Police Unicode qui pourrait être utilisée comme alternative aux polices symboliques.