Travailler avec PDF/A ou PDF/UA

Les formats PDF/A et PDF/UA imposent plusieurs exigences liées au contenu du document qui ne peuvent pas être remplies lors de la conversion automatique d’un document au format Word en PDF. Ces exigences doivent être vérifiées et corrigées soit dans un document Word avant la conversion, soit dans un document PDF après la conversion afin de produire un document entièrement conforme PDF/A et PDF/UA.

Les exigences de base concernent la structure ou les polices d’un document PDF/A et PDF/UA, que nous examinerons dans les sections suivantes.

Exigences Relatives à La Structure des Documents

Les exigences actuelles concernent PDF/A-1a, PDF/A-2a, PDF/A-4, et PDF/UA-1 formats.

Il y a quelques nuances sur le fonctionnement de Aspose.Words lors de la conversion vers divers standards de format PDF. Ils doivent être pris en compte si vous souhaitez obtenir le résultat escompté.

Les sous-sections ci-dessous décrivent les nuances du fonctionnement de Aspose.Words lors de la conversion vers diverses normes de format PDF et les options pour leur solution.

Type de Structure

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un document PDF est une séquence de blocs tels que des en-têtes, des paragraphes, des tableaux et autres. Ces blocs forment une structure de document – fortement ou faiblement.

Les structures fortes et faibles sont valables pour PDF/A. les documents Microsoft Word ont une structure faible par conception, et Aspose.Words crée PDF avec la structure faible respectivement et génère également des en-têtes en fonction des niveaux de contour des paragraphes dans le document source.

Pour un document PDF/UA-1 avec une structure faible, il est en outre nécessaire que les numéros de titre soient classés dans l’ordre sans lacunes.

Pour garantir une sortie correcte, les utilisateurs doivent s’assurer que le contenu du document source est correctement organisé et que les niveaux de contour sont correctement spécifiés pour les paragraphes. Sinon, l’utilisateur doit vérifier et corriger la structure du document PDF de sortie.

Marquage du contenu en tant qu’artefact

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Pour le moment, Aspose.Words marque les en-têtes et pieds de page, les séparateurs de notes, les cellules d’en-tête de tableau répétées et les images décoratives comme des artefacts. Notez que cette liste peut être mise à jour à l’avenir.

Si un document contient un autre contenu qui doit être marqué comme artefact, ou si l’un des contenus artefacts est un contenu réel, les clients doivent corriger cela dans la sortie PDF.

Spécification du Langage Naturel

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

La langue du texte est spécifiée dans Microsoft Word documents. Aspose.Words exporte la langue spécifiée vers une sortie PDF avec l’attribut Lang attaché à une séquence de contenu marqué ou à une balise Span-elle est contrôlée par la propriété ExportLanguageToSpanTag. Généralement, il n’y a pas de problèmes de langue lorsque le texte est entré par l’utilisateur via Microsoft Word. Mais il est possible que la langue soit inexacte si le texte est généré automatiquement.

Légende de la Figure

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word les documents permettent aux utilisateurs d’ajouter une légende de figure.

Actuellement, Aspose.Words ne peut pas exporter de légendes avec la balise Caption, elles doivent donc être signalées dans la sortie PDF.

Descriptions Alternatives

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documents permet aux utilisateurs d’ajouter du texte alternatif aux images, formes et tableaux. Aspose.Words exporte un tel texte alternatif vers la sortie PDF.

Descriptions alternatives pour les hyperliens

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

En plus du point précédent, les documents Microsoft Word permettent également aux utilisateurs d’ajouter du texte alternatif aux hyperliens. Aspose.Words exporte un tel texte alternatif vers la sortie PDF.

Malheureusement, toutes les applications ne vous permettent pas de configurer une description alternative. Par exemple, Adobe Acrobat ne permet actuellement pas de mettre en place une telle description pour les hyperliens. Mais dans Microsoft Word, vous pouvez procéder comme suit:

alternate-descriptions-hyperlinks-mw

Parfois, il y a un problème qu’il n’est pas possible de définir du texte alternatif pour les hyperliens générés automatiquement dans la table des matières (TOC) via le Microsoft Word GUI. Aspose.Words pourrait mettre à jour ces champs et générer les liens par lui-même.

Suivez l’exemple de code pour mettre à jour les champs TOC à l’aide du modèle d’objet de document Aspose.Words (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

En-Têtes de Tableau

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Les tableaux des documents PDF/UA-1 doivent avoir des en-têtes-colonne, ligne ou les deux. PDF/A nécessite uniquement un balisage de table standard, qui n’a aucune restriction supplémentaire. Notez que Aspose.Words génère automatiquement le balisage de table standard.

Texte de Remplacement

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word le document ne permet pas aux utilisateurs de définir du texte de remplacement. Cela doit donc être vérifié et corrigé dans la sortie PDF:

AcrobatReplacementText

Abréviations et Acronymes Extensions

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word le document ne permet pas aux utilisateurs de définir des extensions d’abréviations et d’acronymes. Cela doit donc être vérifié et corrigé dans la sortie PDF:

AcrobatSplitAddExpansionText

Titre du Document

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Le document dans PDF/UA-1 doit avoir un titre.

Exigences en Matière de Polices

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Il existe également un certain nombre de nuances de travail avec les polices lors de la conversion en PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 formats utilisant Aspose.Words. Ils doivent être pris en compte si vous souhaitez éviter d’éventuels problèmes avec le document de sortie.

Les sections ci-dessous décrivent ces nuances et options pour leur solution.

Exigences Légales en Matière de Polices

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words ne vérifie pas les restrictions légales des polices utilisées – c’est aux utilisateurs de décider. En d’autres termes, un utilisateur ne doit pas fournir de polices inappropriées pour la conversion PDF en utilisant Aspose.Words.

.pasdef Glyph

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

L’utilisation du glyphe .notdef est interdite. Le glyphe .notdef apparaîtra si un document contient des caractères qui ne sont pas présents dans la police sélectionnée et qui ne peuvent pas non plus être résolus via le mécanisme de remplacement de la police.

Zone à usage privé (PUA)

PDF niveaux de conformité standard compris entre Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Les caractères de la zone d’utilisation privée (PUA) apparaissent principalement pour les polices symboliques Windows comme “Symbol”, “Wingdings”, “Webdings” et autres. Les formats Microsoft Word ne fournissent pas d’option pour stocker le texte réel des caractères.

“Segoe UI Symbol” est une police Unicode Windows qui pourrait être utilisée comme alternative aux polices symboliques.