Travailler avec PDF/A ou PDF/UA

Les formats PDF/A et PDF/UA imposent plusieurs exigences liées au contenu du document qui ne peuvent être remplies lors de la conversion automatique d’un document au format Word vers PDF. Ces exigences doivent être vérifiées et corrigées soit dans un document Word avant la conversion, soit dans un document PDF après la conversion afin de produire un document entièrement conforme aux formats PDF/A et PDF/UA.

Les exigences de base concernent la structure ou les polices d’un document PDF/A et PDF/UA, que nous examinerons dans les sections suivantes.

Exigences relatives à la structure du document

Les exigences actuelles concernent les formats PDF/A-1a, PDF/A-2a, PDF/A-4 et PDF/UA-1.

Il existe certaines nuances dans le fonctionnement de Aspose.Words lors de la conversion vers diverses normes de format PDF. Ils doivent être pris en compte si vous souhaitez obtenir le résultat attendu.

Les sous-sections ci-dessous décrivent les nuances du fonctionnement de Aspose.Words lors de la conversion vers diverses normes de format PDF et les options pour leur solution.

Type de structure

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un document PDF est une séquence de blocs tels que des titres, des paragraphes, des tableaux et autres. Ces blocs forment une structure de document – forte ou faible.

Les structures fortes et faibles sont valables pour PDF/A. Les documents Microsoft Word ont une structure faible de par leur conception, et Aspose.Words crée respectivement un PDF avec la structure faible et génère également des titres en fonction des niveaux de plan des paragraphes du document source.

Pour un document PDF/UA-1 avec une structure faible, il est en outre requis que les numéros de titre soient dans l’ordre et sans espaces.

Pour garantir une sortie correcte, les utilisateurs doivent s’assurer que le contenu du document source est correctement organisé et que les niveaux de plan sont correctement spécifiés pour les paragraphes. Sinon, l’utilisateur doit vérifier et corriger la structure du document PDF de sortie.

Marquage du contenu comme artefact

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Pour le moment, Aspose.Words marque les en-têtes et pieds de page, les séparateurs de notes, les cellules d’en-tête de tableau répétées et les images décoratives comme des artefacts. Notez que cette liste pourrait être mise à jour à l’avenir.

Si un document contient un autre contenu qui doit être marqué comme un artefact, ou si l’un des contenus artefactés est un contenu réel, les clients doivent le corriger dans le PDF de sortie.

Spécification du langage naturel

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

La langue du texte est spécifiée dans les documents Microsoft Word. Aspose.Words exporte la langue spécifiée vers un PDF de sortie avec l’attribut Lang attaché à une séquence de contenu marqué ou à une balise Span – il est contrôlé par la propriété export_language_to_span_tag. Généralement, il n’y a aucun problème de langue lorsque le texte est saisi par l’utilisateur via Microsoft Word. Mais il est possible que la langue soit inexacte si le texte est généré automatiquement.

Descriptions alternatives

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Les documents Microsoft Word permettent aux utilisateurs d’ajouter du texte alternatif aux images, aux formes et aux tableaux. Aspose.Words exporte un tel texte alternatif vers le PDF de sortie.

Texte de remplacement

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Le document Microsoft Word ne permet pas aux utilisateurs de définir un texte de remplacement. Cela doit donc être vérifié et corrigé dans le PDF de sortie:

AcrobatReplacementText

Extensions des abréviations et des acronymes

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Le document Microsoft Word ne permet pas aux utilisateurs de définir des extensions d’abréviations et d’acronymes. Cela doit donc être vérifié et corrigé dans le PDF de sortie:

AcrobatSplitAddExpansionText

Exigences de police

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Il existe également un certain nombre de nuances dans l’utilisation des polices lors de la conversion aux formats PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 à l’aide de Aspose.Words. Ils doivent être pris en compte si vous souhaitez éviter d’éventuels problèmes avec le document de sortie.

Les sections ci-dessous décrivent ces nuances et options pour leur solution.

Exigences légales en matière de police

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words ne vérifie pas les restrictions légales des polices utilisées – c’est aux utilisateurs de décider. En d’autres termes, un utilisateur ne doit pas fournir de polices inappropriées pour la conversion PDF à l’aide de Aspose.Words.

.notdef Glyph

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

L’utilisation du .notdef glyph est interdite. Le .notdef glyph apparaîtra si un document contient des caractères qui ne sont pas présents dans la police sélectionnée et qui ne peuvent pas non plus être résolus via le mécanisme Font Fallback.

Zone à usage privé (PUA)

Niveaux de conformité aux normes PDF dans Aspose.Words Présence d’exigence
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Les caractères PUA (Private Use Area) apparaissent principalement pour les polices symboliques Windows telles que “Symbol”, “Wingdings”, “Webdings” et autres. Les formats Microsoft Word ne fournissent pas d’option pour stocker le texte réel des caractères.

“Segoe UI Symbol” est une police Windows Unicode qui pourrait être utilisée comme alternative aux polices symboliques.