Dans cet article, vous apprendrez comment extraire le contenu étiqueté d’un document PDF en utilisant C#.
Le code suivant fonctionne également avec la bibliothèque Aspose.PDF.Drawing.
Obtenir le contenu PDF étiqueté
Pour obtenir le contenu d’un document PDF avec du texte étiqueté, Aspose.PDF propose la propriété TaggedContent de la classe Document.
Le code suivant montre comment obtenir le contenu d’un document PDF avec du texte étiqueté :
Obtenir la structure racine
Pour obtenir la structure racine d’un document PDF étiqueté, Aspose.PDF propose la propriété StructTreeRootElement de l’interface ITaggedContent et StructureElement. Le code suivant montre comment obtenir la structure racine d’un document PDF étiqueté :
Accéder aux éléments enfants
Pour accéder aux éléments enfants d’un document PDF étiqueté, Aspose.PDF propose la classe ElementList. Le code suivant montre comment accéder aux éléments enfants d’un document PDF étiqueté :
Étiquetage des images dans un PDF existant
Pour étiqueter des images dans un document PDF existant, Aspose.PDF propose la méthode FindElements de la classe StructureElement. Vous pouvez ajouter un texte alternatif pour les figures en utilisant la propriété AlternativeText de la classe FigureElement.
Le code suivant montre comment étiqueter des images dans un document PDF existant :