Extraer Contenido Etiquetado de PDF

En este artículo aprenderás cómo extraer contenido etiquetado de un documento PDF usando C#.

El siguiente fragmento de código también funciona con la biblioteca Aspose.PDF.Drawing.

Obtener Contenido PDF Etiquetado

Para obtener el contenido de un documento PDF con texto etiquetado, Aspose.PDF ofrece la propiedad TaggedContent de la clase Document.

El siguiente fragmento de código muestra cómo obtener el contenido de un documento PDF con texto etiquetado:

Obtener Estructura Raíz

Para obtener la estructura raíz de un documento PDF etiquetado, Aspose.PDF ofrece la propiedad StructTreeRootElement de la interfaz ITaggedContent y StructureElement. El siguiente fragmento de código muestra cómo obtener la estructura raíz de un documento PDF etiquetado:

Acceder a Elementos Hijos

Para acceder a los elementos hijos de un documento PDF etiquetado, Aspose.PDF ofrece la clase ElementList. El siguiente fragmento de código muestra cómo acceder a los elementos hijos de un documento PDF etiquetado:

Etiquetado de Imágenes en PDF Existente

Para etiquetar imágenes en un documento PDF existente, Aspose.PDF ofrece el método FindElements de la clase StructureElement. Puedes agregar texto alternativo para figuras usando la propiedad AlternativeText de la clase FigureElement.

El siguiente fragmento de código muestra cómo etiquetar imágenes en un documento PDF existente: