Extrair Conteúdo Marcado de PDF

Neste artigo, você aprenderá como extrair conteúdo marcado de documentos PDF usando C#.

O seguinte trecho de código também funciona com a biblioteca Aspose.PDF.Drawing.

Obtendo Conteúdo PDF Marcado

Para obter o conteúdo de um Documento PDF com Texto Marcado, a Aspose.PDF oferece a propriedade TaggedContent da classe Document.

O seguinte trecho de código mostra como obter o conteúdo de um documento PDF com Texto Marcado:

Obtendo Estrutura Raiz

Para obter a estrutura raiz do Documento PDF Marcado, a Aspose.PDF oferece a propriedade StructTreeRootElement da interface ITaggedContent e StructureElement. O seguinte trecho de código mostra como obter a estrutura raiz do Documento PDF Marcado:

Acessando Elementos Filhos

Para acessar elementos filhos de um Documento PDF Marcado, a Aspose.PDF oferece a classe ElementList. O seguinte trecho de código mostra como acessar elementos filhos de um Documento PDF Marcado:

Marcando Imagens em PDF Existente

Para marcar imagens em um documento PDF existente, a Aspose.PDF oferece o método FindElements da classe StructureElement. Você pode adicionar texto alternativo para figuras usando a propriedade AlternativeText da classe FigureElement.

O seguinte trecho de código mostra como marcar imagens em um documento PDF existente: