Extrair Conteúdo Marcado de PDF

Obtendo Conteúdo de PDF Marcado

Para obter o conteúdo de um Documento PDF com Texto Marcado, Aspose.PDF oferece o método getTaggedContent() da Classe Document. O trecho de código a seguir mostra como obter o conteúdo de um documento PDF com Texto Marcado:

// Para exemplos completos e arquivos de dados, por favor visite https://github.com/aspose-pdf/Aspose.PDF-for-Java
// O caminho para o diretório de documentos.
String path = "pathTodir";

// Criar Documento Pdf
Document document = new Document();

// Obter Conteúdo para trabalhar com TaggedPdf
ITaggedContent taggedContent = document.getTaggedContent();

//
// Trabalhar com conteúdo de Pdf Marcado
//

// Definir Título e Idioma para o Documento
taggedContent.setTitle("Documento Pdf Marcado Simples");
taggedContent.setLanguage("en-US");

// Salvar Documento Pdf Marcado
document.save(path + "TaggedPDFContent.pdf");

Obtendo Estrutura Raiz

Para obter a estrutura raiz de um Documento PDF Marcado, o Aspose.PDF oferece os métodos getStructTreeRootElement(https://reference.aspose.com/pdf/java/com.aspose.pdf.tagged/ITaggedContent#getStructTreeRootElement--) e getStructureElement() da Interface ITaggedContent. O trecho de código a seguir mostra como obter a estrutura raiz de um Documento PDF Marcado:

// Para exemplos completos e arquivos de dados, por favor, acesse https://github.com/aspose-pdf/Aspose.PDF-for-Java
// O caminho para o diretório de documentos.
String path = "pathTodir";
// Criar Documento PDF
Document document = new Document();

// Obter Conteúdo para trabalhar com TaggedPdf
ITaggedContent taggedContent = document.getTaggedContent();

// Definir Título e Idioma para o Documento
taggedContent.setTitle("Documento PDF Marcado");
taggedContent.setLanguage("en-US");

// As propriedades StructTreeRootElement e RootElement são usadas para acessar o
// objeto StructTreeRoot do documento pdf e o elemento de estrutura raiz (elemento de estrutura do Documento).
StructTreeRootElement structTreeRootElement = taggedContent.getStructTreeRootElement();
StructureElement rootElement = taggedContent.getRootElement();

Acessando Elementos Filhos

Para acessar elementos filhos de um Documento PDF Marcado, Aspose.PDF oferece a Classe ElementList. O trecho de código a seguir mostra como acessar elementos filhos de um Documento PDF Marcado:

// Para exemplos completos e arquivos de dados, por favor, acesse https://github.com/aspose-pdf/Aspose.PDF-for-Java
String path = "pathTodir";
// Abrir Documento Pdf
Document document = new Document( path +"StructureElements.pdf");

// Obter Conteúdo para trabalhar com TaggedPdf
ITaggedContent taggedContent = document.getTaggedContent();

// Acessar o(s) elemento(s) raiz
ElementList elementList = taggedContent.getStructTreeRootElement().getChildElements();
for (Element element : elementList)
{
    if (element instanceof StructureElement)
    {
        StructureElement structureElement =  (StructureElement)element;

        // Obter propriedades
        String title = structureElement.getTitle();
        String language = structureElement.getLanguage();
        String actualText = structureElement.getActualText();
        String expansionText = structureElement.getExpansionText();
        String alternativeText = structureElement.getAlternativeText();
    }
}

// Acessar elementos filhos do primeiro elemento no elemento raiz
elementList = taggedContent.getRootElement().getChildElements().get_Item(1).getChildElements();
for (Element element : elementList)
{
    if (element instanceof StructureElement)
    {
        StructureElement structureElement = (StructureElement)element;

        // Definir propriedades
        structureElement.setTitle("title");
        structureElement.setLanguage("fr-FR");
        structureElement.setActualText("actual text");
        structureElement.setExpansionText("exp");
        structureElement.setAlternativeText("alt");
    }
}

// Salvar Documento Pdf Marcado
document.save( path +"AccessChildrenElements.pdf");