Extrair conteúdo entre nós em um documento

Ao trabalhar com documentos, é importante poder extrair facilmente o conteúdo de um intervalo específico de um documento. No entanto, o conteúdo pode consistir em elementos complexos, como parágrafos, tabelas, imagens, etc.

Independentemente do conteúdo que precisa ser extraído, o método para extrair esse conteúdo sempre será determinado pelos nós selecionados para extrair o conteúdo. Podem ser corpos de texto inteiros ou trechos de texto simples.

Existem muitas situações possíveis e, portanto, muitos tipos de nós diferentes a serem considerados ao extrair conteúdo. Por exemplo, você pode querer extrair conteúdo entre:

Dois parágrafos específicos
Execuções específicas de texto
Campos de vários tipos, como campos de mesclagem
Intervalos inicial e final de um marcador ou comentário
Vários corpos de texto contidos em seções separadas

Em algumas situações, pode até ser necessário combinar diferentes tipos de nós, como extrair conteúdo entre um parágrafo e um campo ou entre uma execução e um marcador.

Este artigo fornece a implementação de código para extrair texto entre diferentes nós, bem como exemplos de cenários comuns.

Esses exemplos são apenas algumas demonstrações das muitas possibilidades. Planejamos que a funcionalidade de extração de texto faça parte do API público no futuro e nenhum código extra será necessário. Enquanto isso, fique à vontade para postar suas solicitações em relação a essa funcionalidade no Fórum Aspose.Words.

Por que extrair conteúdo

Muitas vezes, o objetivo da extração do conteúdo é duplicá-lo ou salvá-lo separadamente em um novo documento. Por exemplo, você pode extrair conteúdo e:

Copie-o em um documento separado
Converta uma parte específica de um documento em PDF ou imagem
Duplicar o conteúdo do documento muitas vezes
Trabalhe com conteúdo extraído separado do resto do documento

Isso pode ser facilmente alcançado usando Aspose.Words e a implementação do código abaixo.

Extraindo Algoritmo de Conteúdo

O código nesta seção aborda todas as situações possíveis descritas acima com um método generalizado e reutilizável. O esboço geral desta técnica envolve:

Reunir os nós que determinam a área de conteúdo que será extraída do seu documento. A recuperação desses nós é feita pelo usuário em seu código, com base no que ele deseja extrair.
Passando esses nós para o método ExtractContent fornecido abaixo. Você também deve passar um parâmetro booleano que indica se esses nós, atuando como marcadores, devem ser incluídos na extração ou não.
Recuperar uma lista de conteúdo clonado (nós copiados) especificado para ser extraído. Você pode usar esta lista de nós de qualquer maneira aplicável, por exemplo, criando um novo documento contendo apenas o conteúdo selecionado.

Como extrair conteúdo

Para extrair o conteúdo do seu documento você precisa chamar o método extrair_conteúdo abaixo e passar os parâmetros apropriados. A base subjacente deste método envolve encontrar nós em nível de bloco (parágrafos e tabelas) e cloná-los para criar cópias idênticas. Se os nós marcadores passados forem no nível do bloco, o método será capaz de simplesmente copiar o conteúdo nesse nível e adicioná-lo ao array.

No entanto, se os nós marcadores estiverem embutidos (filhos de um parágrafo), a situação se torna mais complexa, pois é necessário dividir o parágrafo no nó embutido, seja uma execução, campos de marcadores, etc. presente entre os marcadores é removido. Este processo é usado para garantir que os nós embutidos ainda manterão a formatação do parágrafo pai. O método também executará verificações nos nós passados como parâmetros e lançará uma exceção se algum dos nós for inválido. Os parâmetros a serem passados para este método são:

startNode e fimNode. Os dois primeiros parâmetros são os nós que definem onde a extração do conteúdo deve começar e terminar, respectivamente. Esses nós podem ser de nível de bloco (Paragraph, Table ou nível inline (por exemplo, Run, FieldStart, BookmarkStart etc.):
1. Para passar um campo deverá passar o objeto FieldStart correspondente.
2. Para passar marcadores, os nós BookmarkStart e BookmarkEnd devem ser passados.
3. Para passar comentários, devem ser utilizados os nós CommentRangeStart e CommentRangeEnd.
éInclusivo. Define se os marcadores serão incluídos na extração ou não. Se esta opção for definida como false e o mesmo nó ou nós consecutivos forem passados, uma lista vazia será retornada:
1. Se um nó FieldStart for passado, esta opção define se todo o campo deve ser incluído ou excluído.
2. Se for passado um nó BookmarkStart ou BookmarkEnd, esta opção define se o marcador está incluído ou apenas o conteúdo entre o intervalo de marcadores.
3. Se for passado um nó CommentRangeStart ou CommentRangeEnd, esta opção define se o comentário em si deve ser incluído ou apenas o conteúdo da faixa de comentários.

A implementação do método extrair_conteúdo você pode encontrar em aqui. Este método será mencionado nos cenários deste artigo.

Também definiremos um método personalizado para gerar facilmente um documento a partir de nós extraídos. Este método é usado em muitos dos cenários abaixo e simplesmente cria um novo documento e importa o conteúdo extraído para ele.

O exemplo de código a seguir mostra como pegar uma lista de nós e inseri-los em um novo documento:

Extraia conteúdo entre parágrafos

Isso demonstra como usar o método acima para extrair conteúdo entre parágrafos específicos. Neste caso, queremos extrair o corpo da carta que se encontra na primeira metade do documento. Podemos dizer que isso está entre o 7º e o 11º parágrafo.

O código abaixo realiza esta tarefa. Os parágrafos apropriados são extraídos usando o método CompositeNode.get_child no documento e passando os índices especificados. Em seguida, passamos esses nós para o método extrair_conteúdo e declaramos que eles serão incluídos na extração. Este método retornará o conteúdo copiado entre esses nós que serão então inseridos em um novo documento.

O exemplo de código a seguir mostra como extrair o conteúdo entre parágrafos específicos usando o método extrair_conteúdo acima: