Extraer contenido entre nodos en un documento

Al trabajar con documentos, es importante poder extraer fácilmente contenido de un rango específico dentro de un documento. Sin embargo, el contenido puede consistir en elementos complejos como párrafos, tablas, imágenes, etc.

Independientemente del contenido que deba extraerse, el método para extraer ese contenido siempre estará determinado por los nodos seleccionados para extraer el contenido. Pueden ser cuerpos de texto completos o ejecuciones de texto simples.

Hay muchas situaciones posibles y, por lo tanto, muchos tipos de nodos diferentes a considerar al extraer contenido. Por ejemplo, es posible que desees extraer contenido entre:

Dos párrafos específicos
Ejecuciones específicas de texto.
Campos de varios tipos, como campos de combinación.
Rangos de inicio y fin de un marcador o comentario
Varios cuerpos de texto contenidos en secciones separadas.

En algunas situaciones, es posible que incluso necesites combinar diferentes tipos de nodos, como extraer contenido entre un párrafo y un campo, o entre una ejecución y un marcador.

Este artículo proporciona la implementación del código para extraer texto entre diferentes nodos, así como ejemplos de escenarios comunes.

Estos ejemplos son sólo algunas demostraciones de las muchas posibilidades. Planeamos que la funcionalidad de extracción de texto sea parte del API público en el futuro y no se requerirá ningún código adicional. Mientras tanto, no dudes en publicar tus solicitudes con respecto a esta funcionalidad en el Foro Aspose.Words.

Por qué extraer contenido

A menudo, el objetivo de extraer el contenido es duplicarlo o guardarlo por separado en un documento nuevo. Por ejemplo, puede extraer contenido y:

Cópialo en un documento aparte.
Convertir una parte específica de un documento a PDF o imagen
Duplicar el contenido del documento muchas veces.
Trabajar con contenido extraído separado del resto del documento.

Esto se puede lograr fácilmente usando Aspose.Words y la implementación del código a continuación.

Algoritmo de extracción de contenido

El código de esta sección aborda todas las situaciones posibles descritas anteriormente con un método generalizado y reutilizable. El esquema general de esta técnica implica:

Reunir los nodos que dictan el área de contenido que se extraerá de su documento. La recuperación de estos nodos la maneja el usuario en su código, en función de lo que desea extraer.
Pasar estos nodos al método ExtractContent que se proporciona a continuación. También debe pasar un parámetro booleano que indique si estos nodos, que actúan como marcadores, deben incluirse en la extracción o no.
Recuperar una lista de contenido clonado (nodos copiados) especificado para ser extraído. Puede utilizar esta lista de nodos de cualquier forma aplicable, por ejemplo, creando un nuevo documento que contenga solo el contenido seleccionado.

Cómo extraer contenido

Para extraer el contenido de su documento, debe llamar al método extraer_contenido a continuación y pasar los parámetros apropiados. La base subyacente de este método consiste en encontrar nodos a nivel de bloque (párrafos y tablas) y clonarlos para crear copias idénticas. Si los nodos marcadores pasados están a nivel de bloque, entonces el método puede simplemente copiar el contenido en ese nivel y agregarlo a la matriz.

Sin embargo, si los nodos marcadores están en línea (un hijo de un párrafo), entonces la situación se vuelve más compleja, ya que es necesario dividir el párrafo en el nodo en línea, ya sea una ejecución, campos de marcadores, etc. El contenido en los nodos principales clonados no presente entre los marcadores se elimina. Este proceso se utiliza para garantizar que los nodos en línea aún conserven el formato del párrafo principal. El método también ejecutará comprobaciones en los nodos pasados como parámetros y generará una excepción si alguno de los nodos no es válido. Los parámetros que se pasarán a este método son:

inicioNodo y nodo final. Los dos primeros parámetros son los nodos que definen dónde comenzará y terminará la extracción del contenido, respectivamente. Estos nodos pueden ser a nivel de bloque (Paragraph, Table o nivel en línea (por ejemplo, Run, FieldStart, BookmarkStart, etc.):
Para pasar un campo debes pasar el objeto FieldStart correspondiente.
Para pasar marcadores, se deben pasar los nodos BookmarkStart y BookmarkEnd.
Para pasar comentarios, se deben utilizar los nodos CommentRangeStart y CommentRangeEnd.
es inclusivo. Define si los marcadores están incluidos en la extracción o no. Si esta opción se establece en falso y se pasa el mismo nodo o nodos consecutivos, se devolverá una lista vacía:
Si se pasa un nodo FieldStart, esta opción define si se incluirá o excluirá todo el campo.
Si se pasa un nodo BookmarkStart o BookmarkEnd, esta opción define si se incluye el marcador o solo el contenido entre el rango de marcadores.
Si se pasa un nodo CommentRangeStart o CommentRangeEnd, esta opción define si se incluirá el comentario en sí o solo el contenido en el rango de comentarios.

La implementación del método extraer_contenido se puede encontrar en aquí. Se hará referencia a este método en los escenarios de este artículo.

También definiremos un método personalizado para generar fácilmente un documento a partir de nodos extraídos. Este método se utiliza en muchos de los escenarios siguientes y simplemente crea un nuevo documento e importa el contenido extraído en él.

El siguiente ejemplo de código muestra cómo tomar una lista de nodos e insertarlos en un nuevo documento:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def generate_document(src_doc: aw.Document, nodes):

	dst_doc = aw.Document()
	# Remove the first paragraph from the empty document.
	dst_doc.first_section.body.remove_all_children()

	# Import each node from the list into the new document. Keep the original formatting of the node.
	importer = aw.NodeImporter(src_doc, dst_doc, aw.ImportFormatMode.KEEP_SOURCE_FORMATTING)
	for node in nodes:
	import_node = importer.import_node(node, True)
	dst_doc.first_section.body.append_child(import_node)

	return dst_doc

view raw generate-document.py hosted with ❤ by GitHub

Extraer contenido entre párrafos

Esto demuestra cómo utilizar el método anterior para extraer contenido entre párrafos específicos. En este caso, queremos extraer el cuerpo de la carta que se encuentra en la primera mitad del documento. Podemos decir que esto está entre el párrafo 7 y 11.

El siguiente código realiza esta tarea. Los párrafos correspondientes se extraen utilizando el método CompositeNode.get_child en el documento y pasando los índices especificados. Luego pasamos estos nodos al método extraer_contenido y declaramos que se incluirán en la extracción. Este método devolverá el contenido copiado entre estos nodos que luego se inserta en un nuevo documento.

El siguiente ejemplo de código muestra cómo extraer el contenido entre párrafos específicos utilizando el método extraer_contenido anterior:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 6, True).as_paragraph()
	end_para = doc.first_section.body.get_child(aw.NodeType.PARAGRAPH, 10, True).as_paragraph()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_para, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraphs.docx")

view raw extract-content-between-paragraphs.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraiga contenido entre diferentes tipos de nodos

Podemos extraer contenido entre cualquier combinación de nivel de bloque o nodos en línea. En este escenario a continuación, extraeremos el contenido entre el primer párrafo y la tabla de la segunda sección inclusive. Obtenemos los nodos de marcadores llamando al método Body.first_paragraph y CompositeNode.get_child en la segunda sección del documento para recuperar los nodos Paragraph y Table apropiados. Para una ligera variación, dupliquemos el contenido e insertémoslo debajo del original.

El siguiente ejemplo de código muestra cómo extraer el contenido entre un párrafo y una tabla usando el método extraer_contenido:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	start_para = doc.last_section.get_child(aw.NodeType.PARAGRAPH, 2, True).as_paragraph()
	end_table = doc.last_section.get_child(aw.NodeType.TABLE, 0, True).as_table()
	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para, end_table, True)

	# Let's reverse the array to make inserting the content back into the document easier.
	extracted_nodes.reverse()
	for extracted_node in extracted_nodes:
	end_table.parent_node.insert_after(extracted_node, end_table)

	doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_block_level_nodes.docx")

view raw extract-content-between-block-level-nodes.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraiga contenido entre párrafos según el estilo

Es posible que necesite extraer el contenido entre párrafos del mismo estilo o de diferente estilo, como entre párrafos marcados con estilos de encabezado.

El siguiente código muestra cómo lograr esto. Es un ejemplo simple que extraerá el contenido entre la primera instancia de los estilos “Encabezado 1” y “Encabezado 3” sin extraer también los encabezados. Para hacer esto, configuramos el último parámetro en falso, que especifica que los nodos marcadores no deben incluirse.

En una implementación adecuada, esto debería ejecutarse en un bucle para extraer el contenido entre todos los párrafos de estos estilos del documento. El contenido extraído se copia en un nuevo documento.

El siguiente ejemplo de código muestra cómo extraer contenido entre párrafos con estilos específicos utilizando el método extraer_contenido:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	# Gather a list of the paragraphs using the respective heading styles.
	paras_style_heading1 = self.paragraphs_by_style_name(doc, "Heading 1")
	paras_style_heading3 = self.paragraphs_by_style_name(doc, "Heading 3")

	# Use the first instance of the paragraphs with those styles.
	start_para1 = paras_style_heading1[0]
	end_para1 = paras_style_heading3[0]

	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_para1, end_para1, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_paragraph_styles.docx")

view raw extract-content-between-paragraph-styles.py hosted with ❤ by GitHub

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	@staticmethod
	def paragraphs_by_style_name(doc: aw.Document, style_name: str):

	# Create an array to collect paragraphs of the specified style.
	paragraphs_with_style = []
	paragraphs = doc.get_child_nodes(aw.NodeType.PARAGRAPH, True)

	# Look through all paragraphs to find those with the specified style.
	for paragraph in paragraphs:
	paragraph = paragraph.as_paragraph()
	if paragraph.paragraph_format.style.name == style_name:
	paragraphs_with_style.append(paragraph)

	return paragraphs_with_style

view raw paragraphs-by-style-name.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraer contenido entre ejecuciones específicas

También puede extraer contenido entre nodos en línea, como Run. Se pueden pasar como marcadores fragmentos de diferentes párrafos. El siguiente código muestra cómo extraer texto específico entre el mismo nodo Paragraph.

El siguiente ejemplo de código muestra cómo extraer contenido entre ejecuciones específicas del mismo párrafo utilizando el método extraer_contenido:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	para = doc.get_child(aw.NodeType.PARAGRAPH, 7, True).as_paragraph()
	start_run = para.runs[1]
	end_run = para.runs[4]

	# Extract the content between these nodes in the document. Include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_run, end_run, True)
	for extracted_node in extracted_nodes:
	print(extracted_node.to_string(aw.SaveFormat.TEXT))

view raw extract-content-between-runs.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraer contenido usando un campo

Para utilizar un campo como marcador, se debe pasar el nodo FieldStart. El último parámetro del método extraer_contenido definirá si se incluirá o no todo el campo. Extraigamos el contenido entre el campo de combinación “Nombre completo” y un párrafo del documento. Usamos el método DocumentBuilder.move_to_merge_field de la clase DocumentBuilder. Esto devolverá el nodo FieldStart a partir del nombre del campo de combinación que se le pasó.

En nuestro caso, establezcamos el último parámetro pasado al método extraer_contenido en False para excluir el campo de la extracción. Representaremos el contenido extraído en PDF.

El siguiente ejemplo de código muestra cómo extraer contenido entre un campo y un párrafo específicos en el documento utilizando el método extraer_contenido:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")
	builder = aw.DocumentBuilder(doc)
	# Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	# We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.move_to_merge_field("Fullname", False, False)

	# The builder cursor should be positioned at the start of the field.
	start_field = builder.current_node.as_field_start()
	end_para = doc.first_section.get_child(aw.NodeType.PARAGRAPH, 5, True).as_paragraph()
	# Extract the content between these nodes in the document. Don't include these markers in the extraction.
	extracted_nodes = helper.ExtractContentHelper.extract_content(start_field, end_para, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_using_field.docx")

view raw extract-content-using-field.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraer contenido de un marcador

En un documento, el contenido definido dentro de un marcador está encapsulado por los nodos BookmarkStart y BookmarkEnd. El contenido que se encuentra entre estos dos nodos constituye el marcador. Puede pasar cualquiera de estos nodos como cualquier marcador, incluso los de diferentes marcadores, siempre que el marcador inicial aparezca antes del marcador final en el documento. Extraeremos este contenido en un nuevo documento usando el siguiente código. La opción del parámetro es inclusivo muestra cómo conservar o descartar el marcador.

El siguiente ejemplo de código muestra cómo extraer el contenido al que se hace referencia en un marcador utilizando el método extraer_contenido:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	bookmark = doc.range.bookmarks.get_by_name("Bookmark1")
	bookmark_start = bookmark.bookmark_start
	bookmark_end = bookmark.bookmark_end

	# Firstly, extract the content between these nodes, including the bookmark.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.including_bookmark.docx")

	# Secondly, extract the content between these nodes this time without including the bookmark.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(bookmark_start, bookmark_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_bookmark.without_bookmark.docx")

view raw extract-content-between-bookmark.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Extraer contenido de un comentario

Un comentario se compone de los nodos CommentRangeStart, CommentRangeEnd y Comment. Todos estos nodos están en línea. Los primeros dos nodos encapsulan el contenido del documento al que hace referencia el comentario, como se ve en la captura de pantalla siguiente. El nodo Comment en sí es un InlineStory que puede contener párrafos y ejecuciones. Representa el mensaje del comentario visto como una burbuja de comentario en el panel de revisión. Como este nodo está en línea y es descendiente de un cuerpo, también puede extraer el contenido de este mensaje.

El comentario resume el título, el primer párrafo y la tabla de la segunda sección. Extraigamos este comentario en un nuevo documento. La opción es inclusivo dicta si el comentario en sí se conserva o se descarta.

El siguiente ejemplo de código muestra cómo hacer esto:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Extract content.docx")

	comment_start = doc.get_child(aw.NodeType.COMMENT_RANGE_START, 0, True).as_comment_range_start()
	comment_end = doc.get_child(aw.NodeType.COMMENT_RANGE_END, 0, True).as_comment_range_end()

	# Firstly, extract the content between these nodes including the comment as well.
	extracted_nodes_inclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, True)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_inclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.including_comment.docx")

	# Secondly, extract the content between these nodes without the comment.
	extracted_nodes_exclusive = helper.ExtractContentHelper.extract_content(comment_start, comment_end, False)

	dst_doc = helper.ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
	dst_doc.save(ARTIFACTS_DIR + "ExtractContent.extract_content_between_comment_range.without_comment.docx")

view raw extract-content-between-comment-range.py hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

Cómo extraer solo texto

Las formas de recuperar texto del documento son:

Utilice Document.save para guardar como texto sin formato en un archivo o secuencia
Utilice Node.to_string y pase el parámetro SaveFormat.TEXT. Internamente, esto invoca guardar como texto en una secuencia de memoria y devuelve la cadena resultante.
Utilice Node.get_text para recuperar texto con todos los caracteres de control de Microsoft Word, incluidos los códigos de campo

Usando Node.get_text y Node.to_string

Un documento de Word puede contener caracteres de control que designan elementos especiales como campo, final de celda, final de sección, etc. La lista completa de posibles caracteres de control de Word se define en la clase ControlChar. El método Node.get_text devuelve texto con todos los caracteres de control presentes en el nodo.

Llamar a to_string devuelve la representación de texto sin formato del documento solo sin caracteres de control. Para obtener más información sobre la exportación como texto sin formato, consulte Uso de SaveFormat.TEXT.

El siguiente ejemplo de código muestra la diferencia entre llamar a los métodos get_text y to_string en un nodo:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document()
	builder = aw.DocumentBuilder(doc)

	builder.insert_field("MERGEFIELD Field")

	# When converted to text it will not retrieve fields code or special characters,
	# but will still contain some natural formatting characters such as paragraph markers etc.
	# This is the same as "viewing" the document as if it was opened in a text editor.
	print("ToString() Result: " + doc.to_string(aw.SaveFormat.TEXT))

view raw simple-extract-text.py hosted with ❤ by GitHub

Usando `SaveFormat.Text`

Este ejemplo guarda el documento de la siguiente manera:

Filtra caracteres de campo y códigos de campo, formas, notas al pie, notas al final y referencias de comentarios.
Reemplaza los caracteres ControlChar.Cr de final de párrafo con combinaciones ControlChar.CrLf
Utiliza codificación UTF8

El siguiente ejemplo de código muestra cómo guardar un documento en formato TXT:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Document.docx")
	doc.save(ARTIFACTS_DIR + "BaseConversions.docx_to_txt.txt")

view raw docx-to-txt.py hosted with ❤ by GitHub

Extraer imágenes de formas

Es posible que necesite extraer imágenes de documentos para realizar algunas tareas. Aspose.Words también le permite hacer esto.

El siguiente ejemplo de código muestra cómo extraer imágenes de un documento:

	# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET.git.
	doc = aw.Document(MY_DIR + "Images.docx")

	shapes = doc.get_child_nodes(aw.NodeType.SHAPE, True)
	image_index = 0

	for shape in shapes:
	shape = shape.as_shape()
	if shape.has_image:
	image_extension = aw.FileFormatUtil.image_type_to_extension(shape.image_data.image_type)
	image_file_name = "Image.ExportImages." + str(image_index) + image_extension

	# Note, if you have only an image (not a shape with a text and the image),
	# you can use shape.get_shape_renderer().save(...) method to save the image.
	shape.image_data.save(ARTIFACTS_DIR + image_file_name)
	image_index += 1

view raw extract-images.py hosted with ❤ by GitHub

Trabajar con rangos en Python Trabajar con encabezados y pies de página

Extraer contenido entre nodos en un documento

Por qué extraer contenido

Algoritmo de extracción de contenido

Cómo extraer contenido

Extraer contenido entre párrafos

Extraiga contenido entre diferentes tipos de nodos

Extraiga contenido entre párrafos según el estilo

Extraer contenido entre ejecuciones específicas

Extraer contenido usando un campo

Extraer contenido de un marcador

Extraer contenido de un comentario

Cómo extraer solo texto

Usando Node.get_text y Node.to_string

Usando SaveFormat.Text

Extraer imágenes de formas

Usando `SaveFormat.Text`