Extraer Contenido entre Nodos en un Documento

Al trabajar con documentos, es importante poder extraer fácilmente contenido de un rango específico dentro de un documento. Sin embargo, el contenido puede consistir en elementos complejos como párrafos, tablas, imágenes, etc.

Independientemente del contenido que deba extraerse, el método para extraer ese contenido siempre estará determinado por los nodos seleccionados para extraer contenido entre ellos. Estos pueden ser cuerpos de texto completos o ejecuciones de texto simples.

Hay muchas situaciones posibles y, por lo tanto, muchos tipos de nodos diferentes a considerar al extraer contenido. Por ejemplo, es posible que desee extraer contenido entre:

Dos párrafos específicos
Secuencias específicas de texto
Campos de varios tipos, como campos de combinación
Rangos de inicio y finalización de un marcador o comentario
Varios cuerpos de texto contenidos en secciones separadas

En algunas situaciones, es posible que incluso necesite combinar diferentes tipos de nodos, como extraer contenido entre un párrafo y un campo, o entre una ejecución y un marcador.

Este artículo proporciona la implementación del código para extraer texto entre diferentes nodos, así como ejemplos de escenarios comunes.

Estos ejemplos son solo algunas demostraciones de las muchas posibilidades. Planeamos que la funcionalidad de extracción de texto sea parte del public API en el futuro, y no se requerirá código adicional. Mientras tanto, no dude en publicar sus solicitudes con respecto a esta funcionalidad en el Aspose.Words foro.

Por Qué Extraer Contenido

A menudo, el objetivo de extraer el contenido es duplicarlo o guardarlo por separado en un nuevo documento. Por ejemplo, puede extraer contenido y:

Cópielo en un documento separado
Convertir una parte específica de un documento en PDF o imagen
Duplicar el contenido del documento muchas veces
Trabaje con contenido extraído separado del resto del documento

Esto se puede lograr fácilmente usando Aspose.Words y la implementación del código a continuación.

Algoritmo de Extracción de Contenido

El código de esta sección aborda todas las situaciones posibles descritas anteriormente con un método generalizado y reutilizable. El esquema general de esta técnica involucra:

Recopilando los nodos que dictan el área de contenido que se extraerá de su documento. La recuperación de estos nodos es manejada por el usuario en su código, en función de lo que desea extraer.
Pasando estos nodos al método ExtractContent proporcionado a continuación. También debe pasar un parámetro booleano que indique si estos nodos, que actúan como marcadores, deben incluirse en la extracción o no.
Recuperando una lista de contenido clonado (nodos copiados) especificados para ser extraídos. Puede utilizar esta lista de nodos de cualquier forma aplicable, por ejemplo, creando un nuevo documento que contenga solo el contenido seleccionado.

Cómo Extraer Contenido

Trabajaremos con el documento a continuación en este artículo. Como puede ver, contiene una variedad de contenido. También tenga en cuenta que el documento contiene una segunda sección que comienza en el medio de la primera página. Un marcador y un comentario también están presentes en el documento, pero no son visibles en la captura de pantalla a continuación.

extract-content-aspose-words-java

Para extraer el contenido de su documento, debe llamar al método ExtractContent a continuación y pasar los parámetros apropiados.

La base subyacente de este método implica encontrar nodos a nivel de bloque (párrafos y tablas) y clonarlos para crear copias idénticas. Si los nodos marcadores pasados son de nivel de bloque, entonces el método puede simplemente copiar el contenido en ese nivel y agregarlo a la matriz.

Sin embargo, si los nodos marcadores están en línea (un elemento secundario de un párrafo), la situación se vuelve más compleja, ya que es necesario dividir el párrafo en el nodo en línea, ya sea una ejecución, campos de marcadores, etc. Se elimina el contenido de los nodos primarios clonados que no está presente entre los marcadores. Este proceso se utiliza para garantizar que los nodos en línea conserven el formato del párrafo principal.

El método también ejecutará comprobaciones en los nodos pasados como parámetros y lanzará una excepción si alguno de los nodos no es válido. Los parámetros que se pasarán a este método son:

StartNode y EndNode. Los dos primeros parámetros son los nodos que definen dónde debe comenzar y finalizar la extracción del contenido, respectivamente. Estos nodos pueden ser tanto de nivel de bloque (Paragraph, Table) como de nivel en línea (por ejemplo Run, FieldStart, BookmarkStart etc.):
1. Para pasar un campo, debe pasar el objeto FieldStart correspondiente.
2. Para pasar marcadores, se deben pasar los nodos BookmarkStart y BookmarkEnd.
3. Para pasar comentarios, se deben usar los nodos CommentRangeStart y CommentRangeEnd.
IsInclusive. Define si los marcadores están incluidos en la extracción o no. Si esta opción se establece en false y se pasan el mismo nodo o nodos consecutivos, se devolverá una lista vacía:
1. Si se pasa un nodo FieldStart, esta opción define si se debe incluir o excluir todo el campo.
2. Si se pasa un nodo BookmarkStart o BookmarkEnd, esta opción define si se incluye el marcador o solo el contenido entre el rango de marcadores.
3. Si se pasa un nodo CommentRangeStart o CommentRangeEnd, esta opción define si se debe incluir el comentario en sí o solo el contenido en el rango de comentarios.

La implementación del método ExtractContent puede encontrar aquí. Este método se mencionará en los escenarios de este artículo.

También definiremos un método personalizado para generar fácilmente un documento a partir de nodos extraídos. Este método se usa en muchos de los escenarios a continuación y simplemente crea un nuevo documento e importa el contenido extraído en él.

El siguiente ejemplo de código muestra cómo tomar una lista de nodos e insertarlos en un nuevo documento:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	public static Document generateDocument(Document srcDoc, ArrayList<Node> nodes) throws Exception
	{
	Document dstDoc = new Document();
	// Remove the first paragraph from the empty document.
	dstDoc.getFirstSection().getBody().removeAllChildren();

	// Import each node from the list into the new document. Keep the original formatting of the node.
	NodeImporter importer = new NodeImporter(srcDoc, dstDoc, ImportFormatMode.KEEP_SOURCE_FORMATTING);
	for (Node node : nodes)
	{
	Node importNode = importer.importNode(node, true);
	dstDoc.getFirstSection().getBody().appendChild(importNode);
	}

	return dstDoc;
	}

view raw generate-document.java hosted with ❤ by GitHub

Extraer Contenido Entre Párrafos

Esto demuestra cómo usar el método anterior para extraer contenido entre párrafos específicos. En este caso, queremos extraer el cuerpo de la carta que se encuentra en la primera mitad del documento. Podemos decir que esto está entre los párrafos 7 y 11.

El código a continuación cumple esta tarea. Los párrafos apropiados se extraen utilizando el método getChild en el documento y pasando los índices especificados. Luego pasamos estos nodos al método ExtractContent y establecemos que se incluirán en la extracción. Este método devolverá el contenido copiado entre estos nodos que luego se insertarán en un nuevo documento.

El siguiente ejemplo de código muestra cómo extraer el contenido entre párrafos específicos utilizando el método ExtractContent anterior:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.getFirstSection().getBody().getChild(NodeType.PARAGRAPH, 6, true);
	Paragraph endPara = (Paragraph) doc.getFirstSection().getBody().getChild(NodeType.PARAGRAPH, 10, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara, endPara, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenParagraphs.docx");

view raw extract-content-between-paragraphs.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

El documento de salida contiene los dos párrafos que se extrajeron.

extract-content-result-aspose-words-java

Extraer Contenido Entre Diferentes Tipos de Nodos

Podemos extraer contenido entre cualquier combinación de nodos a nivel de bloque o en línea. En este escenario a continuación, extraeremos el contenido entre el primer párrafo y la tabla en la segunda sección inclusive. Obtenemos los nodos marcadores llamando al método getFirstParagraph y getChild en la segunda sección del documento para recuperar los nodos Paragraph y Table apropiados. Para una ligera variación, dupliquemos el contenido e insértelo debajo del original.

El siguiente ejemplo de código muestra cómo extraer el contenido entre un párrafo y una tabla utilizando el método ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.getLastSection().getChild(NodeType.PARAGRAPH, 2, true);
	Table endTable = (Table) doc.getLastSection().getChild(NodeType.TABLE, 0, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara, endTable, true);

	// Let's reverse the array to make inserting the content back into the document easier.
	Collections.reverse(extractedNodes);
	for (Node extractedNode : extractedNodes)
	// Insert the last node from the reversed list.
	endTable.getParentNode().insertAfter(extractedNode, endTable);

	doc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBlockLevelNodes.docx");

view raw extract-content-between-block-level-nodes.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

El contenido entre el párrafo y la tabla se ha duplicado a continuación es el resultado.

extract-content-between-paragraphs-aspose-words-java

Extraer Contenido entre Párrafos Según el Estilo

Es posible que deba extraer el contenido entre párrafos del mismo estilo o de un estilo diferente, como entre párrafos marcados con estilos de encabezado.

El siguiente código muestra cómo lograr esto. Es un ejemplo simple que extraerá el contenido entre la primera instancia de los estilos" Heading 1 “y” Encabezado 3 " sin extraer también los encabezados. Para hacer esto, establecemos el último parámetro en false, que especifica que los nodos marcadores no deben incluirse.

En una implementación adecuada, esto debe ejecutarse en un bucle para extraer contenido entre todos los párrafos de estos estilos del documento. El contenido extraído se copia en un nuevo documento.

El siguiente ejemplo de código muestra cómo extraer contenido entre párrafos con estilos específicos utilizando el método ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	// Gather a list of the paragraphs using the respective heading styles.
	ArrayList<Paragraph> parasStyleHeading1 = paragraphsByStyleName(doc, "Heading 1");
	ArrayList<Paragraph> parasStyleHeading3 = paragraphsByStyleName(doc, "Heading 3");

	// Use the first instance of the paragraphs with those styles.
	Node startPara1 = parasStyleHeading1.get(0);
	Node endPara1 = parasStyleHeading3.get(0);

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara1, endPara1, false);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenParagraphStyles.docx");

view raw extract-content-between-paragraph-styles.java hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	public static ArrayList<Paragraph> paragraphsByStyleName(Document doc, String styleName)
	{
	// Create an array to collect paragraphs of the specified style.
	ArrayList<Paragraph> paragraphsWithStyle = new ArrayList<Paragraph>();

	NodeCollection paragraphs = doc.getChildNodes(NodeType.PARAGRAPH, true);

	// Look through all paragraphs to find those with the specified style.
	for (Paragraph paragraph : (Iterable<Paragraph>) paragraphs)
	{
	if (paragraph.getParagraphFormat().getStyle().getName().equals(styleName))
	paragraphsWithStyle.add(paragraph);
	}

	return paragraphsWithStyle;
	}

view raw paragraphs-by-style-name.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

A continuación se muestra el resultado de la operación anterior.

extract-content-between-paragraph-style-aspose-words-java

Extraer Contenido Entre Ejecuciones Específicas

También puede extraer contenido entre nodos en línea, como a Run. Runs de diferentes párrafos se pueden pasar como marcadores. El siguiente código muestra cómo extraer texto específico entre el mismo nodo Paragraph.

El siguiente ejemplo de código muestra cómo extraer contenido entre ejecuciones específicas del mismo párrafo utilizando el método ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph para = (Paragraph) doc.getChild(NodeType.PARAGRAPH, 7, true);
	Run startRun = para.getRuns().get(1);
	Run endRun = para.getRuns().get(4);

	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startRun, endRun, true);
	for (Node extractedNode : extractedNodes)
	System.out.println(extractedNode.toString(SaveFormat.TEXT));

view raw extract-content-between-runs.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

El texto extraído se muestra en la consola.

extract-content-between-runs-aspose-words-java

Extraer contenido mediante un Campo

Para usar un campo como marcador, se debe pasar el nodo FieldStart. El último parámetro del método ExtractContent definirá si se debe incluir o no todo el campo. Extraigamos el contenido entre el campo de combinación" FullName " y un párrafo del documento. Usamos el método moveToMergeField de la clase DocumentBuilder. Esto devolverá el nodo FieldStart del nombre del campo de combinación que se le pasó.

En nuestro caso, establezcamos el último parámetro pasado al método ExtractContent en falso para excluir el campo de la extracción. Renderizaremos el contenido extraído a PDF.

El siguiente ejemplo de código muestra cómo extraer contenido entre un campo y un párrafo específicos en el documento utilizando el método ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");
	DocumentBuilder builder = new DocumentBuilder(doc);
	// Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	// We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.moveToMergeField("Fullname", false, false);

	// The builder cursor should be positioned at the start of the field.
	FieldStart startField = (FieldStart) builder.getCurrentNode();
	Paragraph endPara = (Paragraph) doc.getFirstSection().getChild(NodeType.PARAGRAPH, 5, true);
	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startField, endPara, false);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentUsingField.docx");

view raw extract-content-using-field.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

El contenido extraído entre el campo y el párrafo, sin los nodos marcadores de campo y párrafo representados en PDF.

extract-content-using-field-aspose-words-java

Extraer Contenido de un Marcador

En un documento, el contenido definido dentro de un marcador está encapsulado por los nodos BookmarkStart y BookmarkEnd. El contenido que se encuentra entre estos dos nodos forma el marcador. Puede pasar cualquiera de estos nodos como cualquier marcador, incluso los de marcadores diferentes, siempre que el marcador inicial aparezca antes del marcador final en el documento.

En nuestro documento de muestra, tenemos un marcador, llamado “Marcador1”. El contenido de este marcador es contenido resaltado en nuestro documento:

extract-content-from-bookmark-aspose-words-java-1

Extraeremos este contenido en un nuevo documento usando el código a continuación. La opción de parámetro IsInclusive muestra cómo conservar o descartar el marcador.

El siguiente ejemplo de código muestra cómo extraer el contenido al que se hace referencia en un marcador mediante el método ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Bookmark bookmark = doc.getRange().getBookmarks().get("Bookmark1");
	BookmarkStart bookmarkStart = bookmark.getBookmarkStart();
	BookmarkEnd bookmarkEnd = bookmark.getBookmarkEnd();

	// Firstly, extract the content between these nodes, including the bookmark.
	ArrayList<Node> extractedNodesInclusive = ExtractContentHelper.extractContent(bookmarkStart, bookmarkEnd, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesInclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBookmark.IncludingBookmark.docx");

	// Secondly, extract the content between these nodes this time without including the bookmark.
	ArrayList<Node> extractedNodesExclusive = ExtractContentHelper.extractContent(bookmarkStart, bookmarkEnd, false);

	dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesExclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBookmark.WithoutBookmark.docx");

view raw extract-content-between-bookmark.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

La salida extraída con el parámetro IsInclusive establecido en verdadero. La copia también conservará el marcador.

extract-content-from-bookmark-aspose-words-java-2

La salida extraída con el parámetro IsInclusive establecido en falso. La copia contiene el contenido pero sin el marcador.

extract-content-from-bookmark-aspose-words-java-3

Extraer Contenido de un comentario

Un comentario está formado por los nodos CommentRangeStart, CommentRangeEnd y Comentario. Todos estos nodos están en línea. Los dos primeros nodos encapsulan el contenido en el documento al que hace referencia el comentario, como se ve en la captura de pantalla a continuación.

El nodo Comment en sí mismo es un InlineStory que puede contener párrafos y ejecuciones. Representa el mensaje del comentario visto como una burbuja de comentarios en el panel de revisión. Como este nodo está en línea y es descendiente de un cuerpo, también puede extraer el contenido de este mensaje.

En nuestro documento tenemos un comentario. Mostrémoslo mostrando el marcado en la pestaña Revisar:

extract-content-from-comment-aspose-words-java-1

El comentario encapsula el encabezado, el primer párrafo y la tabla en la segunda sección. Extraigamos este comentario en un nuevo documento. La opción IsInclusive determina si el comentario en sí se mantiene o se descarta.

El siguiente ejemplo de código muestra cómo hacer esto a continuación:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	CommentRangeStart commentStart = (CommentRangeStart) doc.getChild(NodeType.COMMENT_RANGE_START, 0, true);
	CommentRangeEnd commentEnd = (CommentRangeEnd) doc.getChild(NodeType.COMMENT_RANGE_END, 0, true);

	// Firstly, extract the content between these nodes including the comment as well.
	ArrayList<Node> extractedNodesInclusive = ExtractContentHelper.extractContent(commentStart, commentEnd, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesInclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenCommentRange.IncludingComment.docx");

	// Secondly, extract the content between these nodes without the comment.
	ArrayList<Node> extractedNodesExclusive = ExtractContentHelper.extractContent(commentStart, commentEnd, false);

	dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesExclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenCommentRange.WithoutComment.docx");

view raw extract-content-between-comment-range.java hosted with ❤ by GitHub

Puede descargar el archivo de muestra de este ejemplo desde Aspose.Words GitHub.

En primer lugar, la salida extraída con el parámetro IsInclusive establecido en verdadero. La copia también contendrá el comentario.

extract-content-from-comment-aspose-words-java-2

En segundo lugar, la salida extraída con isInclusive establecido en falso. La copia contiene el contenido pero sin el comentario.

extract-content-from-comment-aspose-words-java-12

Extraer contenido usando DocumentVisitor

Aspose.Words se puede utilizar no solo para crear documentos Microsoft Word construyéndolos dinámicamente o fusionando plantillas con datos, sino también para analizar documentos con el fin de extraer elementos separados del documento, como encabezados, pies de página, párrafos, tablas, imágenes y otros. Otra tarea posible es encontrar todo el texto de formato o estilo específico.

Utilice la clase DocumentVisitor para implementar este escenario de uso. Esta clase corresponde al conocido patrón de diseño de visitantes. Con DocumentVisitor, puede definir y ejecutar operaciones personalizadas que requieran enumeración en el árbol de documentos.

DocumentVisitor proporciona un conjunto de VisitXXX métodos que se invocan cuando se encuentra un elemento de documento (nodo) en particular. Por ejemplo, se llama a VisitParagraphStart cuando se encuentra el principio de un párrafo de texto y se llama a VisitParagraphEnd cuando se encuentra el final de un párrafo de texto. Cada método DocumentVisitor.VisitXXX acepta el objeto correspondiente que encuentra para que pueda usarlo según sea necesario (digamos recuperar el formato), por ejemplo, tanto VisitParagraphStart como VisitParagraphEnd aceptan un objeto Paragraph.

Cada método DocumentVisitor.VisitXXX devuelve un valor VisitorAction que controla la enumeración de nodos. Puede solicitar continuar la enumeración, omitir el nodo actual (pero continuar con la enumeración) o detener la enumeración de nodos.

Estos son los pasos que debe seguir para determinar y extraer mediante programación varias partes de un documento:

Crea una clase derivada de DocumentVisitor.
Anule y proporcione implementaciones para algunos o todos los métodos DocumentVisitor.VisitXXX para realizar algunas operaciones personalizadas.
Llame a Node.accept en el nodo desde donde desea iniciar la enumeración. Por ejemplo, si desea enumerar todo el documento, use accept(DocumentVisitor).

DocumentVisitor proporciona implementaciones predeterminadas para todos los DocumentVisitor.VisitXXX métodos. Esto facilita la creación de nuevos visitantes de documentos, ya que solo se deben anular los métodos necesarios para el visitante en particular. No es necesario anular todos los métodos de visitante.

El siguiente ejemplo muestra cómo usar el patrón de visitante para agregar nuevas operaciones al modelo de objetos Aspose.Words. En este caso, creamos un convertidor de documentos simple a un formato de texto:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	ConvertDocToTxt convertToPlainText = new ConvertDocToTxt();
	// Note that every node in the object model has the accept method so the visiting
	// can be executed not only for the whole document, but for any node in the document.
	doc.accept(convertToPlainText);

	// Once the visiting is complete, we can retrieve the result of the operation,
	// That in this example, has accumulated in the visitor.
	System.out.println(convertToPlainText.getText());

view raw extract-content-using-document-visitor.java hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	/// <summary>
	/// Simple implementation of saving a document in the plain text format. Implemented as a Visitor.
	/// </summary>
	static class ConvertDocToTxt extends DocumentVisitor {
	public ConvertDocToTxt() {
	mIsSkipText = false;
	mBuilder = new StringBuilder();
	}

	/// <summary>
	/// Gets the plain text of the document that was accumulated by the visitor.
	/// </summary>
	public String getText() {
	return mBuilder.toString();
	}

	/// <summary>
	/// Called when a Run node is encountered in the document.
	/// </summary>
	public int visitRun(Run run) {
	appendText(run.getText());
	// Let the visitor continue visiting other nodes.
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldStart node is encountered in the document.
	/// </summary>
	public int visitFieldStart(FieldStart fieldStart) {
	// In Microsoft Word, a field code (such as "MERGEFIELD FieldName") follows
	// after a field start character. We want to skip field codes and output field.
	// Result only, therefore we use a flag to suspend the output while inside a field code.
	// Note this is a very simplistic implementation and will not work very well.
	// If you have nested fields in a document.
	mIsSkipText = true;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldSeparator node is encountered in the document.
	/// </summary>
	public int visitFieldSeparator(FieldSeparator fieldSeparator) {
	// Once reached a field separator node, we enable the output because we are
	// now entering the field result nodes.
	mIsSkipText = false;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldEnd node is encountered in the document.
	/// </summary>
	public int visitFieldEnd(FieldEnd fieldEnd) {
	// Make sure we enable the output when reached a field end because some fields
	// do not have field separator and do not have field result.
	mIsSkipText = false;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when visiting of a Paragraph node is ended in the document.
	/// </summary>
	public int visitParagraphEnd(Paragraph paragraph) {
	// When outputting to plain text we output Cr+Lf characters.
	appendText(ControlChar.CR_LF);
	return VisitorAction.CONTINUE;
	}

	public int visitBodyStart(Body body) {
	// We can detect beginning and end of all composite nodes such as Section, Body,
	// Table, Paragraph etc and provide custom handling for them.
	mBuilder.append("* Body Started *\r\n");
	return VisitorAction.CONTINUE;
	}

	public int visitBodyEnd(Body body) {
	mBuilder.append("* Body Ended *\r\n");
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a HeaderFooter node is encountered in the document.
	/// </summary>
	public int visitHeaderFooterStart(HeaderFooter headerFooter) {
	// Returning this value from a visitor method causes visiting of this
	// Node to stop and move on to visiting the next sibling node
	// The net effect in this example is that the text of headers and footers
	// Is not included in the resulting output
	return VisitorAction.SKIP_THIS_NODE;
	}

	/// <summary>
	/// Adds text to the current output. Honors the enabled/disabled output flag.
	/// </summary>
	private void appendText(String text) {
	if (!mIsSkipText)
	mBuilder.append(text);
	}

	private StringBuilder mBuilder;
	private boolean mIsSkipText;
	}

view raw convert-doc-to-txt.java hosted with ❤ by GitHub

Extraer Solo Texto

Las formas de recuperar texto del documento son:

Use Document.save con SaveFormat para guardar como texto sin formato en un archivo o secuencia
Use Node.toString y pase el parámetro SaveFormat.Text. Internamente, esto invoca guardar como texto en una secuencia de memoria y devuelve la cadena resultante
Utilice Node.getText para recuperar texto con todos los caracteres de control Microsoft Word, incluidos los códigos de campo
Implemente un DocumentVisitor personalizado para realizar una extracción personalizada

Usando `Node.GetText` y `Node.ToString`

Un documento de Word puede contener caracteres de control que designen elementos especiales como campo, final de celda, final de sección, etc. La lista completa de posibles caracteres de control de palabras se define en la clase ControlChar. El método GetText devuelve texto con todos los caracteres de carácter de control presentes en el nodo.

Llamar a ToString devuelve la representación de texto sin formato del documento solo sin caracteres de control. Para obtener más información sobre cómo exportar como texto sin formato, consulte Using SaveFormat.Text.

El siguiente ejemplo de código muestra la diferencia entre llamar a los métodos GetText y ToString en un nodo:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document();
	DocumentBuilder builder = new DocumentBuilder(doc);

	builder.insertField("MERGEFIELD Field");

	// When converted to text it will not retrieve fields code or special characters,
	// but will still contain some natural formatting characters such as paragraph markers etc.
	// This is the same as "viewing" the document as if it was opened in a text editor.
	System.out.println("ToString() Result: " + doc.toString(SaveFormat.TEXT));

view raw simple-extract-text.java hosted with ❤ by GitHub

Usando `SaveFormat.Text`

Este ejemplo guarda el documento de la siguiente manera:

Filtra los caracteres de campo y los códigos de campo, la forma, la nota al pie, la nota al final y las referencias de comentarios
Reemplaza los caracteres ControlChar.Cr del final del párrafo con ControlChar.CrLf combinaciones
Utiliza codificación UTF8

El siguiente ejemplo de código muestra cómo guardar un documento en formato TXT:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Document.docx");
	doc.save(getArtifactsDir() + "BaseConversions.DocxToTxt.txt");

view raw docx-to-txt.java hosted with ❤ by GitHub

Extraer Imágenes de Formas

Es posible que deba extraer imágenes de documentos para realizar algunas tareas. Aspose.Words también te permite hacer esto.

El siguiente ejemplo de código muestra cómo extraer imágenes de un documento:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Images.docx");

	NodeCollection shapes = doc.getChildNodes(NodeType.SHAPE, true);
	int imageIndex = 0;

	for (Shape shape : (Iterable<Shape>) shapes) {
	if (shape.hasImage()) {
	String imageFileName =
	MessageFormat.format("Image.ExportImages.{0}_{1}", imageIndex, FileFormatUtil.imageTypeToExtension(shape.getImageData().getImageType()));

	// Note, if you have only an image (not a shape with a text and the image),
	// you can use shape.getShapeRenderer().save(...) method to save the image.
	shape.getImageData().save(getArtifactsDir() + imageFileName);
	imageIndex++;
	}
	}

view raw extract-images.java hosted with ❤ by GitHub

Trabajar con rangos en Java Trabajar con Encabezados y pies de página en Java

Extraer Contenido entre Nodos en un Documento

Por Qué Extraer Contenido

Algoritmo de Extracción de Contenido

Cómo Extraer Contenido

Extraer Contenido Entre Párrafos

Extraer Contenido Entre Diferentes Tipos de Nodos

Extraer Contenido entre Párrafos Según el Estilo

Extraer Contenido Entre Ejecuciones Específicas

Extraer contenido mediante un Campo

Extraer Contenido de un Marcador

Extraer Contenido de un comentario

Extraer contenido usando DocumentVisitor

Extraer Solo Texto

Usando Node.GetText y Node.ToString

Usando SaveFormat.Text

Extraer Imágenes de Formas

Usando `Node.GetText` y `Node.ToString`

Usando `SaveFormat.Text`