Extrageți conținutul între nodurile dintr-un Document

Când lucrați cu documente, este important să puteți extrage cu ușurință conținut dintr-un anumit interval dintr-un document. Cu toate acestea, conținutul poate consta din elemente complexe, cum ar fi paragrafe, tabele, imagini etc.

Indiferent de conținutul care trebuie extras, metoda de extragere a conținutului va fi întotdeauna determinată de nodurile selectate pentru a extrage conținutul între ele. Acestea pot fi corpuri de text întregi sau rulări simple de text.

Există multe situații posibile și, prin urmare, multe tipuri diferite de noduri de luat în considerare la extragerea conținutului. De exemplu, poate doriți să extrageți conținut între:

Două paragrafe specifice
Runde specifice de text
Câmpuri de diferite tipuri, cum ar fi câmpuri de îmbinare
Începutul și sfârșitul intervalelor unui marcaj sau comentariu
Diverse corpuri de text conținute în secțiuni separate

În unele situații, poate fi necesar să combinați diferite tipuri de noduri, cum ar fi extragerea conținutului între un paragraf și un câmp sau între o rulare și un marcaj.

Acest articol oferă implementarea codului pentru extragerea textului între diferite noduri, precum și exemple de scenarii comune.

Aceste exemple sunt doar câteva demonstrații ale numeroaselor posibilități. Planificăm ca funcționalitatea de extragere a textului să facă parte din public API în viitor și nu va fi necesar niciun cod suplimentar. Între timp, nu ezitați să postați solicitările dvs. cu privire la această funcționalitate pe Aspose.Words forum.

De Ce Extrageți Conținutul

Adesea, scopul extragerii conținutului este duplicarea sau salvarea acestuia separat într-un document nou. De exemplu, puteți extrage conținut și:

Copiați-l într-un document separat
Convertiți o anumită parte a unui document în PDF sau imagine
Duplicați conținutul din document de mai multe ori
Lucrați cu conținut extras separat de restul documentului

Acest lucru poate fi realizat cu ușurință folosind Aspose.Words și implementarea codului de mai jos.

Extragerea Algoritmului De Conținut

Codul din această secțiune abordează toate situațiile posibile descrise mai sus cu o metodă generalizată și reutilizabilă. Schița generală a acestei tehnici implică:

Adunarea nodurilor care dictează zona de conținut care va fi extrasă din documentul dvs. Recuperarea acestor noduri este gestionată de utilizator în codul său, pe baza a ceea ce doresc să fie extras.
Trecerea acestor noduri la metoda ExtractContent furnizată mai jos. De asemenea, trebuie să treceți un parametru boolean care afirmă dacă aceste noduri, care acționează ca markeri, ar trebui incluse sau nu în extracție.
Preluarea unei liste de conținut clonat (noduri copiate) specificate pentru a fi extrase. Puteți utiliza această listă de noduri în orice mod aplicabil, de exemplu, creând un document nou care conține doar conținutul selectat.

Cum să extrageți conținut

Vom lucra cu documentul de mai jos în acest articol. După cum puteți vedea, conține o varietate de conținut. De asemenea, rețineți că documentul conține o a doua secțiune care începe în mijlocul primei pagini. Un marcaj și un comentariu sunt, de asemenea, prezente în document, dar nu sunt vizibile în captura de ecran de mai jos.

extract-content-aspose-words-java

Pentru a extrage conținutul din documentul dvs., trebuie să apelați metoda ExtractContent de mai jos și să treceți parametrii corespunzători.

Baza de bază a acestei metode implică găsirea nodurilor la nivel de bloc (paragrafe și tabele) și clonarea acestora pentru a crea copii identice. Dacă nodurile de marcare trecute sunt la nivel de bloc, atunci metoda este capabilă să copieze pur și simplu conținutul de la acel nivel și să-l adauge la matrice.

Cu toate acestea, dacă nodurile marker sunt inline (un copil al unui paragraf), atunci situația devine mai complexă, deoarece este necesar să împărțiți paragraful la nodul inline, fie că este vorba de o rulare, câmpuri de marcaj etc. Conținutul din nodurile părinte clonate care nu sunt prezente între markeri este eliminat. Acest proces este utilizat pentru a se asigura că nodurile inline vor păstra în continuare formatarea paragrafului părinte.

Metoda va rula, de asemenea, verificări asupra nodurilor trecute ca parametri și aruncă o excepție dacă oricare dintre noduri este nevalid. Parametrii care trebuie transmiși acestei metode sunt::

StartNode și EndNode. Primii doi parametri sunt nodurile care definesc unde trebuie să înceapă și să se termine extragerea conținutului. Aceste noduri pot fi atât la nivel de bloc (Paragraph, Table), fie la nivel de linie (de exemplu Run, FieldStart, BookmarkStart etc.):
1. Pentru a trece un câmp, trebuie să treceți obiectul FieldStart corespunzător.
2. Pentru a trece marcajele, nodurile BookmarkStart și BookmarkEnd trebuie trecute.
3. Pentru a transmite comentarii, ar trebui utilizate nodurile CommentRangeStart și CommentRangeEnd.
IsInclusive. Definește dacă markerii sunt incluși în extracție sau nu. Dacă această opțiune este setată la false și același nod sau noduri consecutive sunt transmise, atunci o listă goală va fi returnată:
1. Dacă un nod FieldStart este trecut, atunci această opțiune definește dacă întregul câmp trebuie inclus sau exclus.
2. Dacă este trecut un nod BookmarkStart sau BookmarkEnd, Această opțiune definește dacă marcajul este inclus sau doar conținutul dintre intervalul de marcaje.
3. Dacă un nod CommentRangeStart sau CommentRangeEnd este trecut, această opțiune definește dacă comentariul în sine trebuie inclus sau doar conținutul din intervalul de comentarii.

Implementarea metodei ExtractContent Puteți găsi aici. Această metodă va fi menționată în scenariile din acest articol.

De asemenea, vom defini o metodă personalizată pentru a genera cu ușurință un document din nodurile extrase. Această metodă este utilizată în multe dintre scenariile de mai jos și creează pur și simplu un document nou și importă conținutul extras în acesta.

Următorul exemplu de cod arată cum să luați o listă de noduri și să le inserați într-un document nou:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	public static Document generateDocument(Document srcDoc, ArrayList<Node> nodes) throws Exception
	{
	Document dstDoc = new Document();
	// Remove the first paragraph from the empty document.
	dstDoc.getFirstSection().getBody().removeAllChildren();

	// Import each node from the list into the new document. Keep the original formatting of the node.
	NodeImporter importer = new NodeImporter(srcDoc, dstDoc, ImportFormatMode.KEEP_SOURCE_FORMATTING);
	for (Node node : nodes)
	{
	Node importNode = importer.importNode(node, true);
	dstDoc.getFirstSection().getBody().appendChild(importNode);
	}

	return dstDoc;
	}

view raw generate-document.java hosted with ❤ by GitHub

Extrageți Conținutul Între Paragrafe

Acest lucru demonstrează modul de utilizare a metodei de mai sus pentru a extrage conținut între paragrafe specifice. În acest caz, dorim să extragem corpul scrisorii găsite în prima jumătate a documentului. Putem spune că aceasta este între paragrafele 7 și 11.

Codul de mai jos îndeplinește această sarcină. Paragrafele corespunzătoare sunt extrase folosind metoda getChild din document și trecând indicii specificați. Apoi trecem aceste noduri la metoda ExtractContent și afirmăm că acestea trebuie incluse în extracție. Această metodă va returna conținutul copiat între aceste noduri care sunt apoi inserate într-un document nou.

Următorul exemplu de cod arată cum să extrageți conținutul între paragrafe specifice folosind metoda ExtractContent de mai sus:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.getFirstSection().getBody().getChild(NodeType.PARAGRAPH, 6, true);
	Paragraph endPara = (Paragraph) doc.getFirstSection().getBody().getChild(NodeType.PARAGRAPH, 10, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara, endPara, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenParagraphs.docx");

view raw extract-content-between-paragraphs.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Documentul de ieșire conține cele două paragrafe care au fost extrase.

extract-content-result-aspose-words-java

Extrageți conținutul între diferite tipuri de noduri

Putem extrage conținut între orice combinații de noduri la nivel de bloc sau inline. În acest scenariu de mai jos vom extrage conținutul dintre primul paragraf și tabelul din a doua secțiune inclusiv. Obținem nodurile markerilor apelând metoda getFirstParagraph și getChild din a doua secțiune a documentului pentru a prelua nodurile corespunzătoare Paragraph și Table. Pentru o ușoară variație, să duplicăm conținutul și să-l introducem sub original.

Următorul exemplu de cod arată cum să extrageți conținutul dintre un paragraf și un tabel folosind metoda ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph startPara = (Paragraph) doc.getLastSection().getChild(NodeType.PARAGRAPH, 2, true);
	Table endTable = (Table) doc.getLastSection().getChild(NodeType.TABLE, 0, true);
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara, endTable, true);

	// Let's reverse the array to make inserting the content back into the document easier.
	Collections.reverse(extractedNodes);
	for (Node extractedNode : extractedNodes)
	// Insert the last node from the reversed list.
	endTable.getParentNode().insertAfter(extractedNode, endTable);

	doc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBlockLevelNodes.docx");

view raw extract-content-between-block-level-nodes.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Conținutul dintre paragraf și tabel a fost duplicat mai jos este rezultatul.

extract-content-between-paragraphs-aspose-words-java

Extrageți conținutul între paragrafe pe baza stilului

Poate fi necesar să extrageți conținutul între paragrafe de același stil sau diferite, cum ar fi între paragrafe marcate cu stiluri de titlu.

Codul de mai jos arată cum se poate realiza acest lucru. Este un exemplu simplu care va extrage conținutul dintre prima instanță a stilurilor “Heading 1” și “Header 3” fără a extrage și titlurile. Pentru a face acest lucru, setăm ultimul parametru la false, care specifică faptul că nodurile marker nu ar trebui incluse.

Într-o implementare corectă, aceasta ar trebui să fie executată într-o buclă pentru a extrage conținut între toate paragrafele acestor stiluri din document. Conținutul extras este copiat într-un document nou.

Următorul exemplu de cod arată cum să extrageți conținut între paragrafe cu stiluri specifice folosind metoda ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	// Gather a list of the paragraphs using the respective heading styles.
	ArrayList<Paragraph> parasStyleHeading1 = paragraphsByStyleName(doc, "Heading 1");
	ArrayList<Paragraph> parasStyleHeading3 = paragraphsByStyleName(doc, "Heading 3");

	// Use the first instance of the paragraphs with those styles.
	Node startPara1 = parasStyleHeading1.get(0);
	Node endPara1 = parasStyleHeading3.get(0);

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startPara1, endPara1, false);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenParagraphStyles.docx");

view raw extract-content-between-paragraph-styles.java hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	public static ArrayList<Paragraph> paragraphsByStyleName(Document doc, String styleName)
	{
	// Create an array to collect paragraphs of the specified style.
	ArrayList<Paragraph> paragraphsWithStyle = new ArrayList<Paragraph>();

	NodeCollection paragraphs = doc.getChildNodes(NodeType.PARAGRAPH, true);

	// Look through all paragraphs to find those with the specified style.
	for (Paragraph paragraph : (Iterable<Paragraph>) paragraphs)
	{
	if (paragraph.getParagraphFormat().getStyle().getName().equals(styleName))
	paragraphsWithStyle.add(paragraph);
	}

	return paragraphsWithStyle;
	}

view raw paragraphs-by-style-name.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Mai jos este rezultatul operației anterioare.

extract-content-between-paragraph-style-aspose-words-java

Extrageți Conținutul Între Anumite Rulări

Puteți extrage conținut între noduri inline, cum ar fi un Run, de asemenea. Runs din paragrafe diferite pot fi transmise ca markeri. Codul de mai jos arată cum să extrageți text specific între același nod Paragraph.

Următorul exemplu de cod arată cum să extrageți conținut între anumite runde ale aceluiași paragraf folosind metoda ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Paragraph para = (Paragraph) doc.getChild(NodeType.PARAGRAPH, 7, true);
	Run startRun = para.getRuns().get(1);
	Run endRun = para.getRuns().get(4);

	// Extract the content between these nodes in the document. Include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startRun, endRun, true);
	for (Node extractedNode : extractedNodes)
	System.out.println(extractedNode.toString(SaveFormat.TEXT));

view raw extract-content-between-runs.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Textul extras este afișat pe consolă.

extract-content-between-runs-aspose-words-java

Extrageți conținut folosind un câmp

Pentru a utiliza un câmp ca marker, nodul FieldStart ar trebui trecut. Ultimul parametru al metodei ExtractContent va defini dacă întregul câmp trebuie inclus sau nu. Să extragem conținutul dintre câmpul de îmbinare “FullName " și un paragraf din document. Folosim metoda moveToMergeField a clasei DocumentBuilder. Aceasta va returna nodul FieldStart din numele câmpului de îmbinare transmis acestuia.

În cazul nostru, să setăm ultimul parametru trecut la metoda ExtractContent la false pentru a exclude câmpul din extracție. Vom reda conținutul extras la PDF.

Următorul exemplu de cod arată cum să extrageți conținut între un anumit câmp și paragraf din document folosind metoda ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");
	DocumentBuilder builder = new DocumentBuilder(doc);
	// Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	// We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder.moveToMergeField("Fullname", false, false);

	// The builder cursor should be positioned at the start of the field.
	FieldStart startField = (FieldStart) builder.getCurrentNode();
	Paragraph endPara = (Paragraph) doc.getFirstSection().getChild(NodeType.PARAGRAPH, 5, true);
	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	ArrayList<Node> extractedNodes = ExtractContentHelper.extractContent(startField, endPara, false);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodes);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentUsingField.docx");

view raw extract-content-using-field.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Conținutul extras între câmp și paragraf, fără nodurile markerului de câmp și paragraf redate la PDF.

extract-content-using-field-aspose-words-java

Extrageți conținut dintr-un marcaj

Într-un document, conținutul definit într-un marcaj este încapsulat de nodurile BookmarkStart și BookmarkEnd. Conținutul găsit între aceste două noduri alcătuiesc marcajul. Puteți trece oricare dintre aceste noduri ca orice marker, chiar și cele din marcaje diferite, atâta timp cât marcatorul de pornire apare înainte de marcatorul de încheiere din document.

În documentul nostru de probă, avem un marcaj, numit “Bookmark1”. Conținutul acestui marcaj este evidențiat conținut în documentul nostru:

extract-content-from-bookmark-aspose-words-java-1

Vom extrage acest conținut într-un document nou folosind codul de mai jos. Opțiunea parametru IsInclusive arată cum să păstrați sau să renunțați la marcaj.

Următorul exemplu de cod arată cum se extrage conținutul la care se face referire la un marcaj folosind metoda ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	Bookmark bookmark = doc.getRange().getBookmarks().get("Bookmark1");
	BookmarkStart bookmarkStart = bookmark.getBookmarkStart();
	BookmarkEnd bookmarkEnd = bookmark.getBookmarkEnd();

	// Firstly, extract the content between these nodes, including the bookmark.
	ArrayList<Node> extractedNodesInclusive = ExtractContentHelper.extractContent(bookmarkStart, bookmarkEnd, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesInclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBookmark.IncludingBookmark.docx");

	// Secondly, extract the content between these nodes this time without including the bookmark.
	ArrayList<Node> extractedNodesExclusive = ExtractContentHelper.extractContent(bookmarkStart, bookmarkEnd, false);

	dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesExclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenBookmark.WithoutBookmark.docx");

view raw extract-content-between-bookmark.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Ieșirea extrasă cu parametrul IsInclusive setat la true. Copia va păstra și marcajul.

extract-content-from-bookmark-aspose-words-java-2

Ieșirea extrasă cu parametrul IsInclusive setat la false. Copia conține conținutul, dar fără marcaj.

extract-content-from-bookmark-aspose-words-java-3

Extrageți conținut dintr-un comentariu

Un comentariu este format din nodurile CommentRangeStart, CommentRangeEnd și comentariu. Toate aceste noduri sunt în linie. Primele două noduri încapsulează conținutul din document la care se face referire prin comentariu, așa cum se vede în captura de ecran de mai jos.

Nodul Comment în sine este un InlineStory care poate conține paragrafe și rulări. Reprezintă mesajul comentariului văzut ca un balon de comentarii în panoul de revizuire. Deoarece acest nod este inline și descendent al unui corp, puteți extrage și conținutul din interiorul acestui mesaj.

În documentul nostru avem un comentariu. Să-l afișăm afișând marcajul în fila Revizuire:

extract-content-from-comment-aspose-words-java-1

Comentariul cuprinde titlul, primul paragraf și tabelul din a doua secțiune. Să extragem acest comentariu într-un document nou. Opțiunea IsInclusive dictează dacă comentariul în sine este păstrat sau eliminat.

Următorul exemplu de cod arată cum să faceți acest lucru este mai jos:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	CommentRangeStart commentStart = (CommentRangeStart) doc.getChild(NodeType.COMMENT_RANGE_START, 0, true);
	CommentRangeEnd commentEnd = (CommentRangeEnd) doc.getChild(NodeType.COMMENT_RANGE_END, 0, true);

	// Firstly, extract the content between these nodes including the comment as well.
	ArrayList<Node> extractedNodesInclusive = ExtractContentHelper.extractContent(commentStart, commentEnd, true);

	Document dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesInclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenCommentRange.IncludingComment.docx");

	// Secondly, extract the content between these nodes without the comment.
	ArrayList<Node> extractedNodesExclusive = ExtractContentHelper.extractContent(commentStart, commentEnd, false);

	dstDoc = ExtractContentHelper.generateDocument(doc, extractedNodesExclusive);
	dstDoc.save(getArtifactsDir() + "ExtractContent.ExtractContentBetweenCommentRange.WithoutComment.docx");

view raw extract-content-between-comment-range.java hosted with ❤ by GitHub

Puteți descărca fișierul eșantion al acestui exemplu din Aspose.Words GitHub.

Mai întâi ieșirea extrasă cu parametrul IsInclusive setat la true. Copia va conține și comentariul.

extract-content-from-comment-aspose-words-java-2

În al doilea rând, ieșirea extrasă cu isInclusive setată la false. Copia conține conținutul, dar fără comentariu.

extract-content-from-comment-aspose-words-java-12

Extrageți conținut folosind DocumentVisitor

Aspose.Words poate fi folosit nu numai pentru crearea documentelor Microsoft Word prin construirea lor dinamică sau îmbinarea șabloanelor cu date, ci și pentru analizarea documentelor pentru a extrage elemente de document separate, cum ar fi anteturi, subsoluri, paragrafe, tabele, imagini și altele. O altă sarcină posibilă este de a găsi tot textul de formatare sau stil specific.

Utilizați clasa DocumentVisitor pentru a implementa acest scenariu de utilizare. Această clasă corespunde binecunoscutului model de design al vizitatorilor. Cu DocumentVisitor, puteți defini și executa operații personalizate care necesită enumerare peste arborele de documente.

DocumentVisitor oferă un set de VisitXXX metode care sunt invocate atunci când se întâlnește un anumit element de document (nod). De exemplu, VisitParagraphStart este apelat când se găsește începutul unui paragraf text și VisitParagraphEnd este apelat când se găsește sfârșitul unui paragraf text. Fiecare metodă DocumentVisitor.VisitXXX acceptă obiectul corespunzător pe care îl întâlnește, astfel încât să îl puteți utiliza după cum este necesar (de exemplu, recuperați formatarea), de exemplu, atât VisitParagraphStart, cât și VisitParagraphEnd acceptă un obiect Paragraph.

Fiecare metodă DocumentVisitor.VisitXXX returnează o valoare VisitorAction care controlează enumerarea nodurilor. Puteți solicita fie să continuați enumerarea, săriți nodul curent (dar continuați enumerarea), fie să opriți enumerarea nodurilor.

Aceștia sunt pașii pe care trebuie să îi urmați pentru a determina și extrage programatic diferite părți ale unui document:

Creați o clasă derivată din DocumentVisitor.
Suprascrieți și furnizați implementări pentru unele sau toate metodele DocumentVisitor.VisitXXX pentru a efectua unele operații personalizate.
Apelați Node.accept pe nodul de unde doriți să începeți enumerarea. De exemplu, dacă doriți să enumerați întregul document, utilizați accept(DocumentVisitor).

DocumentVisitor oferă implementări implicite pentru toate metodele DocumentVisitor.VisitXXX. Acest lucru facilitează crearea de noi vizitatori de documente, deoarece numai metodele necesare pentru un anumit vizitator trebuie înlocuite. Nu este necesar să suprascrieți toate metodele vizitatorilor.

Următorul exemplu arată cum să utilizați modelul vizitator pentru a adăuga noi operațiuni la modelul de obiect Aspose.Words. În acest caz, creăm un simplu convertor de documente într-un format text:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Extract content.docx");

	ConvertDocToTxt convertToPlainText = new ConvertDocToTxt();
	// Note that every node in the object model has the accept method so the visiting
	// can be executed not only for the whole document, but for any node in the document.
	doc.accept(convertToPlainText);

	// Once the visiting is complete, we can retrieve the result of the operation,
	// That in this example, has accumulated in the visitor.
	System.out.println(convertToPlainText.getText());

view raw extract-content-using-document-visitor.java hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	/// <summary>
	/// Simple implementation of saving a document in the plain text format. Implemented as a Visitor.
	/// </summary>
	static class ConvertDocToTxt extends DocumentVisitor {
	public ConvertDocToTxt() {
	mIsSkipText = false;
	mBuilder = new StringBuilder();
	}

	/// <summary>
	/// Gets the plain text of the document that was accumulated by the visitor.
	/// </summary>
	public String getText() {
	return mBuilder.toString();
	}

	/// <summary>
	/// Called when a Run node is encountered in the document.
	/// </summary>
	public int visitRun(Run run) {
	appendText(run.getText());
	// Let the visitor continue visiting other nodes.
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldStart node is encountered in the document.
	/// </summary>
	public int visitFieldStart(FieldStart fieldStart) {
	// In Microsoft Word, a field code (such as "MERGEFIELD FieldName") follows
	// after a field start character. We want to skip field codes and output field.
	// Result only, therefore we use a flag to suspend the output while inside a field code.
	// Note this is a very simplistic implementation and will not work very well.
	// If you have nested fields in a document.
	mIsSkipText = true;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldSeparator node is encountered in the document.
	/// </summary>
	public int visitFieldSeparator(FieldSeparator fieldSeparator) {
	// Once reached a field separator node, we enable the output because we are
	// now entering the field result nodes.
	mIsSkipText = false;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a FieldEnd node is encountered in the document.
	/// </summary>
	public int visitFieldEnd(FieldEnd fieldEnd) {
	// Make sure we enable the output when reached a field end because some fields
	// do not have field separator and do not have field result.
	mIsSkipText = false;
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when visiting of a Paragraph node is ended in the document.
	/// </summary>
	public int visitParagraphEnd(Paragraph paragraph) {
	// When outputting to plain text we output Cr+Lf characters.
	appendText(ControlChar.CR_LF);
	return VisitorAction.CONTINUE;
	}

	public int visitBodyStart(Body body) {
	// We can detect beginning and end of all composite nodes such as Section, Body,
	// Table, Paragraph etc and provide custom handling for them.
	mBuilder.append("* Body Started *\r\n");
	return VisitorAction.CONTINUE;
	}

	public int visitBodyEnd(Body body) {
	mBuilder.append("* Body Ended *\r\n");
	return VisitorAction.CONTINUE;
	}

	/// <summary>
	/// Called when a HeaderFooter node is encountered in the document.
	/// </summary>
	public int visitHeaderFooterStart(HeaderFooter headerFooter) {
	// Returning this value from a visitor method causes visiting of this
	// Node to stop and move on to visiting the next sibling node
	// The net effect in this example is that the text of headers and footers
	// Is not included in the resulting output
	return VisitorAction.SKIP_THIS_NODE;
	}

	/// <summary>
	/// Adds text to the current output. Honors the enabled/disabled output flag.
	/// </summary>
	private void appendText(String text) {
	if (!mIsSkipText)
	mBuilder.append(text);
	}

	private StringBuilder mBuilder;
	private boolean mIsSkipText;
	}

view raw convert-doc-to-txt.java hosted with ❤ by GitHub

Extrageți Numai Text

Modalitățile de recuperare a textului din document sunt::

Utilizați Document.save cu SaveFormat pentru a salva ca text simplu într-un fișier sau flux
Utilizați Node.toString și treceți parametrul SaveFormat.Text. Intern, aceasta invocă salvare ca text într-un flux de memorie și returnează șirul rezultat
Utilizați Node.getText pentru a prelua text cu toate Microsoft Word caractere de control, inclusiv coduri de câmp
Implementați un DocumentVisitor personalizat pentru a efectua extragerea personalizată

Folosind `Node.GetText` și `Node.ToString`

Un document Word poate conține caractere de control care desemnează elemente speciale, cum ar fi câmpul, sfârșitul celulei, sfârșitul secțiunii etc. Lista completă a caracterelor posibile de control al cuvintelor este definită în clasa ControlChar. Metoda GetText returnează text cu toate caracterele caracterelor de control prezente în nod.

Apelarea ToString returnează reprezentarea textului simplu a documentului numai fără caractere de control. Pentru informații suplimentare privind exportul ca text simplu, a se vedea Using SaveFormat.Text.

Următorul exemplu de cod arată diferența dintre apelarea metodelor GetText și ToString pe un nod:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document();
	DocumentBuilder builder = new DocumentBuilder(doc);

	builder.insertField("MERGEFIELD Field");

	// When converted to text it will not retrieve fields code or special characters,
	// but will still contain some natural formatting characters such as paragraph markers etc.
	// This is the same as "viewing" the document as if it was opened in a text editor.
	System.out.println("ToString() Result: " + doc.toString(SaveFormat.TEXT));

view raw simple-extract-text.java hosted with ❤ by GitHub

Folosind `SaveFormat.Text`

Acest exemplu salvează documentul după cum urmează:

Filtrează caracterele de câmp și codurile de câmp, forma, nota de subsol, nota finală și referințele la comentarii
Înlocuiește sfârșitul paragrafului ControlChar.Cr caractere cu ControlChar.CrLf combinații
Folosește codificarea UTF8

Următorul exemplu de cod arată cum să salvați un document în format TXT:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Document.docx");
	doc.save(getArtifactsDir() + "BaseConversions.DocxToTxt.txt");

view raw docx-to-txt.java hosted with ❤ by GitHub

Extrageți imagini din forme

Poate fi necesar să extrageți imagini de document pentru a efectua unele sarcini. Aspose.Words vă permite să faceți și acest lucru.

Următorul exemplu de cod arată cum să extrageți imagini dintr-un document:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Java.git.
	Document doc = new Document(getMyDir() + "Images.docx");

	NodeCollection shapes = doc.getChildNodes(NodeType.SHAPE, true);
	int imageIndex = 0;

	for (Shape shape : (Iterable<Shape>) shapes) {
	if (shape.hasImage()) {
	String imageFileName =
	MessageFormat.format("Image.ExportImages.{0}_{1}", imageIndex, FileFormatUtil.imageTypeToExtension(shape.getImageData().getImageType()));

	// Note, if you have only an image (not a shape with a text and the image),
	// you can use shape.getShapeRenderer().save(...) method to save the image.
	shape.getImageData().save(getArtifactsDir() + imageFileName);
	imageIndex++;
	}
	}

view raw extract-images.java hosted with ❤ by GitHub

Lucrul cu intervale în Java Lucrul cu anteturi și subsoluri în Java

Extrageți conținutul între nodurile dintr-un Document

De Ce Extrageți Conținutul

Extragerea Algoritmului De Conținut

Cum să extrageți conținut

Extrageți Conținutul Între Paragrafe

Extrageți conținutul între diferite tipuri de noduri

Extrageți conținutul între paragrafe pe baza stilului

Extrageți Conținutul Între Anumite Rulări

Extrageți conținut folosind un câmp

Extrageți conținut dintr-un marcaj

Extrageți conținut dintr-un comentariu

Extrageți conținut folosind DocumentVisitor

Extrageți Numai Text

Folosind Node.GetText și Node.ToString

Folosind SaveFormat.Text

Extrageți imagini din forme

Folosind `Node.GetText` și `Node.ToString`

Folosind `SaveFormat.Text`