Wyodrębnij zawartość między węzłami w dokumencie

Podczas pracy z dokumentami ważne jest, aby móc łatwo wyodrębnić zawartość z określonego zakresu w dokumencie. Jednak treść może składać się ze złożonych elementów, takich jak akapity, tabele, obrazy itp.

Niezależnie od tego, jaką zawartość należy wyodrębnić, metoda wyodrębniania tej zawartości będzie zawsze określana przez węzły, które mają wyodrębnić zawartość między nimi. Mogą to być całe bryły tekstu lub proste przebiegi tekstu.

Istnieje wiele możliwych sytuacji, a zatem wiele różnych typów węzłów, które należy wziąć pod uwagę podczas wyodrębniania zawartości. Na przykład możesz chcieć wyodrębnić zawartość między:

Dwa konkretne akapity
Konkretne przebiegi tekstu
Pola różnych typów, takie jak pola scalania
Zakresy początkowe i końcowe zakładki lub komentarza
Różne treści tekstu zawarte w oddzielnych sekcjach

W niektórych sytuacjach może być nawet konieczne połączenie różnych typów węzłów, takich jak wyodrębnianie zawartości między akapitem a polem lub między uruchomieniem a zakładką.

Ten artykuł zawiera implementację kodu do wyodrębniania tekstu między różnymi węzłami, a także przykłady typowych scenariuszy.

Te przykłady to tylko kilka demonstracji wielu możliwości. Planujemy, aby funkcja ekstrakcji tekstu była częścią publiczności API w przyszłości i nie będzie wymagany żaden dodatkowy kod. W międzyczasie możesz zamieścić swoje prośby dotyczące tej funkcji na Aspose.Words forum.

Po Co Wyodrębniać Zawartość

Często celem wyodrębnienia treści jest zduplikowanie lub zapisanie jej osobno w nowym dokumencie. Na przykład możesz wyodrębnić zawartość i:

Skopiuj go do osobnego dokumentu
Konwertuj określoną część dokumentu na PDF lub obraz
Wielokrotne powielanie treści w dokumencie
Praca z wyodrębnioną treścią oddzieloną od reszty dokumentu

Można to łatwo osiągnąć za pomocą Aspose.Words i poniższej implementacji kodu.

Algorytm Wyodrębniania Treści

Kod w tej sekcji Dotyczy wszystkich możliwych sytuacji opisanych powyżej za pomocą jednej uogólnionej i wielokrotnego użytku metody. Ogólny zarys tej techniki obejmuje:

Zbieranie węzłów, które dyktują obszar treści, który zostanie wyodrębniony z dokumentu. Pobieranie tych węzłów jest obsługiwane przez użytkownika w ich kodzie, na podstawie tego, co chcą wyodrębnić.
Przekazywanie tych węzłów do metody ExtractContent podanej poniżej. Musisz również przekazać parametr logiczny, który określa, czy te węzły, działające jako znaczniki, powinny być uwzględnione w ekstrakcji, czy nie.
Pobieranie listy sklonowanej zawartości (skopiowanych węzłów) określonej do wyodrębnienia. Możesz użyć tej listy węzłów w dowolny odpowiedni sposób, na przykład tworząc nowy dokument zawierający tylko wybraną zawartość.

Jak wyodrębnić zawartość

Aby wyodrębnić zawartość z dokumentu, musisz wywołać poniższą metodę ExtractContent i przekazać odpowiednie parametry. Podstawą tej metody jest znalezienie węzłów na poziomie bloku (akapitów i tabel) i klonowanie ich w celu utworzenia identycznych kopii. Jeśli przekazane węzły znaczników są na poziomie bloku, metoda jest w stanie po prostu skopiować zawartość na tym poziomie i dodać ją do tablicy.

Jeśli jednak węzły znaczników są wbudowane (podrzędne akapitu), sytuacja staje się bardziej złożona, ponieważ konieczne jest podzielenie akapitu w węźle wbudowanym, czy to run, pola zakładek itp. Zawartość w sklonowanych węzłach nadrzędnych nieobecnych między znacznikami jest usuwana. Ten proces służy do zapewnienia, że węzły wbudowane nadal zachowają formatowanie akapitu nadrzędnego. Metoda przeprowadzi również kontrole węzłów przekazanych jako parametry i zgłasza wyjątek, jeśli którykolwiek z węzłów jest nieprawidłowy. Parametry, które należy przekazać tej metodzie, to:

StartNode i EndNode. Pierwsze dwa parametry to węzły, które określają, gdzie ekstrakcja zawartości ma się rozpocząć i zakończyć odpowiednio. Węzły te mogą być zarówno na poziomie bloku (akapit, tabela), jak i na poziomie wbudowanym (np. Run, FieldStart, BookmarkStart itp.):
1. Aby przekazać pole, należy przekazać odpowiedni obiekt FieldStart.
2. Aby przekazać zakładki, należy przekazać węzły BookmarkStart i BookmarkEnd.
3. Aby przekazać komentarze, należy użyć węzłów CommentRangeStart i CommentRangeEnd.
IsInclusive. Określa, czy znaczniki są zawarte w ekstrakcji, czy nie. Jeśli ta opcja jest ustawiona na false i przekazywany jest ten sam węzeł lub kolejne węzły, zostanie zwrócona pusta lista:
1. Jeśli zostanie przekazany węzeł FieldStart, ta opcja określa, czy całe pole ma zostać uwzględnione, czy wykluczone.
2. Jeśli zostanie przekazany węzeł BookmarkStart LUB BookmarkEnd, Ta opcja określa, czy zakładka jest dołączona, czy tylko zawartość między zakresem zakładek.
3. Jeśli zostanie przekazany węzeł CommentRangeStart LUB CommentRangeEnd, Ta opcja określa, czy sam komentarz ma zostać uwzględniony, czy tylko zawartość w zakresie komentarzy.

Implementację metody ExtractContent można znaleźć tutaj. Ta metoda zostanie omówiona w scenariuszach w tym artykule.

Zdefiniujemy również niestandardową metodę łatwego generowania dokumentu z wyodrębnionych węzłów. Ta metoda jest używana w wielu poniższych scenariuszach i po prostu tworzy nowy dokument i importuje do niego wyodrębnioną zawartość.

Poniższy przykład kodu pokazuje, jak pobrać listę węzłów i wstawić je do nowego dokumentu.

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	static SharedPtr<Document> GenerateDocument(SharedPtr<Document> srcDoc, SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> nodes)
	{
	auto dstDoc = MakeObject<Document>();
	// Remove the first paragraph from the empty document.
	dstDoc->get_FirstSection()->get_Body()->RemoveAllChildren();

	// Import each node from the list into the new document. Keep the original formatting of the node.
	auto importer = MakeObject<NodeImporter>(srcDoc, dstDoc, ImportFormatMode::KeepSourceFormatting);
	for (const auto& node : nodes)
	{
	SharedPtr<Node> importNode = importer->ImportNode(node, true);
	dstDoc->get_FirstSection()->get_Body()->AppendChild(importNode);
	}

	return dstDoc;
	}

view raw generate-document.h hosted with ❤ by GitHub

Wyodrębnij Zawartość Między Akapitami

To pokazuje, jak użyć powyższej metody do wyodrębnienia treści między określonymi akapitami. W takim przypadku chcemy wyodrębnić treść listu znalezionego w pierwszej połowie dokumentu. Możemy powiedzieć, że jest to między 7.a 11. akapitem.

Poniższy kod wykonuje to zadanie. Odpowiednie akapity są wyodrębniane przy użyciu metody GetChild w dokumencie i przekazują określone indeksy. Następnie przekazujemy te węzły do metody ExtractContent i stwierdzamy, że mają one zostać uwzględnione w ekstrakcji. Ta metoda zwróci skopiowaną zawartość między tymi węzłami, które są następnie wstawiane do nowego dokumentu.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między określonymi akapitami przy użyciu powyższej metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto startPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->get_Body()->GetChild(NodeType::Paragraph, 6, true));
	auto endPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->get_Body()->GetChild(NodeType::Paragraph, 10, true));
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara, endPara, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenParagraphs.docx");

view raw extract-content-between-paragraphs.h hosted with ❤ by GitHub

Wyodrębnij zawartość między różnymi typami węzłów

Możemy wyodrębnić zawartość między dowolnymi kombinacjami węzłów na poziomie bloku lub wbudowanych. W tym scenariuszu poniżej wyodrębnimy zawartość między pierwszym akapitem a tabelą w drugiej sekcji włącznie. Otrzymujemy węzły znaczników, wywołując metodę Body.FirstParagraph i GetChild w drugiej sekcji dokumentu, aby pobrać odpowiednie węzły akapitu i tabeli. Dla niewielkiej zmiany zamiast tego zduplikujmy zawartość i wstawmy ją poniżej oryginału.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między akapitem a tabelą za pomocą metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto startPara = System::ExplicitCast<Paragraph>(doc->get_LastSection()->GetChild(NodeType::Paragraph, 2, true));
	auto endTable = System::ExplicitCast<Table>(doc->get_LastSection()->GetChild(NodeType::Table, 0, true));
	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara, endTable, true);

	// Let's reverse the array to make inserting the content back into the document easier.
	extractedNodes->Reverse();
	for (SharedPtr<Node> extractedNode : extractedNodes)
	// Insert the last node from the reversed list.
	endTable->get_ParentNode()->InsertAfter(extractedNode, endTable);

	doc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBlockLevelNodes.docx");

view raw extract-content-between-block-level-nodes.h hosted with ❤ by GitHub

Wyodrębnij zawartość między akapitami na podstawie stylu

Może być konieczne wyodrębnienie zawartości między akapitami tego samego lub różnych stylów, na przykład między akapitami oznaczonymi stylami nagłówków. Poniższy kod pokazuje, jak to osiągnąć. Jest to prosty przykład, który wyodrębni zawartość między pierwszą instancją stylów" Heading 1 “i” Header 3 " bez wyodrębniania nagłówków. W tym celu ustawiamy ostatni parametr na false, który określa, że węzły znaczników nie powinny być uwzględniane.

We właściwej implementacji powinno to być uruchamiane w pętli, aby wyodrębnić zawartość między wszystkimi akapitami tych stylów z dokumentu. Wyodrębniona zawartość jest kopiowana do nowego dokumentu.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między akapitami za pomocą określonych stylów przy użyciu metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	// Gather a list of the paragraphs using the respective heading styles.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> parasStyleHeading1 = ParagraphsByStyleName(doc, u"Heading 1");
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> parasStyleHeading3 = ParagraphsByStyleName(doc, u"Heading 3");

	// Use the first instance of the paragraphs with those styles.
	SharedPtr<Node> startPara1 = parasStyleHeading1->idx_get(0);
	SharedPtr<Node> endPara1 = parasStyleHeading3->idx_get(0);

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startPara1, endPara1, false);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenParagraphStyles.docx");

view raw extract-content-between-paragraph-styles.h hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	static SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> ParagraphsByStyleName(SharedPtr<Document> doc, System::String styleName)
	{
	// Create an array to collect paragraphs of the specified style.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Paragraph>>> paragraphsWithStyle =
	MakeObject<System::Collections::Generic::List<SharedPtr<Paragraph>>>();

	SharedPtr<NodeCollection> paragraphs = doc->GetChildNodes(NodeType::Paragraph, true);

	// Look through all paragraphs to find those with the specified style.
	for (const auto& paragraph : System::IterateOver<Paragraph>(paragraphs))
	{
	if (paragraph->get_ParagraphFormat()->get_Style()->get_Name() == styleName)
	{
	paragraphsWithStyle->Add(paragraph);
	}
	}

	return paragraphsWithStyle;
	}

view raw paragraphs-by-style-name.h hosted with ❤ by GitHub

Wyodrębnij Zawartość Między Określonymi Przebiegami

Możesz także wyodrębnić zawartość między węzłami wbudowanymi, takimi jak Run. Runs z różnych akapitów mogą być przekazywane jako znaczniki. Poniższy kod pokazuje, jak wyodrębnić określony tekst pomiędzy tym samym węzłem Paragraph.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między określonymi przebiegami tego samego akapitu przy użyciu metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto para = System::ExplicitCast<Paragraph>(doc->GetChild(NodeType::Paragraph, 7, true));
	SharedPtr<Run> startRun = para->get_Runs()->idx_get(1);
	SharedPtr<Run> endRun = para->get_Runs()->idx_get(4);

	// Extract the content between these nodes in the document. Include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startRun, endRun, true);

	for (SharedPtr<Node> extractedNode : extractedNodes)
	std::cout << extractedNode->ToString(SaveFormat::Text) << std::endl;

view raw extract-content-between-runs.h hosted with ❤ by GitHub

Wyodrębnij zawartość za pomocą pola

Aby użyć pola jako znacznika, należy przekazać węzeł FieldStart. Ostatni parametr metody ExtractContent określi, czy całe pole ma zostać uwzględnione, czy nie. Wyodrębnijmy zawartość między polem scalania “FullName " a akapitem w dokumencie. Używamy metody MoveToMergeField klasy DocumentBuilder. Spowoduje to zwrócenie węzła FieldStart z przekazanej do niego nazwy pola scalania.

W naszym przypadku ustawmy ostatni parametr przekazany do metody ExtractContent Na false, aby wykluczyć pole z ekstrakcji. Wyrenderujemy wyodrębnioną zawartość do PDF.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość między określonym polem a akapitem w dokumencie przy użyciu metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");
	auto builder = MakeObject<DocumentBuilder>(doc);

	// Pass the first boolean parameter to get the DocumentBuilder to move to the FieldStart of the field.
	// We could also get FieldStarts of a field using GetChildNode method as in the other examples.
	builder->MoveToMergeField(u"Fullname", false, false);

	// The builder cursor should be positioned at the start of the field.
	auto startField = System::ExplicitCast<FieldStart>(builder->get_CurrentNode());
	auto endPara = System::ExplicitCast<Paragraph>(doc->get_FirstSection()->GetChild(NodeType::Paragraph, 5, true));

	// Extract the content between these nodes in the document. Don't include these markers in the extraction.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodes = ExtractContentHelper::ExtractContent(startField, endPara, false);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodes);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentUsingField.docx");

view raw extract-content-using-field.h hosted with ❤ by GitHub

Wyodrębnij zawartość z zakładki

W dokumencie zawartość zdefiniowana w zakładce jest hermetyzowana przez węzły BookmarkStart i BookmarkEnd. Zawartość znaleziona między tymi dwoma węzłami tworzy zakładkę. Możesz przekazać jeden z tych węzłów jako dowolny znacznik, nawet z różnych zakładek, o ile znacznik początkowy pojawia się przed znacznikiem końcowym w dokumencie. Wyodrębnimy tę zawartość do nowego dokumentu za pomocą poniższego kodu. Opcja parametru IsInclusive pokazuje, jak zachować lub odrzucić zakładkę.

Poniższy przykład kodu pokazuje, jak wyodrębnić zawartość, do której odwołuje się zakładka przy użyciu metody ExtractContent:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	SharedPtr<Bookmark> bookmark = doc->get_Range()->get_Bookmarks()->idx_get(u"Bookmark1");
	SharedPtr<BookmarkStart> bookmarkStart = bookmark->get_BookmarkStart();
	SharedPtr<BookmarkEnd> bookmarkEnd = bookmark->get_BookmarkEnd();

	// Firstly, extract the content between these nodes, including the bookmark.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesInclusive =
	ExtractContentHelper::ExtractContent(bookmarkStart, bookmarkEnd, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesInclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBookmark.IncludingBookmark.docx");

	// Secondly, extract the content between these nodes this time without including the bookmark.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesExclusive =
	ExtractContentHelper::ExtractContent(bookmarkStart, bookmarkEnd, false);

	dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesExclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenBookmark.WithoutBookmark.docx");

view raw extract-content-between-bookmark.h hosted with ❤ by GitHub

Wyodrębnij treść z komentarza

Komentarz składa się z węzłów CommentRangeStart, CommentRangeEnd i komentarz. Wszystkie te węzły są wbudowane. Pierwsze dwa węzły hermetyzują zawartość dokumentu, do którego odwołuje się komentarz, jak widać na poniższym zrzucie ekranu.

Sam węzeł Comment to InlineStory, który może zawierać akapity i biegi. Reprezentuje wiadomość komentarza jako dymek komentarza w okienku podglądu. Ponieważ ten węzeł jest wbudowany i jest potomkiem ciała, możesz również wyodrębnić zawartość z wnętrza tej wiadomości.

Komentarz zawiera nagłówek, pierwszy akapit i tabelę w drugiej sekcji. Wyodrębnijmy ten komentarz do nowego dokumentu. Opcja IsInclusive określa, czy sam komentarz zostanie zachowany, czy odrzucony.

Poniższy przykład kodu pokazuje, jak to zrobić:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto commentStart = System::ExplicitCast<CommentRangeStart>(doc->GetChild(NodeType::CommentRangeStart, 0, true));
	auto commentEnd = System::ExplicitCast<CommentRangeEnd>(doc->GetChild(NodeType::CommentRangeEnd, 0, true));

	// Firstly, extract the content between these nodes including the comment as well.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesInclusive =
	ExtractContentHelper::ExtractContent(commentStart, commentEnd, true);

	SharedPtr<Document> dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesInclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenCommentRange.IncludingComment.docx");

	// Secondly, extract the content between these nodes without the comment.
	SharedPtr<System::Collections::Generic::List<SharedPtr<Node>>> extractedNodesExclusive =
	ExtractContentHelper::ExtractContent(commentStart, commentEnd, false);

	dstDoc = ExtractContentHelper::GenerateDocument(doc, extractedNodesExclusive);
	dstDoc->Save(ArtifactsDir + u"ExtractContent.ExtractContentBetweenCommentRange.WithoutComment.docx");

view raw extract-content-between-comment-range.h hosted with ❤ by GitHub

Jak wyodrębnić zawartość za pomocą DocumentVisitor

Użyj klasy DocumentVisitor, aby zaimplementować ten scenariusz użycia. Ta klasa odpowiada dobrze znanemu wzorcowi projektowania odwiedzających. Za pomocą DocumentVisitor, można definiować i wykonywać operacje niestandardowe, które wymagają wyliczenia w drzewie dokumentów.

DocumentVisitor

Każda metoda DocumentVisitor.VisitXXX Zwraca wartość VisitorAction, która kontroluje wyliczenie węzłów. Możesz poprosić o kontynuowanie wyliczania, pominięcie bieżącego węzła (ale kontynuowanie wyliczania) lub zatrzymanie wyliczania węzłów.

Oto kroki, które należy wykonać, aby programowo określić i wyodrębnić różne części dokumentu:

Utwórz klasę wywodzącą się z DocumentVisitor
Zastąp i zapewnij implementacje dla niektórych lub wszystkich metod DocumentVisitor.VisitXXX w celu wykonania niektórych operacji niestandardowych
Wywołaj Node.Accept na węźle, od którego chcesz rozpocząć wyliczenie. Na przykład, jeśli chcesz wyliczyć cały dokument, użyj Document.Accept

DocumentVisitor

Ten przykład pokazuje, jak używać wzorca odwiedzającego do dodawania nowych operacji do modelu obiektowego Aspose.Words. W takim przypadku tworzymy prosty konwerter dokumentów na format tekstowy:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Extract content.docx");

	auto convertToPlainText = MakeObject<ExtractContent::ConvertDocToTxt>();
	// Note that every node in the object model has the accept method so the visiting
	// can be executed not only for the whole document, but for any node in the document.
	doc->Accept(convertToPlainText);

	// Once the visiting is complete, we can retrieve the result of the operation,
	// That in this example, has accumulated in the visitor.
	std::cout << convertToPlainText->GetText() << std::endl;

view raw extract-content-using-document-visitor.h hosted with ❤ by GitHub

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	/// <summary>
	/// Simple implementation of saving a document in the plain text format. Implemented as a Visitor.
	/// </summary>
	class ConvertDocToTxt : public DocumentVisitor
	{
	public:
	ConvertDocToTxt() : mIsSkipText(false)
	{
	mIsSkipText = false;
	mBuilder = MakeObject<System::Text::StringBuilder>();
	}

	/// <summary>
	/// Gets the plain text of the document that was accumulated by the visitor.
	/// </summary>
	String GetText()
	{
	return mBuilder->ToString();
	}

	/// <summary>
	/// Called when a Run node is encountered in the document.
	/// </summary>
	VisitorAction VisitRun(SharedPtr<Run> run) override
	{
	AppendText(run->get_Text());
	// Let the visitor continue visiting other nodes.
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldStart node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldStart(SharedPtr<FieldStart> fieldStart) override
	{
	ASPOSE_UNUSED(fieldStart);
	// In Microsoft Word, a field code (such as "MERGEFIELD FieldName") follows
	// after a field start character. We want to skip field codes and output field.
	// Result only, therefore we use a flag to suspend the output while inside a field code.
	// Note this is a very simplistic implementation and will not work very well.
	// If you have nested fields in a document.
	mIsSkipText = true;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldSeparator node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldSeparator(SharedPtr<FieldSeparator> fieldSeparator) override
	{
	ASPOSE_UNUSED(fieldSeparator);
	// Once reached a field separator node, we enable the output because we are
	// now entering the field result nodes.
	mIsSkipText = false;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a FieldEnd node is encountered in the document.
	/// </summary>
	VisitorAction VisitFieldEnd(SharedPtr<FieldEnd> fieldEnd) override
	{
	ASPOSE_UNUSED(fieldEnd);
	// Make sure we enable the output when reached a field end because some fields
	// do not have field separator and do not have field result.
	mIsSkipText = false;
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when visiting of a Paragraph node is ended in the document.
	/// </summary>
	VisitorAction VisitParagraphEnd(SharedPtr<Paragraph> paragraph) override
	{
	ASPOSE_UNUSED(paragraph);
	// When outputting to plain text we output Cr+Lf characters.
	AppendText(ControlChar::CrLf());
	return VisitorAction::Continue;
	}

	VisitorAction VisitBodyStart(SharedPtr<Body> body) override
	{
	ASPOSE_UNUSED(body);
	// We can detect beginning and end of all composite nodes such as Section, Body,
	// Table, Paragraph etc and provide custom handling for them.
	mBuilder->Append(u"* Body Started *\r\n");
	return VisitorAction::Continue;
	}

	VisitorAction VisitBodyEnd(SharedPtr<Body> body) override
	{
	ASPOSE_UNUSED(body);
	mBuilder->Append(u"* Body Ended *\r\n");
	return VisitorAction::Continue;
	}

	/// <summary>
	/// Called when a HeaderFooter node is encountered in the document.
	/// </summary>
	VisitorAction VisitHeaderFooterStart(SharedPtr<HeaderFooter> headerFooter) override
	{
	ASPOSE_UNUSED(headerFooter);
	// Returning this value from a visitor method causes visiting of this
	// Node to stop and move on to visiting the next sibling node
	// The net effect in this example is that the text of headers and footers
	// Is not included in the resulting output
	return VisitorAction::SkipThisNode;
	}

	private:
	SharedPtr<System::Text::StringBuilder> mBuilder;
	bool mIsSkipText;

	/// <summary>
	/// Adds text to the current output. Honors the enabled/disabled output flag.
	/// </summary>
	void AppendText(String text)
	{
	if (!mIsSkipText)
	{
	mBuilder->Append(text);
	}
	}
	};

view raw convert-doc-to-txt.h hosted with ❤ by GitHub

Możesz pobrać przykładowy plik tego przykładu z Aspose.Words GitHub.

Jak wyodrębnić tylko tekst

Sposoby pobierania tekstu z dokumentu to:

Użyj Document.Save z SaveFormat.Text, aby zapisać jako zwykły tekst w pliku lub strumieniu
Użyj Node.ToString i przekaż parametr SaveFormat.Text. Wewnętrznie wywołuje to zapisz jako tekst w strumieniu pamięci i zwraca wynikowy ciąg
Użyj Node.GetText, aby pobrać tekst ze wszystkimi Microsoft Word znakami kontrolnymi, w tym kodami pól
Zaimplementuj Niestandardowy DocumentVisitor, aby wykonać niestandardową ekstrakcję

Używanie `Node.GetText` i `Node.ToString`

Dokument Word może zawierać znaki kontrolne, które oznaczają specjalne elementy, takie jak Pole, koniec komórki, koniec sekcji itp. Pełna lista możliwych znaków kontrolnych Word jest zdefiniowana w klasie ControlChar. Metoda Node.GetText zwraca tekst ze wszystkimi znakami kontrolnymi obecnymi w węźle.

Wywołanie ToString zwraca reprezentację zwykłego tekstu dokumentu tylko bez znaków kontrolnych.

Poniższy przykład kodu pokazuje różnicę między wywołaniem metod GetText i ToString w węźle:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>();
	auto builder = MakeObject<DocumentBuilder>(doc);

	builder->InsertField(u"MERGEFIELD Field");

	// When converted to text it will not retrieve fields code or special characters,
	// but will still contain some natural formatting characters such as paragraph markers etc.
	// This is the same as "viewing" the document as if it was opened in a text editor.
	std::cout << (String(u"ToString() Result: ") + doc->ToString(SaveFormat::Text)) << std::endl;

view raw simple-extract-text.h hosted with ❤ by GitHub

Użycie `SaveFormat.Text`

Ten przykład zapisuje dokument w następujący sposób:

Odfiltrowuje znaki pól i kody pól, kształt, Przypisy, przypisy końcowe i odniesienia do komentarzy
Zastępuje koniec akapitu ControlChar.Cr znakami ControlChar.CrLf kombinacjami
Używa kodowania UTF8

Poniższy przykład kodu pokazuje, jak zapisać dokument w formacie TXT:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Document.docx");
	doc->Save(ArtifactsDir + u"BaseConversions.DocxToTxt.txt");

view raw docx-to-txt.h hosted with ❤ by GitHub

Wyodrębnij obrazy z kształtów

Aby wykonać niektóre zadania, może być konieczne wyodrębnienie obrazów dokumentów. Aspose.Words pozwala również na to.

Poniższy przykład kodu pokazuje, jak wyodrębnić obrazy z dokumentu:

	// For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-C.git.
	auto doc = MakeObject<Document>(MyDir + u"Images.docx");

	SharedPtr<NodeCollection> shapes = doc->GetChildNodes(NodeType::Shape, true);
	int imageIndex = 0;

	for (const auto& shape : System::IterateOver<Shape>(shapes))
	{
	if (shape->get_HasImage())
	{
	String imageFileName =
	String::Format(u"Image.ExportImages.{0}_{1}", imageIndex, FileFormatUtil::ImageTypeToExtension(shape->get_ImageData()->get_ImageType()));

	// Note, if you have only an image (not a shape with a text and the image),
	// you can use shape->GetShapeRenderer()->Save(...) method to save the image.
	shape->get_ImageData()->Save(ArtifactsDir + imageFileName);
	imageIndex++;
	}
	}

view raw extract-images.h hosted with ❤ by GitHub

Praca z zakresami w C++ Praca z nagłówkami i stopkami w C++