Извличане на съдържание между възлите в документ

При работа с документи е важно лесно да се извлече съдържание от определен диапазон в рамките на даден документ. Съдържанието обаче може да се състои от сложни елементи като параграфи, таблици, изображения и др.

Независимо от това какво съдържание трябва да бъде извлечено, методът за извличане на това съдържание винаги ще се определя от кои възли се избират, за да се извлече съдържание между тях. Това могат да бъдат цели текстови тела или прости текстови работи.

Има много възможни ситуации и следователно много различни видове възли да се вземат предвид при извличане на съдържание. Например, може да искате да извлечете съдържание между:

Два конкретни параграфа
Специфични редове на текста
Полета от различни видове, като сливане полета
Начална и крайна гама от отметки или коментар
Различни органи на текста, съдържащи се в отделни секции

В някои ситуации може дори да се наложи да комбинирате различни типове възли, като например извличане на съдържание между параграф и поле, или между тичане и отметки.

Тази статия осигурява прилагането на код за извличане на текст между различни възли, както и примери за общи сценарии.

Тези примери са само няколко демонстрации на многото възможности. Планираме функционалността за извличане на текст да бъде част от обществото API в бъдеще и няма да се изисква допълнителен код. Междувременно, не се колебайте да публикувате вашите искания относно тази функционалност на Aspose.Words форум.

Защо да извличаме съдържание

Често целта на извличането на съдържанието е да се дублира или запази отделно в нов документ. Например, можете да извлечете съдържание и:

Копирайте го в отделен документ
Конвертиране на конкретна част от документ в PDF или изображение
Дублиране на съдържанието в документа многократно
Работа с извлечено съдържание отделно от останалата част на документа

Това може лесно да се постигне с помощта Aspose.Words и прилагането на кода по-долу.

Извличане на съдържание Алгоритъм

Кодът в този раздел адресира всички възможни ситуации, описани по-горе с един общ и повторно използван метод. Общата схема на тази техника включва:

Събиране на възлите, които диктуват областта на съдържание, което ще бъде извлечено от вашия документ. Възстановяването на тези възли се извършва от потребителя в техния код, въз основа на това, което те искат да бъдат извлечени.
Преминавайки тези възли към ExtractContent метод, предоставен по-долу. Трябва също така да преминете един булев параметър, който посочва дали тези възли, действащи като маркери, трябва да бъдат включени в екстракцията или не.
Извличане на списък с клонирано съдържание (копирани възли), за да бъде извлечено. Можете да използвате този списък от възли по какъвто и да е приложим начин, например създаване на нов документ, съдържащ само избраното съдържание.

Как да извлечете съдържанието

За да извлечете съдържанието от вашия документ, трябва да се обадите на екстракт_съдържание метод по-долу и да премине съответните параметри. Основната основа на този метод включва намирането на възли на ниво блок (точки и таблици) и клонирането им, за да се създадат идентични копия. Ако преминаващите маркиращи възли са блоково ниво, тогава методът може просто да копира съдържанието на това ниво и да го добави към масива.

Въпреки това, ако маркерните възли са в линия (дете на параграф), тогава ситуацията става по-сложна, тъй като е необходимо да се раздели параграфа на вътрешния възел, било то тичане, отметки и др. Съдържанието в клонираните изходни възли, които не присъстват между маркерите, се премахва. Този процес се използва, за да се гарантира, че вътрешните възли ще запазят формата на параграфа майка. Методът също така ще извършва проверки на възлите, преминали като параметри и хвърля изключение, ако или възелът е невалиден. Параметрите, които трябва да бъдат предадени на този метод, са:

startNode както и endNode. Първите два параметъра са възлите, които определят къде да започне извличането на съдържанието и съответно да приключи. Тези възли могат да бъдат и двата блока ниво (Paragraph, Table или inline level (напр. Run, FieldStart, BookmarkStart и т.н.:
1. За да преминете полето, трябва да преминете съответното FieldStart Възразявам.
2. За да преминете отметките, BookmarkStart както и BookmarkEnd Възлите трябва да се преминат.
3. За да получите коментари, CommentRangeStart както и CommentRangeEnd Трябва да се използват възли.
инклузив. Определя дали маркерите са включени в екстракцията или не. Ако е зададена тази опция false и един и същ възел или последователни възли са преминали, след това празен списък ще бъде върнат:
1. Ако FieldStart Възелът се приема след това тази опция определя дали цялото поле трябва да бъде включено или изключено.
2. Ако BookmarkStart или BookmarkEnd Възелът се приема, тази опция определя дали отметките са включени или само съдържанието между отметките.
3. Ако CommentRangeStart или CommentRangeEnd Възелът се приема, тази опция определя дали коментарът сам по себе си трябва да бъде включен или само съдържанието в обхвата на коментара.

Изпълнение на екстракт_съдържание метод можете да намерите Тук. Този метод ще бъде посочен в сценариите в тази статия.

Също така ще определим потребителски метод за лесно генериране на документ от извлечени възли. Този метод се използва в много от сценариите по-долу и просто създава нов документ и внася извлеченото съдържание в него.

Следният пример за код показва как да се вземе списък с възли и ги вмъква в нов документ:

Съдържание на екстракт между параграфи

Това показва как да се използва горният метод за извличане на съдържание между конкретни параграфи. В този случай искаме да извлечем тялото на писмото, намерено в първата половина на документа. Можем да кажем, че това е между 7 и 11 абзац.

Кодът по-долу изпълнява тази задача. Съответните параграфи се извличат с помощта на CompositeNode.get_child метод на документа и преминаване на посочените индекси. След това предаваме тези възли на екстракт_съдържание метод и се посочва, че те трябва да бъдат включени в екстракцията. Този метод ще върне копираното съдържание между тези възли, които след това се добавят в нов документ.

Следният пример за код показва как да се извлече съдържанието между конкретни параграфи, като се използва екстракт_съдържание метод по- горе: