Belgedeki Düğümler Arasındaki İçeriği Çıkarma

Belgelerle çalışırken, belge içindeki belirli bir aralıktan içeriği kolayca çıkarabilmek önemlidir. Ancak içerik paragraf, tablo, resim vb. gibi karmaşık unsurlardan oluşabilir.

Hangi içeriğin çıkarılması gerektiğine bakılmaksızın, bu içeriği çıkarma yöntemi her zaman, aralarında içerik çıkarmak için hangi düğümlerin seçildiğine göre belirlenecektir. Bunlar tüm metin gövdeleri veya basit metin çalıştırmaları olabilir.

İçerik çıkarırken dikkate alınması gereken birçok olası durum ve dolayısıyla birçok farklı düğüm türü vardır. Örneğin, aşağıdakiler arasında içerik çıkarmak isteyebilirsiniz:

İki özel paragraf
Belirli metin dizileri
Birleştirme alanları gibi çeşitli türlerdeki alanlar
Bir yer işaretinin veya yorumun başlangıç ve bitiş aralıkları
Ayrı bölümlerde bulunan çeşitli metin gövdeleri

Bazı durumlarda, bir paragraf ile alan arasında veya bir çalıştırma ile yer imi arasında içerik çıkarmak gibi farklı düğüm türlerini birleştirmeniz bile gerekebilir.

Bu makalede, farklı düğümler arasında metin çıkarmaya yönelik kod uygulamasının yanı sıra yaygın senaryo örnekleri de sağlanmaktadır.

Bu örnekler birçok olasılığın sadece birkaç gösterimidir. Gelecekte metin çıkarma işlevinin genel API’in bir parçası olmasını planlıyoruz ve ekstra kod gerekmeyecek. Bu arada, bu işlevselliğe ilişkin taleplerinizi Aspose.Words forumu‘ye göndermekten çekinmeyin.

Neden İçeriği Çıkartın?

Çoğu zaman içeriği çıkarmanın amacı onu çoğaltmak veya yeni bir belgeye ayrı olarak kaydetmektir. Örneğin, içerik çıkarabilir ve şunları yapabilirsiniz:

Ayrı bir belgeye kopyalayın
Belgenin belirli bir bölümünü PDF’ye veya resme dönüştürün
Belgedeki içeriği birçok kez çoğaltın
Belgenin geri kalanından ayrı olarak çıkarılan içerikle çalışın

Bu, Aspose.Words ve aşağıdaki kod uygulaması kullanılarak kolayca başarılabilir.

İçerik Algoritmasını Çıkarma

Bu bölümdeki kod, yukarıda açıklanan tüm olası durumları genelleştirilmiş ve yeniden kullanılabilir bir yöntemle ele almaktadır. Bu tekniğin genel taslağı şunları içerir:

Belgenizden çıkarılacak içerik alanını belirleyen düğümleri toplamak. Bu düğümlerin alınması, çıkarmak istedikleri şeye bağlı olarak kullanıcı tarafından kendi kodunda gerçekleştirilir.
Bu düğümleri aşağıda verilen ExtractContent yöntemine geçirmek. Ayrıca, işaretçi görevi gören bu düğümlerin çıkarma işlemine dahil edilip edilmeyeceğini belirten bir boolean parametresi de iletmelisiniz.
Çıkarılması belirtilen klonlanmış içeriğin (kopyalanan düğümler) listesinin alınması. Bu düğüm listesini uygun herhangi bir şekilde kullanabilirsiniz; örneğin yalnızca seçilen içeriği içeren yeni bir belge oluşturmak gibi.

İçerik Nasıl Çıkarılır

İçeriği belgenizden çıkarmak için aşağıdaki extract_content yöntemini çağırmanız ve uygun parametreleri iletmeniz gerekir. Bu yöntemin temelindeki temel, blok düzeyindeki düğümlerin (paragraflar ve tablolar) bulunmasını ve bunların aynı kopyaları oluşturacak şekilde klonlanmasını içerir. Geçilen işaretleyici düğümler blok düzeyindeyse, yöntem yalnızca bu düzeydeki içeriği kopyalayabilir ve diziye ekleyebilir.

Bununla birlikte, eğer işaretleyici düğümler satır içi ise (paragrafın çocuğu) bu durumda durum daha karmaşık hale gelir, çünkü paragrafı satır içi düğümde bölmek gerekir (bir çalıştırma, yer imi alanları vb. olsun). Klonlanmış ana düğümlerdeki içerik, İşaretleyiciler arasında mevcut olanlar kaldırılır. Bu işlem, satır içi düğümlerin hala ana paragrafın biçimlendirmesini koruyacağından emin olmak için kullanılır. Yöntem aynı zamanda parametre olarak iletilen düğümler üzerinde de denetimler çalıştıracak ve düğümlerden herhangi birinin geçersiz olması durumunda bir istisna oluşturacaktır. Bu yönteme iletilecek parametreler şunlardır:

startNode ve bitiş düğümü. İlk iki parametre, içeriğin çıkarılmasının sırasıyla nerede başlayacağını ve nerede biteceğini tanımlayan düğümlerdir. Bu düğümler hem blok düzeyinde (Paragraph, Table hem de satır içi düzeyde (örn. Run, FieldStart, BookmarkStart vb.) olabilir):
1. Bir alanı iletmek için ilgili FieldStart nesnesini iletmelisiniz.
2. Yer işaretlerini iletmek için BookmarkStart ve BookmarkEnd düğümlerinin iletilmesi gerekir.
3. Yorumları iletmek için CommentRangeStart ve CommentRangeEnd düğümleri kullanılmalıdır. 1.herşey dahil. İşaretleyicilerin ekstraksiyona dahil edilip edilmeyeceğini tanımlar. Bu seçenek false olarak ayarlanırsa ve aynı düğüm veya ardışık düğümler aktarılırsa boş bir liste döndürülür:
4. Bir FieldStart düğümü aktarılırsa bu seçenek tüm alanın dahil edileceğini veya hariç tutulacağını tanımlar.
5. Bir BookmarkStart veya BookmarkEnd düğümü aktarılırsa bu seçenek, yer iminin mi yoksa yalnızca yer imi aralığı arasındaki içeriğin mi dahil edileceğini tanımlar.
6. Bir CommentRangeStart veya CommentRangeEnd düğümü aktarılırsa bu seçenek, yorumun kendisinin mi yoksa yalnızca yorum aralığındaki içeriğin mi dahil edileceğini tanımlar.

extract_content yönteminin uygulanmasını Burada‘de bulabilirsiniz. Bu makaledeki senaryolarda bu yönteme değinilecektir.

Çıkarılan düğümlerden kolayca belge oluşturmak için özel bir yöntem de tanımlayacağız. Bu yöntem aşağıdaki senaryoların çoğunda kullanılır ve yalnızca yeni bir belge oluşturur ve çıkarılan içeriği bu belgeye aktarır.

Aşağıdaki kod örneği, düğüm listesinin nasıl alınacağını ve bunların yeni bir belgeye nasıl ekleneceğini gösterir:

Paragraflar Arasındaki İçeriği Çıkartın

Bu, belirli paragraflar arasındaki içeriği çıkarmak için yukarıdaki yöntemin nasıl kullanılacağını gösterir. Bu durumda belgenin ilk yarısında bulunan mektubun gövdesini çıkarmak istiyoruz. Bunun 7. ve 11. paragraflar arasında olduğunu söyleyebiliriz.

Aşağıdaki kod bu görevi yerine getirir. Uygun paragraflar belge üzerinde CompositeNode.get_child yöntemi kullanılarak ve belirtilen indekslerden geçirilerek çıkarılır. Daha sonra bu düğümleri extract_content yöntemine aktarıyoruz ve bunların da ekstraksiyona dahil edilmesi gerektiğini belirtiyoruz. Bu yöntem, daha sonra yeni bir belgeye eklenen bu düğümler arasında kopyalanan içeriği döndürür.

Aşağıdaki kod örneği, yukarıdaki extract_content yöntemini kullanarak belirli paragraflar arasındaki içeriğin nasıl çıkarılacağını gösterir: