Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.
Belgelerle çalışırken, belge içindeki belirli bir aralıktan içeriği kolayca çıkarabilmek önemlidir. Ancak içerik paragraf, tablo, resim vb. gibi karmaşık unsurlardan oluşabilir.
Hangi içeriğin çıkarılması gerektiğine bakılmaksızın, bu içeriği çıkarma yöntemi her zaman, aralarında içerik çıkarmak için hangi düğümlerin seçildiğine göre belirlenecektir. Bunlar tüm metin gövdeleri veya basit metin çalıştırmaları olabilir.
İçerik çıkarırken dikkate alınması gereken birçok olası durum ve dolayısıyla birçok farklı düğüm türü vardır. Örneğin, aşağıdakiler arasında içerik çıkarmak isteyebilirsiniz:
Bazı durumlarda, bir paragraf ile alan arasında veya bir çalıştırma ile yer imi arasında içerik çıkarmak gibi farklı düğüm türlerini birleştirmeniz bile gerekebilir.
Bu makalede, farklı düğümler arasında metin çıkarmaya yönelik kod uygulamasının yanı sıra yaygın senaryo örnekleri de sağlanmaktadır.
Çoğu zaman içeriği çıkarmanın amacı onu çoğaltmak veya yeni bir belgeye ayrı olarak kaydetmektir. Örneğin, içerik çıkarabilir ve şunları yapabilirsiniz:
Bu, Aspose.Words ve aşağıdaki kod uygulaması kullanılarak kolayca başarılabilir.
Bu bölümdeki kod, yukarıda açıklanan tüm olası durumları genelleştirilmiş ve yeniden kullanılabilir bir yöntemle ele almaktadır. Bu tekniğin genel taslağı şunları içerir:
İçeriği belgenizden çıkarmak için aşağıdaki extract_content yöntemini çağırmanız ve uygun parametreleri iletmeniz gerekir. Bu yöntemin temelindeki temel, blok düzeyindeki düğümlerin (paragraflar ve tablolar) bulunmasını ve bunların aynı kopyaları oluşturacak şekilde klonlanmasını içerir. Geçilen işaretleyici düğümler blok düzeyindeyse, yöntem yalnızca bu düzeydeki içeriği kopyalayabilir ve diziye ekleyebilir.
Bununla birlikte, eğer işaretleyici düğümler satır içi ise (paragrafın çocuğu) bu durumda durum daha karmaşık hale gelir, çünkü paragrafı satır içi düğümde bölmek gerekir (bir çalıştırma, yer imi alanları vb. olsun). Klonlanmış ana düğümlerdeki içerik, İşaretleyiciler arasında mevcut olanlar kaldırılır. Bu işlem, satır içi düğümlerin hala ana paragrafın biçimlendirmesini koruyacağından emin olmak için kullanılır. Yöntem aynı zamanda parametre olarak iletilen düğümler üzerinde de denetimler çalıştıracak ve düğümlerden herhangi birinin geçersiz olması durumunda bir istisna oluşturacaktır. Bu yönteme iletilecek parametreler şunlardır:
extract_content yönteminin uygulanmasını Burada‘de bulabilirsiniz. Bu makaledeki senaryolarda bu yönteme değinilecektir.
Çıkarılan düğümlerden kolayca belge oluşturmak için özel bir yöntem de tanımlayacağız. Bu yöntem aşağıdaki senaryoların çoğunda kullanılır ve yalnızca yeni bir belge oluşturur ve çıkarılan içeriği bu belgeye aktarır.
Aşağıdaki kod örneği, düğüm listesinin nasıl alınacağını ve bunların yeni bir belgeye nasıl ekleneceğini gösterir:
Bu, belirli paragraflar arasındaki içeriği çıkarmak için yukarıdaki yöntemin nasıl kullanılacağını gösterir. Bu durumda belgenin ilk yarısında bulunan mektubun gövdesini çıkarmak istiyoruz. Bunun 7. ve 11. paragraflar arasında olduğunu söyleyebiliriz.
Aşağıdaki kod bu görevi yerine getirir. Uygun paragraflar belge üzerinde CompositeNode.get_child yöntemi kullanılarak ve belirtilen indekslerden geçirilerek çıkarılır. Daha sonra bu düğümleri extract_content yöntemine aktarıyoruz ve bunların da ekstraksiyona dahil edilmesi gerektiğini belirtiyoruz. Bu yöntem, daha sonra yeni bir belgeye eklenen bu düğümler arasında kopyalanan içeriği döndürür.
Aşağıdaki kod örneği, yukarıdaki extract_content yöntemini kullanarak belirli paragraflar arasındaki içeriğin nasıl çıkarılacağını gösterir:
Blok düzeyi veya satır içi düğümlerin herhangi bir kombinasyonu arasından içerik çıkarabiliriz. Aşağıdaki bu senaryoda, ilk paragraf ile ikinci bölümdeki tablo arasındaki içeriği kapsamlı bir şekilde çıkaracağız. Uygun Paragraph ve Table düğümlerini almak için belgenin ikinci bölümünde Body.first_paragraph ve CompositeNode.get_child yöntemini çağırarak işaretçi düğümlerini alıyoruz. Küçük bir değişiklik için bunun yerine içeriği kopyalayıp orijinalin altına ekleyelim.
Aşağıdaki kod örneği, extract_content yöntemini kullanarak bir paragraf ile tablo arasındaki içeriğin nasıl çıkarılacağını gösterir:
Başlık stilleriyle işaretlenmiş paragraflar arasında olduğu gibi, aynı veya farklı stildeki paragraflar arasındaki içeriği çıkarmanız gerekebilir.
Aşağıdaki kod bunun nasıl başarılacağını gösterir. “Başlık 1” ve “Başlık 3” stillerinin ilk örneği arasındaki içeriği, başlıkları da çıkarmadan çıkaracak basit bir örnektir. Bunu yapmak için son parametreyi, işaretleyici düğümlerin dahil edilmemesi gerektiğini belirten false olarak ayarladık.
Uygun bir uygulamada, bu stillerin tüm paragrafları arasındaki içeriği belgeden çıkarmak için bu bir döngü içinde çalıştırılmalıdır. Çıkarılan içerik yeni bir belgeye kopyalanır.
Aşağıdaki kod örneği, extract_content yöntemini kullanarak belirli stillere sahip paragraflar arasındaki içeriğin nasıl çıkarılacağını gösterir:
Run gibi satır içi düğümler arasında da içerik çıkarabilirsiniz. Farklı paragraflardaki çalıştırmalar işaretçi olarak aktarılabilir. Aşağıdaki kod, aynı Paragraph düğümü arasında belirli bir metnin nasıl çıkarılacağını gösterir.
Aşağıdaki kod örneği, extract_content yöntemini kullanarak aynı paragrafın belirli çalıştırmaları arasındaki içeriğin nasıl çıkarılacağını gösterir:
Bir alanı işaretleyici olarak kullanmak için FieldStart düğümünün iletilmesi gerekir. extract_content yönteminin son parametresi tüm alanın dahil edilip edilmeyeceğini tanımlayacaktır. Belgedeki “Tam Ad” birleştirme alanı ile bir paragraf arasındaki içeriği çıkaralım. DocumentBuilder sınıfının DocumentBuilder.move_to_merge_field yöntemini kullanıyoruz. Bu, kendisine iletilen birleştirme alanının adından FieldStart düğümünü döndürecektir.
Bizim durumumuzda alanı çıkarma işleminin dışında bırakmak için extract_content yöntemine iletilen son parametreyi False olarak ayarlayalım. Çıkarılan içeriği PDF’ye dönüştüreceğiz.
Aşağıdaki kod örneği, extract_content yöntemini kullanarak belgedeki belirli bir alan ile paragraf arasındaki içeriğin nasıl çıkarılacağını gösterir:
Bir belgede, bir yer imi içinde tanımlanan içerik, BookmarkStart ve BookmarkEnd düğümleri tarafından kapsüllenir. Bu iki düğüm arasında bulunan içerik yer imini oluşturur. Başlangıç işaretçisi belgedeki bitiş işaretçisinden önce göründüğü sürece, bu düğümlerden herhangi birini, farklı yer imlerinden olanlar da dahil olmak üzere herhangi bir işaretçi olarak geçirebilirsiniz. Aşağıdaki kodu kullanarak bu içeriği yeni bir belgeye çıkaracağız. herşey dahil parametre seçeneği, yer iminin nasıl korunacağını veya atılacağını gösterir.
Aşağıdaki kod örneği, extract_content yöntemini kullanarak bir yer işaretine başvurulan içeriğin nasıl çıkarılacağını gösterir:
Bir yorum CommentRangeStart, CommentRangeEnd ve Comment düğümlerinden oluşur. Bu düğümlerin tümü satır içidir. İlk iki düğüm, aşağıdaki ekran görüntüsünde görüldüğü gibi, yorumun referans verdiği belgedeki içeriği kapsar. Comment düğümünün kendisi paragraflar ve çalıştırmalar içerebilen bir InlineStory‘dir. İnceleme bölmesinde bir yorum balonu olarak görülen yorumun mesajını temsil eder. Bu düğüm satır içi olduğundan ve bir gövdenin soyundan geldiğinden, içeriği bu mesajın içinden de çıkarabilirsiniz.
Yorum, başlığı, ilk paragrafı ve ikinci bölümdeki tabloyu kapsar. Bu yorumu yeni bir belgeye çıkaralım. herşey dahil seçeneği, yorumun kendisinin tutulacağını veya atılacağını belirler.
Aşağıdaki kod örneği bunun nasıl yapılacağını gösterir:
Belgeden metin almanın yolları şunlardır:
Bir Word belgesi, alan, hücre sonu, bölüm sonu vb. gibi özel öğeleri belirten kontrol karakterlerini içerebilir. Olası Word kontrol karakterlerinin tam listesi ControlChar sınıfında tanımlanır. Node.get_text yöntemi, düğümde bulunan tüm kontrol karakter karakterlerini içeren metni döndürür.
to_string‘in çağrılması, belgenin yalnızca kontrol karakterleri olmadan düz metin gösterimini döndürür. Düz metin olarak dışa aktarma hakkında daha fazla bilgi için bkz. SaveFormat.TEXT Kullanımı
Aşağıdaki kod örneği, bir düğümde get_text ve to_string yöntemlerini çağırmak arasındaki farkı gösterir:
SaveFormat.Text‘i kullanmaBu örnek belgeyi şu şekilde kaydeder:
Aşağıdaki kod örneği, bir belgenin TXT biçiminde nasıl kaydedileceğini gösterir:
Bazı görevleri gerçekleştirmek için belge resimlerini çıkarmanız gerekebilir. Aspose.Words bunu da yapmanıza olanak sağlar.
Aşağıdaki kod örneği, bir belgeden görüntülerin nasıl çıkarılacağını gösterir:
Analyzing your prompt, please hold on...
An error occurred while retrieving the results. Please refresh the page and try again.