Ekstrak Konten Antar Node dalam Dokumen

Saat bekerja dengan dokumen, penting untuk dapat dengan mudah mengekstraksi konten dari rentang tertentu dalam dokumen. Namun, kontennya mungkin terdiri dari elemen kompleks seperti paragraf, tabel, gambar, dll.

Terlepas dari konten apa yang perlu diekstraksi, metode untuk mengekstrak konten tersebut akan selalu ditentukan oleh node mana yang dipilih untuk mengekstrak konten. Ini bisa berupa keseluruhan isi teks atau rangkaian teks sederhana.

Ada banyak kemungkinan situasi dan oleh karena itu banyak jenis node berbeda yang perlu dipertimbangkan saat mengekstraksi konten. Misalnya, Anda mungkin ingin mengekstrak konten antara:

Dua paragraf tertentu
Rangkaian teks tertentu
Bidang dari berbagai jenis, seperti bidang gabungan
Rentang awal dan akhir bookmark atau komentar
Berbagai badan teks terdapat dalam bagian terpisah

Dalam beberapa situasi, Anda bahkan mungkin perlu menggabungkan tipe simpul yang berbeda, seperti mengekstraksi konten antara paragraf dan bidang, atau antara eksekusi dan bookmark.

Artikel ini menyediakan implementasi kode untuk mengekstraksi teks antara node yang berbeda, serta contoh skenario umum.

Contoh-contoh ini hanyalah beberapa contoh dari banyak kemungkinan. Kami berencana agar fungsi ekstraksi teks menjadi bagian dari API publik di masa mendatang, dan tidak diperlukan kode tambahan. Sementara itu, jangan ragu untuk mengirimkan permintaan Anda mengenai fungsi ini di forum Aspose.Words.

Mengapa Mengekstrak Konten

Seringkali tujuan mengekstraksi konten adalah untuk menduplikasi atau menyimpannya secara terpisah di dokumen baru. Misalnya, Anda dapat mengekstrak konten dan:

Salin ke dokumen terpisah
Konversi bagian tertentu dari dokumen ke PDF atau gambar
Gandakan konten dalam dokumen berkali-kali
Bekerja dengan konten yang diekstraksi terpisah dari dokumen lainnya

Hal ini dapat dicapai dengan mudah menggunakan Aspose.Words dan implementasi kode di bawah ini.

Mengekstraksi Algoritma Konten

Kode di bagian ini membahas semua kemungkinan situasi yang dijelaskan di atas dengan satu metode umum dan dapat digunakan kembali. Garis besar umum teknik ini meliputi:

Mengumpulkan node yang menentukan area konten yang akan diekstraksi dari dokumen Anda. Pengambilan node ini ditangani oleh pengguna dalam kodenya, berdasarkan apa yang ingin diekstraksi.
Meneruskan node ini ke metode ExtractContent yang disediakan di bawah. Anda juga harus meneruskan parameter boolean yang menyatakan apakah node ini, yang bertindak sebagai penanda, harus disertakan dalam ekstraksi atau tidak.
Mengambil daftar konten yang dikloning (disalin node) yang ditentukan untuk diekstraksi. Anda dapat menggunakan daftar node ini dengan cara apa pun yang dapat diterapkan, misalnya, membuat dokumen baru yang hanya berisi konten yang dipilih.

Cara Mengekstrak Konten

Untuk mengekstrak konten dari dokumen Anda, Anda perlu memanggil metode ekstrak_konten di bawah ini dan meneruskan parameter yang sesuai. Dasar yang mendasari metode ini melibatkan pencarian node tingkat blok (paragraf dan tabel) dan mengkloningnya untuk membuat salinan yang identik. Jika node penanda yang diteruskan adalah level blok maka metode ini dapat dengan mudah menyalin konten pada level tersebut dan menambahkannya ke array.

Namun jika node penandanya sejajar (anak dari paragraf) maka situasinya menjadi lebih kompleks, karena paragraf perlu dipecah pada node sebaris, baik itu run, kolom bookmark, dll. Konten dalam node induk yang dikloning tidak yang ada di antara penanda akan dihapus. Proses ini digunakan untuk memastikan bahwa node sebaris masih mempertahankan format paragraf induk. Metode ini juga akan menjalankan pemeriksaan pada node yang diteruskan sebagai parameter dan memberikan pengecualian jika salah satu node tidak valid. Parameter yang akan diteruskan ke metode ini adalah:

mulaiNode dan simpul akhir. Dua parameter pertama adalah node yang menentukan di mana ekstraksi konten akan dimulai dan diakhiri. Node ini dapat berupa level blok (Paragraph, Table, atau level inline (misalnya Run, FieldStart, BookmarkStart, dll.):
1. Untuk meneruskan suatu bidang, Anda harus meneruskan objek FieldStart yang sesuai.
2. Untuk meneruskan bookmark, node BookmarkStart dan BookmarkEnd harus dilewati.
3. Untuk menyampaikan komentar, node CommentRangeStart dan CommentRangeEnd harus digunakan.
adalah inklusif. Menentukan apakah penanda disertakan dalam ekstraksi atau tidak. Jika opsi ini disetel ke false dan node yang sama atau node berurutan diteruskan, maka daftar kosong akan dikembalikan:
1. Jika node FieldStart dilewatkan maka opsi ini menentukan apakah seluruh bidang akan disertakan atau dikecualikan.
2. Jika node BookmarkStart atau BookmarkEnd dilewatkan, opsi ini menentukan apakah bookmark disertakan atau hanya konten di antara rentang bookmark.
3. Jika node CommentRangeStart atau CommentRangeEnd diteruskan, opsi ini menentukan apakah komentar itu sendiri akan disertakan atau hanya konten dalam rentang komentar.

Penerapan metode ekstrak_konten Anda dapat menemukan Di Sini. Metode ini akan dirujuk dalam skenario di artikel ini.

Kami juga akan menentukan metode khusus untuk dengan mudah menghasilkan dokumen dari node yang diekstraksi. Metode ini digunakan dalam banyak skenario di bawah dan hanya membuat dokumen baru dan mengimpor konten yang diekstrak ke dalamnya.

Contoh kode berikut menunjukkan cara mengambil daftar node dan menyisipkannya ke dalam dokumen baru:

Ekstrak Konten Antar Paragraf

Ini menunjukkan cara menggunakan metode di atas untuk mengekstrak konten di antara paragraf tertentu. Dalam hal ini, kami ingin mengekstrak isi surat yang ditemukan di paruh pertama dokumen. Kita dapat mengatakan bahwa ini adalah antara paragraf ke 7 dan ke 11.

Kode di bawah menyelesaikan tugas ini. Paragraf yang sesuai diekstraksi menggunakan metode CompositeNode.get_child pada dokumen dan melewati indeks yang ditentukan. Kami kemudian meneruskan node ini ke metode ekstrak_konten dan menyatakan bahwa node tersebut akan disertakan dalam ekstraksi. Metode ini akan mengembalikan konten yang disalin di antara node-node ini yang kemudian disisipkan ke dalam dokumen baru.

Contoh kode berikut menunjukkan cara mengekstrak konten antar paragraf tertentu menggunakan metode ekstrak_konten di atas: