Ganti Teks di PDF dengan Python

Halaman ini menunjukkan cara mengganti teks dalam PDF dengan Python menggunakan Aspose.PDF for Python via .NET.

Gunakan contoh-contoh ini ketika Anda perlu memperbarui nilai teks, menghapus konten yang tidak diinginkan, mengganti teks di area halaman tertentu, atau menerapkan aturan penggantian teks pada banyak halaman PDF.

Ganti Teks di PDF dengan Python

Ganti Teks di Semua Halaman Dokumen PDF

Anda dapat mencoba pencarian teks dan penggantian secara daring dengan Aspose.PDF aplikasi redaksi.

Penggantian teks adalah kebutuhan umum ketika memperbarui atau memperbaiki konten dalam dokumen PDF yang ada — misalnya, mengubah nama produk, memperbaiki kesalahan ketik, atau memperbarui terminologi di seluruh beberapa halaman.

Aspose.PDF for Python via .NET menawarkan metode yang kuat dan efisien untuk mencari dan mengganti teks secara programatik melalui TextFragmentAbsorber kelas.

Contoh ini menunjukkan cara menemukan semua kemunculan frasa tertentu (dalam hal ini, “Black cat”) dan menggantinya dengan frasa baru (“White dog”) di seluruh dokumen PDF.

Tentukan Frasa Pencarian dan Penggantian. Atur teks yang ingin Anda temukan dan teks yang ingin Anda ganti.
Muat Dokumen PDF.
Buat sebuah Text Absorber. Sebuah TextFragmentAbsorber diinisialisasi dengan frasa pencarian. Ia memindai dokumen untuk semua kemunculan frasa yang diberikan.
Terapkan Absorber ke Semua Halaman. Ini mengulangi semua halaman dan mengumpulkan fragmen teks yang cocok dengan frasa tersebut.
Ganti setiap fragmen yang ditemukan. Setiap kemunculan “Black cat” harus diubah menjadi “White dog”.
Simpan PDF yang Diperbarui.

import sys
import aspose.pdf as ap
from os import path

def replace_text_on_all_pages(infile, outfile):
    search_phrase = "PDF"
    replace_phrase = "pdf"

    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber(search_phrase)
        document.pages.accept(absorber)

        for fragment in absorber.text_fragments:
            fragment.text = replace_phrase

        document.save(outfile)

Ganti Teks di Wilayah Halaman Tertentu

Kadang-kadang, Anda mungkin perlu mengganti teks hanya dalam area tertentu pada halaman PDF alih-alih mencari di seluruh dokumen — misalnya, memperbarui header, footer, atau sel tabel pada posisi yang diketahui.

Pustaka Aspose.PDF for Python via .NET memungkinkan fungsionalitas ini dengan memanfaatkan TextFragmentAbsorber bersamaan dengan pencarian teks berbasis wilayah.

Contoh ini menunjukkan cara menemukan dan mengganti semua kemunculan frasa target dalam wilayah persegi panjang yang ditentukan pada halaman tertentu.

Tentukan Frasa Pencarian dan Penggantian.
Muat Dokumen PDF.
Buat Text Absorber untuk Pencarian. Inisialisasi TextFragmentAbsorber untuk menemukan teks yang diinginkan.
Batasi Area Pencarian. Persegi panjang menentukan batas koordinat x dan y pada halaman.
Terapkan Absorber pada Halaman Tertentu. Ini melakukan pencarian dan mengumpulkan fragmen teks yang cocok dalam area yang ditentukan.
Ganti Teks yang Ditemukan. Setiap kemunculan \u0027doc\u0027 dalam wilayah yang ditentukan menjadi \u0027DOC\u0027.
Simpan PDF yang Diperbarui.

import sys
import aspose.pdf as ap
from os import path

def replace_text_in_particular_page_region(infile, outfile):
    search_phrase = "doc"
    replace_phrase = "DOC"

    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber(search_phrase)
        absorber.text_search_options.limit_to_page_bounds = True
        absorber.text_search_options.rectangle = ap.Rectangle(300, 442, 500, 742, True)
        document.pages[1].accept(absorber)

        for fragment in absorber.text_fragments:
            fragment.text = replace_phrase

        document.save(outfile)

Ubah Ukuran dan Geser Teks Tanpa Mengubah Ukuran Font

Saat mengganti teks dalam sebuah PDF, terkadang Anda ingin menyesuaikan atau memindahkan posisi teks baru ke dalam area tertentu tanpa mengubah ukuran font. Aspose.PDF for Python via .NET menyediakan opsi untuk menyesuaikan tata letak teks dan spasi sambil mempertahankan ukuran Font asli tetap.

Muat Dokumen PDF.
Kumpulkan semua fragmen teks pada halaman menggunakan “TextFragmentAbsorber”.
Pilih Fragmen untuk Dimodifikasi.
Pindahkan dan ubah ukuran persegi panjang teks.
Sesuaikan Spasi Teks. Aktifkan penyesuaian spasi untuk menyesuaikan teks dalam persegi panjang yang dimodifikasi.
Ganti teks fragmen.
Simpan PDF yang Diperbarui.

import sys
import aspose.pdf as ap
from os import path

def replace_text_and_resize_and_shift_without_changing_font_size(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.visit(document.pages[1])
        fragment = absorber.text_fragments[1]
        text = fragment.text
        rect = fragment.rectangle
        rect.llx += 50
        rect.urx -= 50
        fragment.replace_options.rectangle = rect
        fragment.replace_options.replace_adjustment_action = (
            ap.text.TextReplaceOptions.ReplaceAdjustment.ADJUST_SPACE_WIDTH
        )
        fragment.text = f"{text} {text}"
        document.save(outfile)

Ubah Ukuran dan Geser Paragraf dalam PDF

Saat bekerja dengan PDF, terkadang Anda perlu mengganti atau memperluas sebuah paragraf sambil menjaga agar tetap selaras secara visual dengan tata letak halaman. Aspose.PDF memungkinkan Anda mengubah ukuran persegi pembatas paragraf dan menyesuaikan spasi untuk menampung teks baru, semuanya tanpa mengubah ukuran Font.

Muat Dokumen PDF.
Gunakan ‘TextFragmentAbsorber’ untuk mengumpulkan semua fragmen teks pada halaman.
Pilih Fragmen untuk Dimodifikasi.
Ubah ukuran dan geser Paragraf. Gunakan media box halaman untuk menentukan batas dan sesuaikan persegi panjang.
Sesuaikan Spasi. Ini mengubah spasi antara kata/huruf alih-alih mengubah ukuran font.
Ganti teks fragmen.
Simpan PDF yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def replace_text_and_resize_and_shift_paragraph(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.visit(document.pages[1])
        fragment = absorber.text_fragments[1]
        text = fragment.text
        rect = document.pages[1].media_box
        rect.llx += 20
        rect.urx -= 20
        rect.ury -= 20
        fragment.replace_options.rectangle = rect
        fragment.replace_options.replace_adjustment_action = (
            ap.text.TextReplaceOptions.ReplaceAdjustment.ADJUST_SPACE_WIDTH
        )
        fragment.text = f"{text} {text}"
        document.save(outfile)

Ganti Teks dan Secara Otomatis Perluas Font untuk Mengisi Area Target

Ganti teks dalam PDF sambil secara otomatis mengubah ukuran dan memperluas font agar mengisi area persegi panjang tertentu. Menggunakan perpustakaan Aspose.PDF for Python via .NET, kode secara dinamis menyesuaikan ukuran font dan spasi sehingga konten teks baru pas dengan sempurna dalam kotak pembatas yang ditentukan — tanpa perhitungan font manual.

Muat PDF.
Tangkap Fragmen Teks.
Pilih Fragmen Spesifik.
Definisikan Persegi Panjang Target.
Aktifkan Opsi Penyesuaian Teks.
Ganti Teks.
Simpan Dokumen.

import sys
import aspose.pdf as ap
from os import path

def replace_text_and_resize_and_expand_font(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.visit(document.pages[1])
        fragment = absorber.text_fragments[1]
        text = fragment.text
        fragment.replace_options.rectangle = ap.Rectangle(100, 300, 512, 692, True)
        fragment.replace_options.replace_adjustment_action = (
            ap.text.TextReplaceOptions.ReplaceAdjustment.ADJUST_SPACE_WIDTH
        )
        fragment.replace_options.font_size_adjustment_action = (
            ap.text.TextReplaceOptions.FontSizeAdjustment.SCALE_TO_FILL
        )
        fragment.text = f"{text} {text}"
        document.save(outfile)

Ganti Teks dan Sesuaikan ke dalam Persegi Panjang

Ganti teks dalam dokumen PDF sambil memastikan konten baru muat dalam area persegi panjang teks asli dengan secara otomatis mengurangi ukuran font bila diperlukan.

Menggunakan library Aspose.PDF for Python via .NET, fungsi ini menyesuaikan tata letak teks dan ukuran Font secara dinamis, mempertahankan struktur dokumen sambil mencegah kelebihan.

Buat objek TextFragmentAbsorber untuk mengekstrak semua fragmen teks dari halaman pertama.
Akses Fragmen Teks Spesifik.
Atur Area Penggantian.
Konfigurasikan Opsi Penyesuaian Teks. Atur dua opsi penggantian utama:
- Penyesuaian ukuran font - ‘SHRINK_TO_FIT’ secara otomatis mengurangi ukuran font jika teks baru terlalu panjang.
- Penyesuaian spasi - ‘ADJUST_SPACE_WIDTH’ menjaga spasi tetap proporsional.
Ganti Teks.
Simpan PDF yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def replace_text_and_fit_text_into_rectangle(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.visit(document.pages[1])
        fragment = absorber.text_fragments[1]
        text = fragment.text
        fragment.replace_options.rectangle = fragment.rectangle
        fragment.replace_options.font_size_adjustment_action = (
            ap.text.TextReplaceOptions.FontSizeAdjustment.SHRINK_TO_FIT
        )
        fragment.replace_options.replace_adjustment_action = (
            ap.text.TextReplaceOptions.ReplaceAdjustment.ADJUST_SPACE_WIDTH
        )
        fragment.text = f"{text} {text}"
        document.save(outfile)

Secara Otomatis Ganti Teks Placeholder dan Atur Ulang Tata Letak PDF

Ganti teks placeholder di dalam PDF (misalnya, templat atau formulir) dengan data aktual seperti nama atau informasi perusahaan. Ia secara otomatis menyesuaikan tata letak halaman untuk menampung teks baru sambil menerapkan format kustom (font, warna, ukuran).

Impor dan Muat PDF.
Buat Text Absorber untuk Placeholder.
Terapkan Absorber ke Semua Halaman.
Iterasi Melalui Fragmen Teks yang Ditemukan.
Terapkan Pemformatan Teks Kustom.
Simpan Dokumen yang Diperbarui.

import sys
import aspose.pdf as ap
from os import path

def automatically_rearrange_page_contents(input_file, output_file):
    document = ap.Document(input_file)

    absorber = ap.text.TextFragmentAbsorber("[Long_placeholder_Long_placeholder]")
    document.pages.accept(absorber)

    for text_fragment in absorber.text_fragments:
        # text_fragment.text = "John Smith"
        text_fragment.text = "John Smith, South Development Studio"
        text_fragment.text_state.font = ap.text.FontRepository.find_font("Calibri")
        text_fragment.text_state.font_size = 12
        text_fragment.text_state.foreground_color = ap.Color.navy

    # Save PDF document
    document.save(output_file)

Ganti Teks Berdasarkan Ekspresi Reguler

Saat bekerja dengan dokumen PDF, Anda mungkin perlu mengganti teks yang mengikuti pola bukan frasa khusus — misalnya, nomor telepon, kode, atau format mirip tanggal.

Aspose.PDF for Python via .NET memungkinkan Anda melakukan penggantian semacam itu menggunakan ekspresi reguler (regex) dengan kelas TextFragmentAbsorber.

Contoh ini menunjukkan cara menemukan pola teks (dalam hal ini, teks apa pun yang cocok dengan format ####-####, seperti 1234-5678) dan menggantinya dengan string terformat ‘ABC1-2XZY’. Ini juga menunjukkan cara menyesuaikan font, warna, dan ukuran teks yang diganti.

Potongan kode berikut menunjukkan cara mengganti teks berdasarkan ekspresi reguler.

Muat Dokumen PDF.
Buat Text Absorber berbasis Regex. Inisialisasi TextFragmentAbsorber dengan pola ekspresi reguler.
Aktifkan Mode Ekspresi Reguler. Parameter \u0027True\u0027 mengaktifkan mode pencarian ekspresi reguler.
Terapkan Absorber ke Halaman. Ini memindai halaman untuk semua fragmen teks yang cocok dengan pola regex yang didefinisikan.
Ganti setiap kecocokan dengan teks baru dan terapkan gaya khusus.
Simpan Dokumen yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def replace_text_based_on_regex(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber(r"\d{4}-\d{4}")
        absorber.text_search_options = ap.text.TextSearchOptions(True)
        document.pages[1].accept(absorber)

        for fragment in absorber.text_fragments:
            fragment.text = "ABC1-2XZY"
            fragment.text_state.font = ap.text.FontRepository.find_font("Verdana")
            fragment.text_state.font_size = 12
            fragment.text_state.foreground_color = ap.Color.blue
            fragment.text_state.background_color = ap.Color.light_green

        document.save(outfile)

Ganti font atau hapus font yang tidak digunakan

Ganti font dalam file PDF yang ada

Kadang-kadang, Anda perlu menstandarisasi atau memperbarui font di seluruh PDF — misalnya, mengganti font yang usang atau proprietari dengan yang lebih mudah diakses. Perpustakaan Aspose.PDF for Python via .NET memungkinkan Anda mendeteksi dan mengganti font secara programatis, memastikan tipografi yang konsisten dan kompatibilitas dokumen.

Contoh ini menunjukkan cara mengganti semua instance font tertentu (mis., ‘Arial-BoldMT’) dengan font lain (mis., ‘Verdana’) di seluruh dokumen PDF.

Potongan kode berikut menunjukkan cara mengganti font di dalam dokumen PDF:

Buka Dokumen PDF.
Inisialisasi TextFragmentAbsorber.
Gunakan Absorber untuk mengekstrak fragmen teks dari setiap halaman dalam dokumen.
Identifikasi dan Ganti Font. Skrip memeriksa apakah font saat ini dari sebuah fragmen adalah ‘Arial-BoldMT’. Jika benar, skrip menggantinya dengan font ‘Verdana’ menggunakan metode FontRepository.find_font().
Simpan Dokumen yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def replace_fonts(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        document.pages.accept(absorber)

        for fragment in absorber.text_fragments:
            if fragment.text_state.font.font_name == "Arial-BoldMT":
                fragment.text_state.font = ap.text.FontRepository.find_font("Verdana")

        document.save(outfile)

Hapus font yang tidak terpakai

Seiring waktu, dokumen PDF dapat mengumpulkan font yang tidak terpakai atau ter-embed yang meningkatkan ukuran file dan memperlambat pemrosesan. Font yang tidak terpakai ini sering tetap ada bahkan setelah penyuntingan atau penggantian teks, terutama saat bekerja dengan PDF yang besar atau kompleks.

Perpustakaan Aspose.PDF for Python via .NET menyediakan cara yang efisien untuk menghapus font berlebih tersebut menggunakan kelas TextEditOptions. Ini tidak hanya mengoptimalkan dokumen Anda tetapi juga memastikan hanya font yang memang diterapkan pada teks yang terlihat yang digunakan.

Metode ‘remove_unused_fonts()’ adalah cara sederhana namun kuat untuk mengoptimalkan file PDF dengan menghapus data font yang berlebih.

Contoh ini menunjukkan cara:

Pindai PDF untuk mencari font yang tidak terpakai.
Hapus mereka dengan aman.
Alihkan kembali fragmen teks aktif ke font yang konsisten (mis., Times New Roman).

Buka Dokumen PDF.
Konfigurasikan Opsi Penyuntingan Teks. Ini memberi instruksi kepada mesin untuk menghapus semua font tertanam yang tidak sedang digunakan dalam teks yang terlihat.
Buat Text Absorber dengan Opsi. TextFragmentAbsorber mengekstrak fragmen teks dari dokumen untuk penyuntingan.
Tetapkan ulang Font Standar. Setelah absorber mengumpulkan semua fragmen, iterasi melalui mereka dan terapkan font yang konsisten.
Simpan PDF yang sudah dibersihkan.

import sys
import aspose.pdf as ap
from os import path

def remove_unused_fonts(input_file, output_file):
    # Open PDF document
    document = ap.Document(input_file)

    # Initialize text edit options to remove unused fonts
    options = ap.text.TextEditOptions(
        ap.text.TextEditOptions.FontReplace.REMOVE_UNUSED_FONTS
    )

    # Create a TextFragmentAbsorber with the specified options
    absorber = ap.text.TextFragmentAbsorber(options)
    document.pages.accept(absorber)

    # Iterate through all TextFragments
    for text_fragment in absorber.text_fragments:
        text_fragment.text_state.font = ap.text.FontRepository.find_font(
            "TimesNewRoman"
        )

    # Save the updated PDF document
    document.save(output_file)

Hapus semua Teks

Hapus Teks dari PDF

Hapus semua konten teks dari file PDF sambil menjaga gambar, bentuk, dan struktur tata letak tetap utuh. Dengan menggunakan TextFragmentAbsorber, kode tersebut secara efisien memindai seluruh dokumen dan menghapus setiap fragmen teks yang ditemukan pada setiap halaman.

Muat Dokumen PDF.
Objek TextFragmentAbsorber dibuat untuk mendeteksi dan menangani fragmen teks dalam PDF.
Hapus Semua Konten Teks. Metode ‘absorber.remove_all_text()’ menghapus setiap elemen teks dari dokumen yang dimuat, meninggalkan komponen non-teks tidak tersentuh.
Simpan Dokumen yang Diperbarui.

import sys
import aspose.pdf as ap
from os import path

def remove_all_text_using_absorber1(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.remove_all_text(document)
        document.save(outfile)

Hapus semua Teks dari Halaman Tertentu

Hapus semua teks dari satu halaman dokumen PDF menggunakan kelas TextFragmentAbsorber di Aspose.PDF. Tidak seperti penghapusan seluruh dokumen, metode ini melakukan pembersihan teks pada tingkat halaman, menghapus teks hanya dari halaman yang dipilih sementara semua halaman lainnya tetap tidak tersentuh.

Muat File PDF.
Buat Instance TextFragmentAbsorber.
Hapus Semua Teks dari Halaman Pertama.
Simpan PDF yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def remove_all_text_using_absorber2(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.remove_all_text(document.pages[1])
        document.save(outfile)

Hapus semua Teks dari area tertentu pada halaman PDF

Hapus semua teks dari wilayah persegi panjang tertentu pada sebuah halaman menggunakan Aspose.PDF’s TextFragmentAbsorber. Alih-alih menghapus seluruh halaman, metode ini melakukan penghapusan teks yang ditargetkan, memungkinkan kontrol yang tepat atas bagian mana dari halaman yang terpengaruh.

Muat Dokumen PDF.
Buat TextFragmentAbsorber.
Tentukan Area Target (Persegi Panjang).
Hapus Teks dari Wilayah yang Ditentukan.
Pertahankan Sisa Dokumen.
Simpan PDF yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def remove_all_text_using_absorber3(infile, outfile):
    with ap.Document(infile) as document:
        absorber = ap.text.TextFragmentAbsorber()
        absorber.remove_all_text(
            document.pages[1], ap.Rectangle(10, 200, 120, 600, True)
        )
        document.save(outfile)

Hapus semua teks tersembunyi dari dokumen PDF

Muat Dokumen PDF.
Buat TextFragmentAbsorber.
Tentukan Area Target (Persegi Panjang).
Hapus Teks dari Wilayah yang Ditentukan.
Pertahankan Sisa Dokumen.
Simpan PDF yang Dimodifikasi.

import sys
import aspose.pdf as ap
from os import path

def remove_hidden_text(infile, outfile):
    # Open PDF document
    with ap.Document(infile) as document:
        text_absorber = ap.text.TextFragmentAbsorber()
        # This option can be used to prevent other text fragments from moving after hidden text replacement
        text_absorber.text_replace_options = ap.text.TextReplaceOptions(
            ap.text.TextReplaceOptions.ReplaceAdjustment.NONE
        )
        document.pages.accept(text_absorber)
        # Remove hidden text
        for fragment in text_absorber.text_fragments:
            if fragment.text_state.invisible:
                fragment.text = ""
        # Save PDF document
        document.save(outfile)

Topik Teks Terkait

Gunakan FloatingBox untuk Tata Letak PDF di Python Putar Teks PDF di Python