Ekstraksi Teks Dasar menggunakan Python
Contents
[
Hide
]
Ekstrak teks dari semua halaman dokumen PDF
Gunakan TextAbsorber untuk menangkap semua teks dari setiap halaman dokumen PDF dan menuliskannya ke file teks. Pendekatan ini sangat cocok untuk mengonversi PDF menjadi teks yang dapat dicari, menjalankan analisis konten, atau menyiapkan teks untuk pengindeksan dan pemrosesan lanjutan.
- Buka dokumen PDF menggunakan Document.
- Buat sebuah
TextAbsorberinstansi. - Panggilan
document.pages.accept(text_absorber)untuk memindai semua halaman. - Ambil teks yang diekstrak dari
text_absorber.text. - Tuliskan hasilnya ke file teks keluaran.
import os
import aspose.pdf as ap
def extract_text_from_all_pages(infile, outfile):
"""
Extract all text from every page of the PDF and write to an output text file.
Args:
infile (str): Path to input PDF file.
outfile (str): Path to output text file.
"""
# Open the PDF document
document = ap.Document(infile)
# Create a TextAbsorber to extract text
text_absorber = ap.text.TextAbsorber()
# Accept the absorber for all pages
document.pages.accept(text_absorber)
# Get extracted text
extracted_text = text_absorber.text
# Write the text to an output file
with open(outfile, "w", encoding="utf-8") as tw:
tw.write(extracted_text)
Ekstrak teks dari halaman tertentu
Terapkan TextAbsorber ke satu halaman untuk mengisolasi dan menyimpan teks dari bagian tersebut dalam dokumen multi‑halaman. Ini berguna ketika Anda hanya membutuhkan konten dari satu halaman — misalnya, faktur, bagian laporan, atau ringkasan formulir.
- Buka dokumen PDF menggunakan Document.
- Buat sebuah
TextAbsorberinstansi. - Panggilan
acceptpada halaman target:document.pages[page_number].accept(text_absorber). - Ambil teks yang diekstraksi dan tulis ke sebuah file.
import os
import aspose.pdf as ap
def extract_text_from_page(infile, outfile, page_number):
"""
Extract text from a specific page number of the PDF.
Args:
infile (str): Path to input PDF file.
outfile (str): Path to output text file.
page_number (int): 1-based page index to extract.
"""
document = ap.Document(infile)
text_absorber = ap.text.TextAbsorber()
# Accept the absorber on only the specified page
document.pages[page_number].accept(text_absorber)
extracted_text = text_absorber.text
with open(outfile, "w", encoding="utf-8") as tw:
tw.write(extracted_text)