Mengonversi PDF ke Teks di Python

Mengonversi PDF ke Teks

Aspose.PDF for Python mendukung konversi seluruh dokumen PDF dan halaman tunggal ke file Teks.

Mengonversi dokumen PDF ke file Teks

Anda dapat mengonversi dokumen PDF ke file TXT menggunakan kelas ‘TextDevice’.

  1. Membuat jalur file input dan output

  2. Membuat instance dari fasad ekstraktor PDF dengan [extractor_create] (https://reference.aspose.com/pdf/python-cpp/core/extractor_create/)

  3. Mengikat file PDF ke ekstraktor dengan extractor_bind_pdf

  4. Mengekstrak teks dari file PDF menggunakan extractor_extract_text

  5. Menulis teks yang diekstrak ke file keluaran

  6. Simpan PDF keluaran dengan metode ‘document.save’.

Cuplikan kode berikut menjelaskan cara mengekstrak teks dari semua halaman.


    from AsposePdfPython import *

    input_pdf = DIR_INPUT + "sample.pdf"
    output_pdf =  DIR_OUTPUT + "convert_pdf_to_txt.txt"

    extactor = extractor_create()
    extractor_bind_pdf(extactor,input_pdf)
    text = extractor_extract_text(extactor)

    with open(output_pdf, 'w') as f:
        f.write(text)