Ekstrak Teks Dari Semua Halaman Dokumen PDF di Python

Ekstrak Teks dari PDF menggunakan Python

Untuk mengekstrak teks dari semua halaman dokumen PDF menggunakan Aspose.PDF Java untuk Python, cukup panggil modul ExtractTextFromAllPages.


# Buka dokumen target
pdf=self.Document()
pdf=self.dataDir + 'input1.pdf'

text_absorber=self.TextAbsorber()

pdf.getPages().accept(text_absorber)

extracted_text=text_absorber.getText()

writer=self.FileWriter(self.File(self.dataDir + 'extracted_text.out.txt'))
writer.write(extracted_text)
writer.close()

print "Teks berhasil diekstrak. Periksa file output."

Unduh Kode Berjalan

Unduh Ekstrak Teks Dari Semua Halaman (Aspose.PDF) dari salah satu situs pengkodean sosial yang disebutkan di bawah ini:

GitHub

Tambahkan Teks ke PDF yang Ada Menggunakan Python