Mengekstraksi teks mentah dari file PDF

Ekstrak Teks Dari Semua Halaman Dokumen PDF

Mengekstraksi teks dari dokumen PDF adalah kebutuhan umum. Dalam contoh ini, Anda akan melihat bagaimana Aspose.PDF untuk PHP memungkinkan mengekstraksi teks dari semua halaman dokumen PDF. Untuk mengekstraksi teks dari semua halaman PDF:

  1. Buat objek dari kelas TextAbsorber.

  2. Buka PDF menggunakan kelas Document dan panggil metode Accept dari koleksi Pages.

  3. Kelas TextAbsorber menyerap teks dari dokumen dan mengembalikannya dalam metode getText().

Cuplikan kode berikut menunjukkan cara mengekstrak teks dari semua halaman dokumen PDF.


    // Buat objek Dokumen baru dari file PDF input.
    $document = new Document($inputFile);

    // Buat objek TextAbsorber baru untuk mengekstrak teks dari dokumen.
    $textAbsorber = new TextAbsorber();

    // Ekstrak teks dari dokumen.
    $textAbsorber->visit($document);

    // Dapatkan konten teks yang diekstraksi.
    $content = $textAbsorber->getText();

    // Simpan teks yang diekstraksi ke file output.
    file_put_contents($outputFile, $content);