Extraindo texto bruto de arquivo PDF

Extrair Texto de Todas as Páginas de um Documento PDF

Extrair texto de um documento PDF é um requisito comum. Neste exemplo, você verá como Aspose.PDF para PHP permite extrair texto de todas as páginas de um documento PDF. Para extrair texto de todas as páginas do PDF:

  1. Crie um objeto da classe TextAbsorber.

  2. Abra o PDF usando a classe Document e chame o método Accept da coleção Pages.

  3. A classe TextAbsorber absorve o texto do documento e retorna no método getText().

O trecho de código a seguir mostra como extrair texto de todas as páginas de um documento PDF.


    // Cria um novo objeto Document a partir do arquivo PDF de entrada.
    $document = new Document($inputFile);

    // Cria um novo objeto TextAbsorber para extrair texto do documento.
    $textAbsorber = new TextAbsorber();

    // Extrai texto do documento.
    $textAbsorber->visit($document);

    // Obtém o conteúdo do texto extraído.
    $content = $textAbsorber->getText();

    // Salva o texto extraído no arquivo de saída.
    file_put_contents($outputFile, $content);