Extraindo texto bruto de arquivo PDF
Contents
[
Hide
]
Extrair Texto de Todas as Páginas de um Documento PDF
Extrair texto de um documento PDF é um requisito comum. Neste exemplo, você verá como Aspose.PDF para PHP permite extrair texto de todas as páginas de um documento PDF. Para extrair texto de todas as páginas do PDF:
-
Crie um objeto da classe TextAbsorber.
-
Abra o PDF usando a classe Document e chame o método Accept da coleção Pages.
-
A classe TextAbsorber absorve o texto do documento e retorna no método getText().
O trecho de código a seguir mostra como extrair texto de todas as páginas de um documento PDF.
// Cria um novo objeto Document a partir do arquivo PDF de entrada.
$document = new Document($inputFile);
// Cria um novo objeto TextAbsorber para extrair texto do documento.
$textAbsorber = new TextAbsorber();
// Extrai texto do documento.
$textAbsorber->visit($document);
// Obtém o conteúdo do texto extraído.
$content = $textAbsorber->getText();
// Salva o texto extraído no arquivo de saída.
file_put_contents($outputFile, $content);