Extrair Texto de PDF em Node.js
Extrair Texto de Todas as Páginas do Documento PDF
Extrair texto de PDF não é fácil. Apenas alguns leitores de PDF podem extrair texto de imagens em PDF ou PDFs digitalizados. Mas a ferramenta Aspose.PDF para Node.js via C++ permite que você extraia facilmente texto de todo o arquivo PDF no ambiente Node.js.
Este código demonstra como usar o módulo AsposePDFforNode.js para extrair texto de um arquivo PDF especificado e registrar o texto extraído ou erros encontrados.
Confira os trechos de código e siga os passos para extrair texto do seu PDF:
CommonJS:
-
Chame
require
e importe o móduloasposepdfnodejs
como variávelAsposePdf
. -
Especifique o nome do arquivo PDF do qual o texto será extraído.
-
Chame
AsposePdf
como Promise e execute a operação para extrair o texto. Receba o objeto se for bem-sucedido. -
Chame a função AsposePdfExtractText.
-
O texto extraído é armazenado no objeto JSON. Assim, se ‘json.errorCode’ for 0, o texto extraído é exibido usando console.log. Se o parâmetro json.errorCode não for 0 e, consequentemente, aparecer um erro no seu arquivo, as informações do erro estarão contidas em ‘json.errorText’.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*Extrair texto de um arquivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
-
Importe o módulo
asposepdfnodejs
. -
Especifique o nome do arquivo PDF do qual o texto será extraído.
-
Inicialize o módulo AsposePdf. Receba o objeto se for bem-sucedido.
-
Chame a função AsposePdfExtractText.
-
O texto extraído é armazenado no objeto JSON. Assim, se ‘json.errorCode’ for 0, o texto extraído é exibido usando console.log. Se o parâmetro json.errorCode não for 0 e, consequentemente, um erro aparecer em seu arquivo, as informações do erro estarão contidas em ‘json.errorText’.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*Extrair texto de um arquivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);