Extrair Texto de PDF em Node.js
Contents
[
Hide
]
Extrair Texto de Documento PDF
Extrair texto de um documento PDF é uma tarefa muito comum e útil. Extrair texto de PDFs serve para uma variedade de propósitos, desde melhorar a busca e disponibilidade até permitir a análise e automação de dados em vários campos, como negócios, pesquisa e gestão da informação.
Caso você queira extrair texto de um documento PDF, você pode usar a função AsposePdfExtractText. Por favor, verifique o trecho de código a seguir para extrair texto de um arquivo PDF usando Node.js via C++.
Confira os trechos de código e siga os passos para extrair texto do seu PDF:
CommonJS:
- Chame
require
e importe o móduloasposepdfnodejs
como variávelAsposePdf
. - Especifique o nome do arquivo PDF do qual o texto será extraído.
- Chame
AsposePdf
como Promise e execute a operação para extrair texto. Receba o objeto se for bem-sucedido. - Chame a função AsposePdfExtractText.
- O texto extraído é armazenado no objeto JSON. Assim, se ‘json.errorCode’ for 0, o texto extraído é exibido usando console.log. Se o parâmetro json.errorCode não for 0 e, consequentemente, aparecer um erro no seu arquivo, a informação do erro estará contida em ‘json.errorText’.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*Extrair texto de um arquivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
- Importe o módulo
asposepdfnodejs
. - Especifique o nome do arquivo PDF do qual o texto será extraído.
- Inicialize o módulo AsposePdf. Receba o objeto se for bem-sucedido.
- Chame a função AsposePdfExtractText.
- O texto extraído é armazenado no objeto JSON. Assim, se ‘json.errorCode’ for 0, o texto extraído será exibido usando console.log. Se o parâmetro json.errorCode não for 0 e, consequentemente, um erro aparecer no seu arquivo, as informações do erro serão contidas em ‘json.errorText’.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*Extrair texto de um arquivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);