Extraer Texto de PDF en Node.js
Contents
[
Hide
]
Extraer Texto del Documento PDF
Extraer texto del documento PDF es una tarea muy común y útil. Extraer texto de los PDFs sirve para una variedad de propósitos, desde mejorar la búsqueda y la disponibilidad hasta permitir el análisis y la automatización de datos en varios campos como negocios, investigación y gestión de información.
En caso de que quiera extraer texto de un documento PDF, puede usar la función AsposePdfExtractText. Por favor revise el siguiente fragmento de código para extraer texto de un archivo PDF usando Node.js a través de C++.
Revise los fragmentos de código y siga los pasos para extraer texto de su PDF:
CommonJS:
- Llama a
require
e importa el móduloasposepdfnodejs
como la variableAsposePdf
. - Especifica el nombre del archivo PDF del cual se extraerá el texto.
- Llama a
AsposePdf
como Promesa y realiza la operación para extraer texto. Recibe el objeto si tiene éxito. - Llama a la función AsposePdfExtractText.
- El texto extraído se almacena en el objeto JSON. Así, si ‘json.errorCode’ es 0, el texto extraído se muestra usando console.log. Si el parámetro json.errorCode no es 0 y, en consecuencia, aparece un error en tu archivo, la información del error estará contenida en ‘json.errorText’.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*Extraer texto de un archivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
- Importa el módulo
asposepdfnodejs
. - Especifica el nombre del archivo PDF del cual se extraerá el texto.
- Inicializa el módulo AsposePdf. Recibe el objeto si tiene éxito.
- Llama a la función AsposePdfExtractText.
- El texto extraído se almacena en el objeto JSON. Por lo tanto, si ‘json.errorCode’ es 0, el texto extraído se muestra usando console.log. Si el parámetro json.errorCode no es 0 y, en consecuencia, aparece un error en tu archivo, la información del error estará contenida en ‘json.errorText’.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*Extraer texto de un archivo PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);