Extraire du Texte à partir d'un PDF en Node.js
Extraire du Texte de toutes les Pages d’un Document PDF
Extraire du texte d’un PDF n’est pas facile. Seuls quelques lecteurs PDF peuvent extraire du texte à partir d’images PDF ou de PDF scannés. Mais l’outil Aspose.PDF pour Node.js via C++ vous permet d’extraire facilement du texte de tous les fichiers PDF dans l’environnement Node.js.
Ce code démontre comment utiliser le module AsposePDFforNode.js pour extraire du texte d’un fichier PDF spécifié et enregistrer soit le texte extrait soit les erreurs rencontrées.
Consultez les extraits de code et suivez les étapes pour extraire du texte de votre PDF :
CommonJS :
-
Appelez
require
et importez le moduleasposepdfnodejs
en tant que variableAsposePdf
. -
Spécifiez le nom du fichier PDF à partir duquel le texte sera extrait.
-
Appelez
AsposePdf
comme une Promesse et effectuez l’opération d’extraction de texte. Recevez l’objet en cas de succès. -
Appelez la fonction AsposePdfExtractText.
-
Le texte extrait est stocké dans l’objet JSON. Ainsi, si ‘json.errorCode’ est 0, le texte extrait est affiché en utilisant console.log. Si le paramètre json.errorCode n’est pas 0 et qu’une erreur apparaît dans votre fichier, les informations sur l’erreur seront contenues dans ‘json.errorText’.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*Extraire le texte d'un fichier PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
-
Importez le module
asposepdfnodejs
. -
Spécifiez le nom du fichier PDF à partir duquel le texte sera extrait.
-
Initialisez le module AsposePdf. Recevez l’objet en cas de succès.
-
Appelez la fonction AsposePdfExtractText.
-
Le texte extrait est stocké dans l’objet JSON. Ainsi, si ‘json.errorCode’ est 0, le texte extrait est affiché en utilisant console.log. Si le paramètre json.errorCode n’est pas 0 et, en conséquence, une erreur apparaît dans votre fichier, les informations sur l’erreur seront contenues dans ‘json.errorText’.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*Extraire le texte d'un fichier PDF*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);