Node.jsでPDFからテキストを抽出

PDFドキュメントのすべてのページからテキストを抽出

PDFからテキストを抽出するのは簡単ではありません。PDF画像やスキャンされたPDFからテキストを抽出できるPDFリーダーは限られています。しかし、Aspose.PDF for Node.js via C++ ツールを使用すると、Node.js環境で簡単にすべてのPDFファイルからテキストを抽出できます。

このコードは、指定されたPDFファイルからテキストを抽出し、抽出されたテキストまたは遭遇したエラーをログに記録する方法を示しています。

コードスニペットを確認し、PDFからテキストを抽出する手順に従ってください:

CommonJS:

  1. requireを呼び出し、asposepdfnodejsモジュールをAsposePdf変数としてインポートします。

  2. PDFファイルからテキストを抽出するための名前を指定します。

  3. AsposePdfをPromiseとして呼び出し、テキストを抽出する操作を実行します。成功した場合はオブジェクトを受け取ります。

  4. 関数 AsposePdfExtractText を呼び出します。

  5. 抽出されたテキストはJSONオブジェクトに保存されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストがconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、ファイルにエラーが表示され、エラー情報は’json.errorText’に含まれます。


  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /*PDFファイルからテキストを抽出する*/
      const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
      console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
  });

ECMAScript/ES6:

  1. asposepdfnodejsモジュールをインポートします。

  2. テキストを抽出するPDFファイルの名前を指定します。

  3. AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。

  4. 関数 AsposePdfExtractText を呼び出します。

  5. 抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’ が0であれば、抽出されたテキストはconsole.logを使って表示されます。json.errorCodeパラメータが0でない場合、つまりファイルにエラーが発生した場合、エラー情報は ‘json.errorText’ に含まれます。


  import AsposePdf from 'asposepdfnodejs';
  const AsposePdfModule = await AsposePdf();
  const pdf_file = 'Aspose.pdf';
  /*PDFファイルからテキストを抽出*/
  const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
  console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);