PDFからテキストを抽出する方法（Node.js）

PDFドキュメントからテキストを抽出する

PDFドキュメントからテキストを抽出することは、非常に一般的で有用なタスクです。PDFからテキストを抽出することは、検索と可用性の向上から、ビジネス、研究、情報管理などの様々な分野でのデータの分析と自動化を可能にするために役立ちます。

PDFドキュメントからテキストを抽出したい場合は、AsposePdfExtractText 関数を使用できます。 Node.jsを通じてC++を使用してPDFファイルからテキストを抽出するための以下のコードスニペットを確認してください。

コードスニペットを確認し、PDFからテキストを抽出する手順に従ってください：

CommonJS:

requireを呼び出し、asposepdfnodejsモジュールをAsposePdf変数としてインポートします。
テキストを抽出するPDFファイルの名前を指定します。
AsposePdfをPromiseとして呼び出し、テキストを抽出する操作を実行します。成功した場合はオブジェクトを受け取ります。
関数AsposePdfExtractTextを呼び出します。
抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、つまりファイルにエラーが表示される場合、エラー情報は’json.errorText’に含まれます。


  const AsposePdf = require('asposepdfnodejs');
  const pdf_file = 'Aspose.pdf';
  AsposePdf().then(AsposePdfModule => {
      /* PDFファイルからテキストを抽出 */
      const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
      console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
  });

ECMAScript/ES6:

asposepdfnodejsモジュールをインポートします。
テキストを抽出するPDFファイルの名前を指定します。
AsposePdfモジュールを初期化します。成功した場合はオブジェクトを受け取ります。
関数AsposePdfExtractTextを呼び出します。
抽出されたテキストはJSONオブジェクトに格納されます。したがって、‘json.errorCode’が0の場合、抽出されたテキストはconsole.logを使用して表示されます。json.errorCodeパラメータが0でない場合、ファイルにエラーが表示され、エラー情報は’json.errorText’に含まれます。


  import AsposePdf from 'asposepdfnodejs';
  const AsposePdfModule = await AsposePdf();
  const pdf_file = 'Aspose.pdf';
  /*PDFファイルからテキストを抽出する*/
  const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
  console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);

PDFから画像を抽出する方法 Node.js