PDF에서 텍스트 추출하기 in Node.js
Contents
[
Hide
]
PDF 문서에서 텍스트 추출하기
PDF 문서에서 텍스트를 추출하는 것은 매우 일반적이고 유용한 작업입니다. PDF에서 텍스트를 추출하는 것은 검색 및 가용성을 개선하는 것부터 비즈니스, 연구 및 정보 관리와 같은 다양한 분야에서 데이터의 분석 및 자동화를 가능하게 하는 것에 이르기까지 다양한 목적을 제공합니다.
PDF 문서에서 텍스트를 추출하고자 하는 경우 AsposePdfExtractText 함수를 사용할 수 있습니다. C++를 통해 Node.js를 사용하여 PDF 파일에서 텍스트를 추출하기 위해 다음 코드 스니펫을 확인하십시오.
코드 스니펫을 확인하고 PDF에서 텍스트를 추출하는 단계를 따르세요:
CommonJS:
require
를 호출하고asposepdfnodejs
모듈을AsposePdf
변수로서 가져옵니다.- 텍스트가 추출될 PDF 파일의 이름을 지정합니다.
AsposePdf
를 Promise로 호출하고 텍스트를 추출하는 작업을 수행합니다. 성공하면 객체를 받습니다.- 함수 AsposePdfExtractText를 호출합니다.
- 추출된 텍스트는 JSON 객체에 저장됩니다. 따라서 ‘json.errorCode’가 0이면 추출된 텍스트가 console.log를 사용하여 표시됩니다. json.errorCode 매개변수가 0이 아니고, 따라서 파일에 오류가 나타나면 오류 정보는 ‘json.errorText’에 포함됩니다.
const AsposePdf = require('asposepdfnodejs');
const pdf_file = 'Aspose.pdf';
AsposePdf().then(AsposePdfModule => {
/*PDF 파일에서 텍스트 추출*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);
});
ECMAScript/ES6:
asposepdfnodejs
모듈을 가져옵니다.- 텍스트를 추출할 PDF 파일의 이름을 지정합니다.
- AsposePdf 모듈을 초기화합니다. 성공하면 객체를 받습니다.
- 함수 AsposePdfExtractText를 호출합니다.
- 추출된 텍스트는 JSON 객체에 저장됩니다. 따라서 ‘json.errorCode’가 0이면, 추출된 텍스트는 console.log를 사용하여 표시됩니다. json.errorCode 매개변수가 0이 아니고, 그에 따라 파일에 오류가 나타나면 오류 정보는 ‘json.errorText’에 포함됩니다.
import AsposePdf from 'asposepdfnodejs';
const AsposePdfModule = await AsposePdf();
const pdf_file = 'Aspose.pdf';
/*PDF 파일에서 텍스트 추출*/
const json = AsposePdfModule.AsposePdfExtractText(pdf_file);
console.log("AsposePdfExtractText => %O", json.errorCode == 0 ? json.extractText : json.errorText);