Extrair Texto de PDF usando JavaScript

Extrair Texto de Documento PDF

Extrair texto do documento PDF é uma tarefa muito comum e útil. Extrair texto de PDFs serve a uma variedade de propósitos, desde melhorar a pesquisa e disponibilidade até possibilitar a análise e automação de dados em vários campos, como negócios, pesquisa e gerenciamento de informações.

Caso você queira extrair texto de um documento PDF, você pode usar a função AsposePdfExtractText. Por favor, verifique o seguinte trecho de código para extrair texto de um arquivo PDF usando JavaScript via C++.

  1. Crie um ‘FileReader’.

  2. A função AsposePdfExtractText é executada.

  3. Em seguida, se o ‘json.errorCode’ for 0, você pode obter links para os arquivos de resultado. Se o parâmetro ‘json.errorCode’ não for igual a 0 e, consequentemente, houver um erro em seu arquivo, então as informações sobre tal erro estarão contidas no arquivo ‘json.errorText’.


    var ffileExtract = function (e) {
        const file_reader = new FileReader();
        file_reader.onload = (event) => {
        /*Extrair texto de um arquivo PDF*/
        const json = AsposePdfExtractText(event.target.result, e.target.files[0].name);
        if (json.errorCode == 0) document.getElementById('output').textContent = json.extractText;
        else document.getElementById('output').textContent = json.errorText;
        };
        file_reader.readAsArrayBuffer(e.target.files[0]);
    };

Usando Web Workers


    /*Criar Web Worker*/
    const AsposePDFWebWorker = new Worker("AsposePDFforJS.js");
    AsposePDFWebWorker.onerror = evt => console.log(`Erro do Web Worker: ${evt.message}`);
    AsposePDFWebWorker.onmessage = evt => document.getElementById('output').textContent = 
        (evt.data == 'ready') ? 'carregado!' :
        (evt.data.json.errorCode == 0) ?
            evt.data.json.extractText :
            `Erro: ${evt.data.json.errorText}`; 

    /*Manipulador de eventos*/
    const ffileExtract = e => {
        const file_reader = new FileReader();
        file_reader.onload = event => {
        /*Extrair texto de um arquivo PDF - Solicitar ao Web Worker*/
        AsposePDFWebWorker.postMessage(
            { "operation": 'AsposePdfExtractText', "params": [event.target.result, e.target.files[0].name] },
            [event.target.result]
        );
        };
        file_reader.readAsArrayBuffer(e.target.files[0]);
    };