Extracción de texto sin formato de un archivo PDF

Extraer Texto de Todas las Páginas de un Documento PDF

La extracción de texto de un documento PDF es un requisito común. En este ejemplo, verás cómo Aspose.PDF para PHP permite extraer texto de todas las páginas de un documento PDF. Para extraer texto de todas las páginas del PDF:

Crea un objeto de la clase TextAbsorber.
Abra el PDF usando la clase Document y llame al método Accept de la colección Pages.
La clase TextAbsorber absorbe el texto del documento y lo devuelve en el método getText().

El siguiente fragmento de código le muestra cómo extraer texto de todas las páginas de un documento PDF.


    // Crear un nuevo objeto Document desde el archivo PDF de entrada.
    $document = new Document($inputFile);

    // Crear un nuevo objeto TextAbsorber para extraer texto del documento.
    $textAbsorber = new TextAbsorber();

    // Extraer texto del documento.
    $textAbsorber->visit($document);

    // Obtener el contenido de texto extraído.
    $content = $textAbsorber->getText();

    // Guardar el texto extraído en el archivo de salida.
    file_put_contents($outputFile, $content);

Extraer Párrafo de PDF