Trabajar con metadatos de archivos PDF en Python

Utilice esta guía cuando necesite inspeccionar las propiedades del documento, actualizar la información del archivo PDF para búsqueda o catalogación, o gestionar los metadatos XMP programáticamente en Python.

Obtener información del archivo PDF

Este fragmento de código muestra cómo extraer metadatos de un documento PDF usando Aspose.PDF for Python via .NET. Al acceder a la propiedad info del objeto Document, recupera información clave como el autor, la fecha de creación, las palabras clave, la fecha de modificación, el asunto y el título. Esta funcionalidad es esencial para aplicaciones que requieren catalogación de documentos, optimización de búsquedas o validación de las propiedades del documento.

  1. Abra el archivo PDF usando la clase Document
  2. Recupera los metadatos del documento a través de la propiedad info
  3. Muestre la información de los metadatos. Imprima los campos de metadatos deseados
import aspose.pdf as ap
import datetime
import sys
from os import path

def get_pdf_file_information(infile):
    # Open PDF document
    document = ap.Document(infile)

    # Get document information
    doc_info = document.info

    # Display document information
    print(f"Author: {doc_info.author}")
    print(f"Creation Date: {doc_info.creation_date}")
    print(f"Keywords: {doc_info.keywords}")
    print(f"Modify Date: {doc_info.mod_date}")
    print(f"Subject: {doc_info.subject}")
    print(f"Title: {doc_info.title}")

Establecer información del archivo PDF

Aspose.PDF for Python via .NET le permite establecer información específica del archivo para un PDF, información como autor, fecha de creación, tema y título. Para establecer esta información:

  1. Abra el archivo PDF usando la clase Document.
  2. Cree un DocumentInfo objeto y establezca las propiedades de metadatos deseadas.
  3. Guarde los cambios en un nuevo archivo PDF usando el método save.

El siguiente fragmento de código le muestra cómo establecer la información del archivo PDF.

import aspose.pdf as ap
import datetime
import sys
from os import path

def set_file_information(infile, outfile):

    # Open PDF document
    document = ap.Document(infile)

    # Specify document information
    doc_info = ap.DocumentInfo(document)
    doc_info.author = "Aspose"
    doc_info.creation_date = datetime.datetime.now()
    doc_info.keywords = "Aspose.Pdf, DOM, API"
    doc_info.mod_date = datetime.datetime.now()
    doc_info.subject = "PDF Information"
    doc_info.title = "Setting PDF Document Information"
    doc_info.producer = "Custom producer"
    doc_info.creator = "Custom creator"

    # Save PDF document
    document.save(outfile)

Establecer metadatos XMP en un archivo PDF

Este fragmento de código demuestra cómo establecer o actualizar programáticamente los metadatos XMP en un documento PDF usando Aspose.PDF for Python via .NET. Al modificar propiedades como xmp:CreateDate, xmp:Nickname y campos definidos por el usuario, puedes incrustar metadatos estandarizados en tus archivos PDF. Este enfoque es particularmente útil para mejorar la organización de documentos, facilitar la búsqueda e incrustar información esencial directamente en el archivo.

Aspose.PDF le permite establecer metadatos en un archivo PDF. Para establecer metadatos:

  1. Abra el archivo PDF usando el Documento clase.
  2. Modifique los metadatos XMP asignando valores a claves específicas.
  3. Guarde el documento PDF actualizado.

El siguiente fragmento de código le muestra cómo establecer metadatos en un archivo PDF.

import aspose.pdf as ap
import datetime
import sys
from os import path

def set_xmp_metadata(infile, outfile):
    # Open PDF document
    document = ap.Document(infile)

    # Set XMP metadata properties
    document.metadata.add("xmp:CreateDate", datetime.datetime.now().isoformat())
    document.metadata.add("xmp:Nickname", "Nickname")
    document.metadata.add("xmp:CustomProperty", "Custom Value")

    # Save the updated PDF document
    document.save(outfile)

Insertar metadatos con prefijo

Algunos desarrolladores necesitan crear un nuevo espacio de nombres de metadatos con un prefijo. El siguiente fragmento de código muestra cómo insertar metadatos con prefijo.

import aspose.pdf as ap
import datetime
import sys
from os import path

def set_prefix_metadata(infile, outfile):
    # Open PDF document
    document = ap.Document(infile)

    # Register a namespace URI for the 'xmp' prefix
    document.metadata.register_namespace_uri("xmp", "http://ns.adobe.com/xap/1.0/")

    # Set the metadata property using the registered prefix
    document.metadata.add(
        "xmp:ModifyDate", datetime.datetime.now().isoformat()
    )  # ISO 8601 format

    # Save the updated PDF document
    document.save(outfile)

Temas relacionados