Trabajando con PDF/A o PDF/UA

Los formatos PDF/A y PDF/UA imponen varios requisitos relacionados con el contenido del documento que no se pueden cumplir durante la conversión automática de un documento en formato Word a PDF. Estos requisitos deben verificarse y corregirse en un documento de Word antes de la conversión o en un documento PDF después de la conversión para producir un documento totalmente compatible con PDF/A y PDF/UA.

Los requisitos básicos son para la estructura o las fuentes de un documento PDF/A y PDF/UA, que consideraremos en las siguientes secciones.

Requisitos de Estructura de Documentos

Los requisitos actuales son para PDF/A-1a, PDF/A-2a, PDF/A-4, y PDF/UA-1 formatos.

Hay algunos matices de cómo funciona Aspose.Words al convertir a varios estándares de formato PDF. Deben tenerse en cuenta si desea obtener el resultado esperado.

Las subsecciones a continuación describen los matices de cómo funciona Aspose.Words al convertir a varios estándares de formato PDF y las opciones para su solución.

Tipo de Estructura

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF es una secuencia de bloques como encabezados, párrafos, tablas y otros. Estos bloques forman una estructura de documento, fuerte o débil.

Tanto las estructuras fuertes como las débiles son válidas para PDF/A. Los documentos Microsoft Word tienen una estructura débil por diseño, y Aspose.Words crea PDF con la estructura débil respectivamente y también genera encabezados de acuerdo con los niveles de esquema de los párrafos en el documento fuente.

Para un documento PDF/UA-1 con una estructura débil, también se requiere que los números de encabezado vayan en orden sin espacios.

Para garantizar un resultado correcto, los usuarios deben asegurarse de que el contenido del documento de origen esté organizado correctamente y que los niveles de esquema estén especificados correctamente para los párrafos. De lo contrario, el usuario debe verificar y corregir la estructura del documento PDF de salida.

Marcar el Contenido como un Artefacto

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Por el momento, Aspose.Words marca encabezados y pies de página, separadores de notas, celdas de encabezado de tabla repetidas e imágenes decorativas como artefactos. Tenga en cuenta que esta lista puede actualizarse en el futuro.

Si un documento contiene cualquier otro contenido que deba marcarse como artefacto, o si alguno de los artefactos es un contenido real, los clientes deben corregirlo en el resultado PDF.

Especificación del Lenguaje Natural

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

El idioma del texto se especifica en los documentos Microsoft Word. Aspose.Words exporta el idioma especificado a una salida PDF con el atributo Lang adjunto a una secuencia de contenido marcado o una etiqueta Span; está controlado por la propiedad ExportLanguageToSpanTag. Generalmente, no hay problemas de idioma cuando el usuario ingresa texto a través de Microsoft Word. Pero existe la posibilidad de que el idioma sea inexacto si el texto se genera automáticamente.

Leyenda de la Figura

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Los documentos Microsoft Word permiten a los usuarios agregar subtítulos de figuras.

Actualmente Aspose.Words no puede exportar subtítulos con la etiqueta Caption, por lo que deben marcarse en la salida PDF.

Descripciones Alternativas

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Los documentos Microsoft Word permiten a los usuarios agregar texto alternativo a imágenes, formas y tablas. Aspose.Words exporta dicho texto alternativo a la salida PDF.

Descripciones alternativas para Hipervínculos

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Además del punto anterior, los documentos Microsoft Word también permiten a los usuarios agregar texto alternativo a los hipervínculos. Aspose.Words exporta dicho texto alternativo a la salida PDF.

Desafortunadamente, no todas las aplicaciones le permiten configurar una descripción alternativa. Por ejemplo, Adobe Acrobat actualmente no permite configurar dicha descripción para hipervínculos. Pero en Microsoft Word, puedes hacer esto de la siguiente manera:

alternate-descriptions-hyperlinks-mw

A veces existe el problema de que no es posible establecer texto alternativo para hipervínculos generados automáticamente en la tabla de contenido (TOC) a través del Microsoft Word GUI. Aspose.Words podría actualizar dichos campos y generar los enlaces por sí mismo.

Siga el ejemplo de código para actualizar los campos TOC utilizando el Modelo de Objetos de Documento Aspose.Words (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Encabezados de Tabla

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Las tablas de los documentos PDF/UA-1 deben tener encabezados: columna, fila o ambos. PDF/A solo requiere marcado de tabla estándar, que no tiene restricciones adicionales. Tenga en cuenta que Aspose.Words genera el marcado estándar de la tabla automáticamente.

Texto de Reemplazo

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

El documento Microsoft Word no permite a los usuarios establecer texto de reemplazo. Entonces, esto debe verificarse y corregirse en la salida PDF:

AcrobatReplacementText

Abreviaturas y Acrónimos Expansiones

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

El documento Microsoft Word no permite a los usuarios establecer abreviaturas y acrónimos expansiones. Entonces, esto debe verificarse y corregirse en la salida PDF:

AcrobatSplitAddExpansionText

Título del Documento

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
El documento en PDF/UA-1 debe tener un título.

Requisitos de Fuente

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

También hay una serie de matices al trabajar con fuentes al convertir a PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 formatos usando Aspose.Words. Deben tenerse en cuenta si se quieren evitar posibles problemas con el documento de salida.

Las secciones a continuación describen dichos matices y opciones para su solución.

Requisitos Legales de la Fuente

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words no verifica las restricciones legales de las fuentes utilizadas – depende de los usuarios. En otras palabras, un usuario no debe proporcionar fuentes inapropiadas para la conversión PDF usando Aspose.Words.

.notdef Glyph

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

El uso del glifo .notdef está prohibido. El glifo .notdef aparecerá si un documento contiene caracteres que no están presentes en la fuente seleccionada y que tampoco se pueden resolver mediante el mecanismo de respaldo de fuentes.

Zona de Uso Privado (PUA)

PDF niveles de cumplimiento estándar dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Los caracteres del Área de Uso Privado (PUA) aparecen principalmente para Windows fuentes simbólicas como “Símbolo”," Wingdings"," Webdings " y otras. los formatos Microsoft Word no proporcionan una opción para almacenar texto real para los caracteres.

“Segoe UI Symbol” es una fuente Unicode Windows que podría usarse como alternativa a las fuentes simbólicas.