Trabajando con PDF/A o PDF/UA

PDF/A y formato PDF/UA impone varios requisitos relacionados con el contenido de documento que no se pueden cumplir durante la conversión automática de un documento en formato Word a PDF. Estos requisitos deben ser verificados y corregidos ya sea en un documento de Word antes de la conversión o en un documento PDF después de la conversión para producir un documento compatible con PDF/A y PDF/UA.

Los requisitos básicos son para la estructura o fuentes de un documento PDF/A y PDF/UA, que vamos a considerar en las secciones siguientes.

Requisitos de estructura de documentos

Los requisitos actuales son para formatos PDF/A-1a, PDF/A-2a, PDF/A-4 y PDF/UA-1.

Hay algunos matones de cómo Aspose.Words funciona cuando se convierte en varios estándares de formato PDF. Deben tenerse en cuenta si desea obtener el resultado esperado.

Las subsecciones a continuación describen matices de cómo Aspose.Words funciona cuando se convierte en varios estándares y opciones de formato PDF para su solución.

Tipo de estructura

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF es una secuencia de bloques como encabezados, párrafos, tablas y otros. Estos bloques forman una estructura de documentos – fuerte o débil.

Ambas estructuras fuertes y débiles son válidas para PDF/A. Microsoft Word los documentos tienen una estructura débil por diseño, y Aspose.Words crea PDF con la estructura débil respectivamente y también genera encabezados según los niveles de esbozo de los párrafos en el documento fuente.

Para un documento PDF/UA-1 con una estructura débil, se requiere además que los números de encabezado vayan en orden sin lagunas.

Para garantizar la correcta producción, los usuarios deben asegurarse de que el contenido de los documentos de origen se organice adecuadamente y especificar correctamente los niveles de esbozo de los párrafos. De lo contrario, el usuario debe verificar y fijar la estructura del documento PDF de salida.

Marcar el Contenido como un artefacto

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

De momento, Aspose.Words marca las cabeceras de página y los pies, separadores de notas, las celdas de cabecera repetidas y las imágenes decorativas como artefactos. Tenga en cuenta que esta lista puede ser actualizada en el futuro.

Si un documento contiene cualquier otro contenido que debe ser marcado como un artefacto, o si alguno de los contenidos producidos es un contenido real, los clientes deben fijarlo en el PDF de salida.

Especificación del lenguaje natural

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

El lenguaje de texto se especifica en Microsoft Word documentos. Aspose.Words exporta el idioma especificado a un PDF de salida con Lang atributo adjunto a una secuencia de contenido marcado o una etiqueta Span – es controlado por el ExportLanguageToSpanTag propiedad. Generalmente no hay problemas de lenguaje cuando el texto es introducido por el usuario a través de Microsoft Word. Pero existe la posibilidad de que el lenguaje sea inexacto si el texto se genera automáticamente.

Figure Caption

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word documentos permiten a los usuarios añadir la capción de la figura.

Actualmente Aspose.Words no pueden exportar subtítulos con la etiqueta Caption, por lo que deben ser marcados en el PDF de salida.

Alternate Descriptions

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documentos permiten a los usuarios añadir texto alternativo a imágenes, formas y tablas. Aspose.Words exporta un texto alternativo al PDF de salida.

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Además del punto anterior, Microsoft Word documentos también permiten a los usuarios añadir texto alternativo a hipervínculos. Aspose.Words exporta un texto alternativo al PDF de salida.

Desafortunadamente, no todas las aplicaciones le permiten configurar una descripción alternativa. Por ejemplo, Adobe Acrobat Actualmente no permite configurar tal descripción para hipervínculos. Pero… Microsoft Word, puede hacer esto de la siguiente manera:

alternate-descriptions-hyperlinks-mw

A veces hay un problema que no es posible establecer texto alt para hipervínculos autogenerados en la tabla de contenidos (TOC) a través de la Microsoft Word GUI. Aspose.Words podría actualizar tales campos y generar los enlaces por su cuenta.

Siga el ejemplo de código para actualizar TOC campos utilizando Aspose.Words Document Object Model (G)DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Table Headers

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Las tablas en documentos PDF/UA-1 deben tener encabezados – columna, fila, o ambos. PDF/A sólo requiere un marcado estándar de tabla, que no tiene restricciones adicionales. Note que Aspose.Words genera el marcado estándar de mesa automáticamente.

Texto de sustitución

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word El documento no permite a los usuarios establecer texto de sustitución. Así que esto debe ser verificado y fijado en el PDF de salida:

AcrobatReplacementText

Abbreviations and Acronyms Expansions

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word El documento no permite a los usuarios establecer abreviaturas y expansiones de siglas. Así que esto debe ser verificado y fijado en el PDF de salida:

AcrobatSplitAddExpansionText

Título del documento

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
El documento en PDF/UA-1 debe tener un título

Recursos necesarios

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

También hay varios matices de trabajar con fuentes al convertir a formatos PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 utilizando Aspose.Words. Deben tenerse en cuenta si desea evitar posibles problemas con el documento de salida.

En las secciones siguientes se describen tales matices y opciones para su solución.

Requisitos legales de la fuente

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words no verifica las restricciones legales de las fuentes usadas – depende de los usuarios. En otras palabras, un usuario no debe proporcionar fuentes inapropiadas para la conversión de PDF utilizando Aspose.Words.

.notdef Glyph

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

El uso del .notdef glyph está prohibido. El .notdef glyph aparecerá si un documento contiene caracteres que no están presentes en la fuente seleccionada y que tampoco pueden resolverse a través del mecanismo Font Fallback.

Zona de uso privado (PUA)

Niveles de cumplimiento estándar en PDF Aspose.Words Presencia del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Los caracteres del Área de Uso Privado (PUA) aparecen principalmente para Windows fuentes simbólicas como “Symbol”, “Wingdings”, “Webdings”, y otras. Microsoft Word formatos no proporcionan una opción para almacenar texto real para caracteres.

“Segoe UI Symbol” es un Windows Fuente Unicode que podría utilizarse como alternativa a fuentes simbólicas.