Trabajar con PDF/A o PDF/UA

Los formatos PDF/A y PDF/UA imponen varios requisitos relacionados con el contenido del documento que no se pueden cumplir durante la conversión automática de un documento en formato Word a PDF. Estos requisitos deben verificarse y corregirse en un documento de Word antes de la conversión o en un documento PDF después de la conversión para producir un documento totalmente compatible con PDF/A y PDF/UA.

Los requisitos básicos son para la estructura o fuentes de un documento PDF/A y PDF/UA, que consideraremos en las siguientes secciones.

Requisitos de estructura del documento

Los requisitos actuales son para los formatos PDF/A-1a, PDF/A-2a, PDF/A-4 y PDF/UA-1.

Hay algunos matices en el funcionamiento de Aspose.Words al convertir a varios estándares de formato PDF. Deben tenerse en cuenta si se quiere obtener el resultado esperado.

Las subsecciones siguientes describen los matices de cómo funciona Aspose.Words al convertir a varios estándares de formato PDF y las opciones para su solución.

Tipo de estructura

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF es una secuencia de bloques como encabezados, párrafos, tablas y otros. Estos bloques forman una estructura de documento, fuerte o débil.

Tanto las estructuras fuertes como las débiles son válidas para PDF/A. Los documentos Microsoft Word tienen una estructura débil por diseño, y Aspose.Words crea PDF con la estructura débil respectivamente y también genera encabezados de acuerdo con los niveles de esquema de los párrafos en el documento fuente.

Para un documento PDF/UA-1 con una estructura débil, se requiere además que los números de encabezado estén en orden y sin espacios.

Para garantizar una salida correcta, los usuarios deben asegurarse de que el contenido del documento fuente esté organizado adecuadamente y que los niveles de esquema estén especificados correctamente para los párrafos. De lo contrario, el usuario debe verificar y corregir la estructura del documento PDF de salida.

Marcar el contenido como un artefacto

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Por el momento, Aspose.Words marca los encabezados y pies de página, los separadores de notas, las celdas repetidas de los encabezados de las tablas y las imágenes decorativas como artefactos. Tenga en cuenta que esta lista puede actualizarse en el futuro.

Si un documento contiene cualquier otro contenido que deba marcarse como un artefacto, o si alguno de los contenidos artefactos es un contenido real, los clientes deben corregirlo en el PDF de salida.

Especificación del lenguaje natural

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

El idioma del texto se especifica en los documentos Microsoft Word. Aspose.Words exporta el idioma especificado a un PDF de salida con el atributo Lang adjunto a una secuencia de contenido marcado o una etiqueta Span; está controlado por la propiedad export_language_to_span_tag. Generalmente no hay problemas de idioma cuando el usuario ingresa texto a través de Microsoft Word. Pero existe la posibilidad de que el lenguaje sea inexacto si el texto se genera automáticamente.

Descripciones alternativas

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Los documentos Microsoft Word permiten a los usuarios agregar texto alternativo a imágenes, formas y tablas. Aspose.Words exporta dicho texto alternativo al PDF de salida.

Texto de reemplazo

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

El documento Microsoft Word no permite a los usuarios establecer texto de reemplazo. Por lo tanto, esto debe verificarse y corregirse en el PDF de salida:

AcrobatReemplazoTexto

Ampliaciones de abreviaturas y acrónimos

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

El documento Microsoft Word no permite a los usuarios establecer abreviaturas y ampliaciones de acrónimos. Por lo tanto, esto debe verificarse y corregirse en el PDF de salida:

AcrobatSplitAddExpansionText

Requisitos de fuente

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

También hay una serie de matices al trabajar con fuentes al convertir a formatos PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 usando Aspose.Words. Hay que tenerlos en cuenta si se quiere evitar posibles problemas con el documento de salida.

Las secciones siguientes describen dichos matices y opciones para su solución.

Requisitos legales de fuentes

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words no verifica las restricciones legales de las fuentes utilizadas; depende de los usuarios. En otras palabras, un usuario no debe proporcionar fuentes inapropiadas para la conversión de PDF utilizando Aspose.Words.

.notdef Glifo

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Está prohibido el uso del glifo .notdef. El glifo .notdef aparecerá si un documento contiene caracteres que no están presentes en la fuente seleccionada y que tampoco se pueden resolver mediante el mecanismo de reserva de fuente.

Área de Uso Privado (PUA)

Niveles de cumplimiento del estándar PDF dentro de Aspose.Words Presencia de requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Los caracteres del área de uso privado (PUA) aparecen principalmente para fuentes simbólicas Windows como “Símbolo”, “Wingdings”, “Webdings” y otras. Los formatos Microsoft Word no ofrecen una opción para almacenar texto real para caracteres.

“Segoe UI Symbol” es una fuente Windows Unicode que podría usarse como alternativa a las fuentes simbólicas.