Trabajar con PDF/A o PDF/UA
Los formatos PDF/A y PDF/UA imponen varios requisitos relacionados con el contenido del documento que no se pueden cumplir durante la conversión automática de un documento en formato Word a PDF. Estos requisitos deben verificarse y corregirse en un documento de Word antes de la conversión o en un documento PDF después de la conversión para producir un documento totalmente compatible con PDF/A y PDF/UA.
Los requisitos básicos son para la estructura o fuentes de un documento PDF/A y PDF/UA, que consideraremos en las siguientes secciones.
Requisitos de estructura del documento
Los requisitos actuales son para los formatos PDF/A-1a, PDF/A-2a, PDF/A-4 y PDF/UA-1.
Hay algunos matices en el funcionamiento de Aspose.Words al convertir a varios estándares de formato PDF. Deben tenerse en cuenta si se quiere obtener el resultado esperado.
La especificación nos dice lo siguiente (ampliar para ver detalles):
No es aconsejable que los escritores generen información estructural o semántica mediante procesos automatizados sin una verificación adecuada.
ISO 19005-2, 6.7.1
Las subsecciones siguientes describen los matices de cómo funciona Aspose.Words al convertir a varios estándares de formato PDF y las opciones para su solución.
Tipo de estructura
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Un documento PDF es una secuencia de bloques como encabezados, párrafos, tablas y otros. Estos bloques forman una estructura de documento, fuerte o débil.
Tanto las estructuras fuertes como las débiles son válidas para PDF/A. Los documentos Microsoft Word tienen una estructura débil por diseño, y Aspose.Words crea PDF con la estructura débil respectivamente y también genera encabezados de acuerdo con los niveles de esquema de los párrafos en el documento fuente.
Para un documento PDF/UA-1 con una estructura débil, se requiere además que los números de encabezado estén en orden y sin espacios.
La especificación nos dice lo siguiente (ampliar para ver detalles):
La estructura a nivel de bloque puede seguir uno de dos paradigmas principales:
ISO-32000-1, 14.8.4.3.5
Para documentos PDF/UA-1, la especificación contiene una adición relacionada con los niveles de encabezado (amplíe para ver detalles):
Si la semántica del documento requiere una secuencia descendente de encabezados, dicha secuencia procederá en estricto orden numérico y no saltará ningún nivel de encabezado intermedio. H1 H2 H3 está permitido, mientras que H1 H3 no.
ISO-14289-1, 7.4.2
Para garantizar una salida correcta, los usuarios deben asegurarse de que el contenido del documento fuente esté organizado adecuadamente y que los niveles de esquema estén especificados correctamente para los párrafos. De lo contrario, el usuario debe verificar y corregir la estructura del documento PDF de salida.
En este bloque, puede ver ejemplos: cómo establecer niveles de esquema en Microsoft Word o verificar y corregir la estructura del documento PDF de salida (expandir para ver detalles).
En Microsoft Word, los estilos predeterminados de "Encabezado X" se pueden usar para establecer el nivel del esquema:
Además, el nivel del esquema se puede verificar o cambiar en la ventana "Párrafo":
En Acrobat, la estructura del documento se puede verificar o cambiar en el panel "Etiquetas":
Marcar el contenido como un artefacto
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Por el momento, Aspose.Words marca los encabezados y pies de página, los separadores de notas, las celdas repetidas de los encabezados de las tablas y las imágenes decorativas como artefactos. Tenga en cuenta que esta lista puede actualizarse en el futuro.
La especificación nos dice lo siguiente (ampliar para ver detalles):
Los objetos gráficos de un documento se pueden dividir en dos clases:
ISO-32000-1, 14.8.2.2.1
Si un documento contiene cualquier otro contenido que deba marcarse como un artefacto, o si alguno de los contenidos artefactos es un contenido real, los clientes deben corregirlo en el PDF de salida.
En este bloque, puede ver ejemplos: cómo marcar formas como decorativas en Microsoft Word o marcar una forma como un artefacto en el documento PDF de salida (expandir para ver detalles).
Por ejemplo, las formas podrían marcarse como decorativas en Microsoft Word, por lo que se exportarán a PDF como un artefacto:
Puede marcar la forma como un artefacto en el PDF de salida:
Además, puede cambiar el texto de un encabezado del artefacto al contenido real en el PDF de salida:
Especificación del lenguaje natural
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
El idioma del texto se especifica en los documentos Microsoft Word. Aspose.Words exporta el idioma especificado a un PDF de salida con el atributo Lang adjunto a una secuencia de contenido marcado o una etiqueta Span; está controlado por la propiedad export_language_to_span_tag. Generalmente no hay problemas de idioma cuando el usuario ingresa texto a través de Microsoft Word. Pero existe la posibilidad de que el lenguaje sea inexacto si el texto se genera automáticamente.
La especificación nos dice lo siguiente (ampliar para ver detalles):
El idioma natural predeterminado para todo el texto de un archivo debe especificarse mediante la entrada Lang en el diccionario del catálogo del documento.
Todo el contenido textual dentro de un archivo que difiere del idioma predeterminado debe indicarse mediante el uso de una propiedad `Lang` adjunta a una secuencia de contenido marcado, o mediante una entrada Lang en un diccionario de elementos de estructura...
ISO-19005-2, 6.7.4
Además para PDF/UA-1, la especificación nos dice lo siguiente (ampliar para ver detalles):
Se declarará el lenguaje natural… Se declararán los cambios en el lenguaje natural.
ISO-14289-1, 7.2
En este bloque puedes ver ejemplos: cómo asegurar que el idioma esté especificado correctamente (ampliar para ver detalles).
Los usuarios deben asegurarse de que el idioma esté especificado correctamente en el documento de Word de origen:
O el documento PDF de salida:
Descripciones alternativas
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Los documentos Microsoft Word permiten a los usuarios agregar texto alternativo a imágenes, formas y tablas. Aspose.Words exporta dicho texto alternativo al PDF de salida.
La especificación nos dice lo siguiente (ampliar para ver detalles):
Todos los elementos de estructura cuyo contenido no tenga un análogo textual predeterminado natural, por ejemplo, imágenes, fórmulas, etc., deben proporcionar una descripción de texto alternativa utilizando la entrada Alt en el diccionario de elementos de estructura...
NOTA Las descripciones alternativas proporcionan descripciones textuales que ayudan en la interpretación adecuada de contenido no textual que de otro modo sería opaco.
ISO-19005-2, 6.7.5
En este bloque puedes ver ejemplos: cómo asegurar que todos los elementos tengan un texto alternativo (ampliar para ver detalles).
Los usuarios deben asegurarse de que todos los elementos tengan un texto alternativo en el documento original de Word:
O el documento PDF de salida:
Texto de reemplazo
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
La especificación nos dice lo siguiente (ampliar para ver detalles):
La especificación nos dice lo siguiente:
Todos los elementos de estructura textual que se representan de una manera no estándar, por ejemplo, caracteres personalizados o gráficos en línea, deben proporcionar texto de reemplazo utilizando la entrada `ActualText` en el diccionario de elementos de estructura...
ISO-19005-2, 6.7.7
El documento Microsoft Word no permite a los usuarios establecer texto de reemplazo. Por lo tanto, esto debe verificarse y corregirse en el PDF de salida:
Ampliaciones de abreviaturas y acrónimos
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
La especificación nos dice lo siguiente (ampliar para ver detalles):
Todas las instancias de abreviaturas y acrónimos en el contenido textual deben colocarse en una secuencia de contenido marcado con una etiqueta Span cuya propiedad E proporciona una expansión textual de la abreviatura o acrónimo...
ISO-19005-2, 6.7.8
El documento Microsoft Word no permite a los usuarios establecer abreviaturas y ampliaciones de acrónimos. Por lo tanto, esto debe verificarse y corregirse en el PDF de salida:
Requisitos de fuente
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
También hay una serie de matices al trabajar con fuentes al convertir a formatos PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 usando Aspose.Words. Hay que tenerlos en cuenta si se quiere evitar posibles problemas con el documento de salida.
Las secciones siguientes describen dichos matices y opciones para su solución.
Requisitos legales de fuentes
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words no verifica las restricciones legales de las fuentes utilizadas; depende de los usuarios. En otras palabras, un usuario no debe proporcionar fuentes inapropiadas para la conversión de PDF utilizando Aspose.Words.
La especificación nos dice lo siguiente (ampliar para ver detalles):
Sólo se utilizarán programas de fuentes que sean legalmente incrustables en un archivo para una representación universal e ilimitada.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exactamente las mismas comillas en dos especificaciones)
.notdef Glifo
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Está prohibido el uso del glifo .notdef
. El glifo .notdef
aparecerá si un documento contiene caracteres que no están presentes en la fuente seleccionada y que tampoco se pueden resolver mediante el mecanismo de reserva de fuente.
La especificación nos dice lo siguiente (ampliar para ver detalles):
Un documento conforme no deberá contener una referencia al glifo .notdef de ninguno de los operadores de visualización de texto, independientemente del modo de representación del texto, en cualquier flujo de contenido.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exactamente las mismas comillas en dos especificaciones)
En este bloque puedes ver ejemplos: cómo eliminar o reemplazar estos caracteres (ampliar para ver detalles).
Los usuarios deben eliminar o reemplazar estos caracteres en el documento de Word de origen:
O el documento PDF de salida usando la herramienta "Editar PDF":
Área de Uso Privado (PUA)
Niveles de cumplimiento del estándar PDF dentro de Aspose.Words | Presencia de requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Los caracteres del área de uso privado (PUA) aparecen principalmente para fuentes simbólicas Windows como “Símbolo”, “Wingdings”, “Webdings” y otras. Los formatos Microsoft Word no ofrecen una opción para almacenar texto real para caracteres.
La especificación nos dice lo siguiente (ampliar para ver detalles):
Solo para conformidad de Nivel A, para cualquier carácter... que esté asignado a un código o códigos en el Área de uso privado (PUA) Unicode, una entrada ActualText... deberá estar presente para este carácter o una secuencia de caracteres de los cuales dicha un personaje es una parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” es una fuente Windows Unicode que podría usarse como alternativa a las fuentes simbólicas.
En este bloque puedes ver ejemplos: qué debe hacer el usuario para solucionar el problema con las fuentes simbólicas (ampliar para ver detalles).
Reemplace la fuente simbólica con una Unicode en el documento de Word fuente:
O agregue una entrada ActualText a los caracteres problemáticos en el documento PDF de salida: