Trabajando con PDF/A o PDF/UA
PDF/A y formato PDF/UA impone varios requisitos relacionados con el contenido de documento que no se pueden cumplir durante la conversión automática de un documento en formato Word a PDF. Estos requisitos deben ser verificados y corregidos ya sea en un documento de Word antes de la conversión o en un documento PDF después de la conversión para producir un documento compatible con PDF/A y PDF/UA.
Los requisitos básicos son para la estructura o fuentes de un documento PDF/A y PDF/UA, que vamos a considerar en las secciones siguientes.
Requisitos de estructura de documentos
Los requisitos actuales son para formatos PDF/A-1a, PDF/A-2a, PDF/A-4 y PDF/UA-1.
Hay algunos matones de cómo Aspose.Words funciona cuando se convierte en varios estándares de formato PDF. Deben tenerse en cuenta si desea obtener el resultado esperado.
La especificación nos dice lo siguiente (consultar detalles):
Es inadvisible para los escritores generar información estructural o semántica utilizando procesos automatizados sin una verificación adecuada.
ISO 19005-2, 6.7.1
Las subsecciones a continuación describen matices de cómo Aspose.Words funciona cuando se convierte en varios estándares y opciones de formato PDF para su solución.
Tipo de estructura
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Un documento PDF es una secuencia de bloques como encabezados, párrafos, tablas y otros. Estos bloques forman una estructura de documentos – fuerte o débil.
Ambas estructuras fuertes y débiles son válidas para PDF/A. Microsoft Word los documentos tienen una estructura débil por diseño, y Aspose.Words crea PDF con la estructura débil respectivamente y también genera encabezados según los niveles de esbozo de los párrafos en el documento fuente.
Para un documento PDF/UA-1 con una estructura débil, se requiere además que los números de encabezado vayan en orden sin lagunas.
La especificación nos dice lo siguiente (consultar detalles):
La estructura de bloques puede seguir uno de los dos paradigmas principales:
ISO-32000-1, 14.8.4.3.5
Para documentos PDF/UA-1, la especificación contiene una adición relacionada con los niveles de encabezado (consultar detalles):
Si la semántica del documento requiere una secuencia descendente de cabeceras, dicha secuencia procederá en estricto orden numérico y no saltará un nivel de encabezado interveniente. H1 H2 H3 es permisible, mientras que H1 H3 no es.
ISO-14289-1, 7.4.2
Para garantizar la correcta producción, los usuarios deben asegurarse de que el contenido de los documentos de origen se organice adecuadamente y especificar correctamente los niveles de esbozo de los párrafos. De lo contrario, el usuario debe verificar y fijar la estructura del documento PDF de salida.
En este bloque se pueden ver ejemplos: cómo establecer niveles de contorno en Microsoft Word o comprobar y fijar la estructura del documento PDF de salida (consultar detalles).
In Microsoft Word Los estilos predeterminados "Heading X" podrían utilizarse para establecer el nivel de contorno:
Además, el nivel de contorno podría ser revisado o cambiado en la ventana "Paragraph":
En Acrobat la estructura de documentos se puede revisar o cambiar en el panel "Tags":
Marcar el Contenido como un artefacto
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De momento, Aspose.Words marca las cabeceras de página y los pies, separadores de notas, las celdas de cabecera repetidas y las imágenes decorativas como artefactos. Tenga en cuenta que esta lista puede ser actualizada en el futuro.
La especificación nos dice lo siguiente (consultar detalles):
Los objetos gráficos en un documento se pueden dividir en dos clases:
ISO-32000-1, 14.8.2.1
Si un documento contiene cualquier otro contenido que debe ser marcado como un artefacto, o si alguno de los contenidos producidos es un contenido real, los clientes deben fijarlo en el PDF de salida.
En este bloque se pueden ver ejemplos: cómo marcar las formas como decorativas en Microsoft Word o marcar la forma como un artefacto en el documento PDF de salida (consultar detalles).
Por ejemplo, las formas pueden ser marcadas como decorativas en Microsoft Word, para que sean exportados a PDF como un artefacto:
Puede marcar la forma como un artefacto en la salida PDF:
Además, puede cambiar texto en un encabezado del artefacto a contenido real en el PDF de salida:
Especificación del lenguaje natural
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
El lenguaje de texto se especifica en Microsoft Word documentos. Aspose.Words exporta el idioma especificado a un PDF de salida con Lang atributo adjunto a una secuencia de contenido marcado o una etiqueta Span – es controlado por el ExportLanguageToSpanTag propiedad. Generalmente no hay problemas de lenguaje cuando el texto es introducido por el usuario a través de Microsoft Word. Pero existe la posibilidad de que el lenguaje sea inexacto si el texto se genera automáticamente.
La especificación nos dice lo siguiente (consultar detalles):
El idioma natural predeterminado para todo texto en un archivo debe ser especificado por la entrada Lang en el diccionario de catálogo del documento.
Todo el contenido textual dentro de un archivo que difiere del idioma predeterminado debe ser indicado por el uso de un `Lang` propiedad adjunta a una secuencia de contenido marcado, o por una entrada Lang en un diccionario de elemento estructura ...
ISO-19005-2, 6.7.4
Adicionalmente para PDF/UA-1, la especificación nos dice lo siguiente (consultar detalles):
El lenguaje natural será declarado... Los cambios en el lenguaje natural serán declarados.
ISO-14289-1, 7.2
En este bloque se pueden ver ejemplos: cómo asegurar que el idioma se especifique correctamente (consultar detalles).
Los usuarios deben asegurarse de que el idioma se especifique correctamente en el documento de Word fuente:
O el documento PDF de salida:
Figure Caption
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documentos permiten a los usuarios añadir la capción de la figura.
La especificación nos dice lo siguiente (consultar detalles):
Una capción que acompaña una figura será etiquetada con una etiqueta Caption.
ISO-14289-1, 7.3
Actualmente Aspose.Words no pueden exportar subtítulos con la etiqueta Caption, por lo que deben ser marcados en el PDF de salida.
En este bloque se pueden ver ejemplos: cómo insertar la capción (expandir para ver detalles).
In Microsoft Word, la capción se puede insertar a través del menú contextual:
En Acrobat la capción se puede añadir o cambiar a través del `Object` diálogo de propiedades:
Alternate Descriptions
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documentos permiten a los usuarios añadir texto alternativo a imágenes, formas y tablas. Aspose.Words exporta un texto alternativo al PDF de salida.
La especificación nos dice lo siguiente (consultar detalles):
Todos los elementos de estructura cuyo contenido no tiene un análogo textual predeterminado natural, por ejemplo imágenes, fórmulas, etc., deben proporcionar una descripción de texto alternativa usando la entrada Alt en el diccionario de elementos de estructura...
NOTA Las descripciones suplementarias proporcionan descripciones textuales que ayudan en la interpretación adecuada del contenido no textual opaco.
ISO-19005-2, 6.7.5
En este bloque se pueden ver ejemplos: cómo asegurar que todos los elementos tengan un texto alternativo (consultar detalles).
Los usuarios deben asegurarse de que todos los elementos tengan un texto alternativo en el documento de Word fuente:
O el documento PDF de salida:
Alternate Descriptions for Hyperlinks
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Además del punto anterior, Microsoft Word documentos también permiten a los usuarios añadir texto alternativo a hipervínculos. Aspose.Words exporta un texto alternativo al PDF de salida.
Desafortunadamente, no todas las aplicaciones le permiten configurar una descripción alternativa. Por ejemplo, Adobe Acrobat Actualmente no permite configurar tal descripción para hipervínculos. Pero… Microsoft Word, puede hacer esto de la siguiente manera:
A veces hay un problema que no es posible establecer texto alt para hipervínculos autogenerados en la tabla de contenidos (TOC) a través de la Microsoft Word GUI. Aspose.Words podría actualizar tales campos y generar los enlaces por su cuenta.
Siga el ejemplo de código para actualizar TOC
campos utilizando Aspose.Words Document Object Model (G)DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Table Headers
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Las tablas en documentos PDF/UA-1 deben tener encabezados – columna, fila, o ambos. PDF/A sólo requiere un marcado estándar de tabla, que no tiene restricciones adicionales. Note que Aspose.Words genera el marcado estándar de mesa automáticamente.
La especificación nos dice lo siguiente (consultar detalles):
Las tablas deben incluir los encabezados... Las tablas pueden contener cabeceras de columna, cabeceras de fila o ambas.
ISO-14289-1, 7.5
En este bloque se pueden ver ejemplos: cómo establecer el encabezado de la tabla (consultar detalles).
El encabezado de la mesa podría configurarse o bien la fuente Microsoft Word documento:
O la salida PDF:
Texto de sustitución
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
La especificación nos dice lo siguiente (consultar detalles):
La especificación nos dice lo siguiente:
Todos los elementos de estructura textual que estén representados de una manera no estándar, por ejemplo, caracteres personalizados o gráficos en línea, deben suministrar texto de sustitución utilizando el texto `ActualText` entrada en el diccionario de elementos de la estructura...
ISO-19005-2, 6.7.7
Microsoft Word El documento no permite a los usuarios establecer texto de sustitución. Así que esto debe ser verificado y fijado en el PDF de salida:
Abbreviations and Acronyms Expansions
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
La especificación nos dice lo siguiente (consultar detalles):
Todos los casos de abreviaturas y siglas en contenido textual deben colocarse en una secuencia de contenido marcado con una etiqueta Span cuya propiedad E proporciona una expansión textual de la abreviación o acrónimo...
ISO-19005-2, 6.7.8
Microsoft Word El documento no permite a los usuarios establecer abreviaturas y expansiones de siglas. Así que esto debe ser verificado y fijado en el PDF de salida:
Título del documento
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
El documento en PDF/UA-1 debe tener un título |
La especificación nos dice lo siguiente (consultar detalles):
La especificación nos dice lo siguiente:
El flujo de metadatos en el diccionario del catálogo del documento contendrá una entrada dc:title, donde dc es el prefijo recomendado para el esquema ...
ISO-14289-1, 7.1
En este bloque se pueden ver ejemplos: cómo establecer el título de documento (consultar detalles).
El título de documento podría configurarse o bien la fuente Microsoft Word documento:
O la salida PDF:
Recursos necesarios
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
También hay varios matices de trabajar con fuentes al convertir a formatos PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 utilizando Aspose.Words. Deben tenerse en cuenta si desea evitar posibles problemas con el documento de salida.
En las secciones siguientes se describen tales matices y opciones para su solución.
Requisitos legales de la fuente
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words no verifica las restricciones legales de las fuentes usadas – depende de los usuarios. En otras palabras, un usuario no debe proporcionar fuentes inapropiadas para la conversión de PDF utilizando Aspose.Words.
La especificación nos dice lo siguiente (consultar detalles):
Únicamente se utilizarán programas de fuentes que estén legalmente incrustables en un archivo para un renderizado universal e ilimitado.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exactamente las mismas citas en dos especificaciones)
.notdef Glyph
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
El uso del .notdef
glyph está prohibido. El .notdef
glyph aparecerá si un documento contiene caracteres que no están presentes en la fuente seleccionada y que tampoco pueden resolverse a través del mecanismo Font Fallback.
La especificación nos dice lo siguiente (consultar detalles):
Un documento de conformidad no contendrá una referencia al .notdef glyph de cualquiera de los operadores que muestren texto, independientemente del modo de renderización de texto, en cualquier flujo de contenido.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exactamente las mismas citas en dos especificaciones)
En este bloque se pueden ver ejemplos: cómo eliminar o reemplazar estos caracteres (consultar detalles).
Los usuarios deben eliminar o reemplazar estos caracteres en el documento de Word fuente:
O el documento PDF de salida usando la herramienta "Editar PDF":
Zona de uso privado (PUA)
Niveles de cumplimiento estándar en PDF Aspose.Words | Presencia del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Los caracteres del Área de Uso Privado (PUA) aparecen principalmente para Windows fuentes simbólicas como “Symbol”, “Wingdings”, “Webdings”, y otras. Microsoft Word formatos no proporcionan una opción para almacenar texto real para caracteres.
La especificación nos dice lo siguiente (consultar detalles):
Para el nivel Una conformidad sólo, para cualquier personaje ... que se mapee a un código o códigos en el Área de Uso Privado Unicode (PUA), una entrada ActualText ... estará presente para este personaje o una secuencia de caracteres de los cuales tal carácter es parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” es un Windows Fuente Unicode que podría utilizarse como alternativa a fuentes simbólicas.
En este bloque se pueden ver ejemplos: qué usuario debe hacer para resolver el problema con fuentes simbólicas (consultar detalles).
Reemplazar la fuente simbólica con un Unicode uno en el documento fuente Word:
O añadir una entrada ActualText a los caracteres problemáticos en el documento PDF de salida: