Trabalhar com PDF/A ou PDF/UA
O formato PDF/A e PDF/UA impõe vários requisitos relacionados com o conteúdo do documento que não podem ser cumpridos durante a conversão automática de um documento em formato Word para PDF. Estes requisitos devem ser verificados e corrigidos num documento do Word antes da conversão ou num documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.
Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seções a seguir.
Requisitos Da Estrutura Do Documento
Os requisitos actuais são para PDF/A-1a, PDF/A-2a, PDF/A-4, e PDF/UA-1 formatos.
Existem algumas nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em consideração se você deseja obter o resultado esperado.
A especificação nos diz o seguinte (expandir para ver detalhes):
Não é aconselhável que os escritores gerem informações estruturais ou semânticas utilizando processos automatizados sem verificação adequada.
ISO 19005-2, 6.7.1
As subseções abaixo descrevem nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF e opções para sua solução.
Tipo De Estrutura
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Um documento PDF é uma sequência de blocos, como títulos, parágrafos, tabelas e outros. Esses blocos formam uma estrutura de Documento-forte ou fraca.
As estruturas fortes e fracas são válidas para PDF/A. Microsoft Word os documentos têm uma estrutura fraca por design, e Aspose.Words cria PDF com a estrutura fraca, respectivamente, e também gera títulos de acordo com os níveis de contorno dos parágrafos no documento de origem.
Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números das rubricas estejam em ordem sem lacunas.
A especificação nos diz o seguinte (expandir para ver detalhes):
A estrutura em bloco pode seguir um dos dois principais paradigmas:
ISO-32000-1, 14.8.4.3.5
Para os documentos PDF/UA-1, o caderno de especificações contém um aditamento relativo aos níveis de rubrica (expandir para ver pormenores):
Se a semântica do documento exigir uma sequência decrescente de cabeçalhos, essa sequência deve proceder em estrita ordem numérica e não deve ignorar um nível de cabeçalho intermediário. H1 H2 H3 é permitido, enquanto H1 H3 não é.
ISO-14289-1, 7.4.2
Para garantir uma saída correcta, os utilizadores têm de assegurar que o conteúdo do documento de origem está devidamente organizado e que os níveis de contorno estão correctamente especificados para os parágrafos. Caso contrário, o Usuário deve verificar e corrigir a estrutura do documento de saída PDF.
Neste bloco, você pode ver exemplos: como definir níveis de contorno em Microsoft Word ou verificar e corrigir a estrutura do documento de saída PDF (expandir para ver detalhes).
Em Microsoft Word, os estilos "Título X" padrão podem ser usados para definir o nível de contorno:
Além disso, o nível de contorno pode ser verificado ou alterado na janela " parágrafo:
No Acrobat, a estrutura do documento pode ser verificada ou alterada no painel " Tags:
Marcar o Conteúdo como um artefacto
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
No momento, Aspose.Words marca cabeçalhos e rodapés de páginas, separadores de notas, células de cabeçalho de tabela repetidas e imagens decorativas como artefatos. Note-se que esta lista poderá ser actualizada no futuro.
A especificação nos diz o seguinte (expandir para ver detalhes):
Os objetos gráficos em um documento podem ser divididos em duas classes:
ISO-32000-1, 14.8.2.2.1
Se um documento contiver qualquer outro conteúdo que deva ser marcado como um artefato, ou se algum dos conteúdos artificiais for um conteúdo real, os clientes devem corrigir isso na saída PDF.
Neste bloco, você pode ver exemplos: como marcar formas como decorativas em Microsoft Word ou marcar forma como um artefato no documento de saída PDF (expandir para ver detalhes).
Por exemplo, as formas podem ser marcadas como decorativas em Microsoft Word, pelo que serão exportadas para PDF como um artefacto:
Você pode marcar a forma como um artefato na saída PDF:
Além disso, você pode alternar o texto em um cabeçalho do artefato para o conteúdo real na saída PDF:
Especificação Da Linguagem Natural
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
O idioma do texto é especificado em Microsoft Word documentos. Aspose.Words exporta o idioma especificado para uma saída PDF com o atributo Lang anexado a uma sequência de conteúdo marcado ou uma tag Span-é controlado pela propriedade ExportLanguageToSpanTag. Geralmente, não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas existe a possibilidade de a linguagem ser imprecisa se o texto for gerado automaticamente.
A especificação nos diz o seguinte (expandir para ver detalhes):
A linguagem natural predefinida para todo o texto num ficheiro deve ser especificada pela entrada Lang no dicionário do Catálogo do documento.
Todo o conteúdo textual de um ficheiro diferente do idioma predefinido deve ser indicado pelo uso de uma propriedade `Lang` anexada a uma sequência de conteúdo marcado ou por uma entrada Lang num dicionário de elementos de estrutura ...
ISO-19005-2, 6.7.4
Além disso, para PDF/UA-1, a especificação nos diz o seguinte (expanda para ver detalhes):
A língua Natural deve ser declarada ... as alterações na língua natural devem ser declaradas.
ISO-14289-1, 7.2
Neste bloco, você pode ver exemplos: Como garantir que o idioma seja especificado corretamente (expandir para ver detalhes).
Os utilizadores devem assegurar-se de que o idioma está correctamente especificado no documento do Word de origem:
Ou o documento de saída PDF:
Legenda Da Figura
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word os documentos permitem aos utilizadores adicionar legendas.
A especificação nos diz o seguinte (expandir para ver detalhes):
Uma legenda que acompanha uma figura deve ser marcada com uma etiqueta de legenda.
ISO-14289-1, 7.3
Atualmente, Aspose.Words não é possível exportar legendas com a Tag Caption, portanto, elas devem ser sinalizadas na saída PDF.
Neste bloco, você pode ver exemplos: como inserir a legenda (expandir para ver detalhes).
Em Microsoft Word, a legenda pode ser inserida através do menu de contexto:
No Acrobat, a legenda pode ser adicionada ou alterada através da caixa de diálogo Propriedades `Object`:
Descrições Alternativas
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word os documentos permitem aos utilizadores adicionar texto alternativo a imagens, formas e tabelas. Aspose.Words exporta esse texto alternativo para a saída PDF.
A especificação nos diz o seguinte (expandir para ver detalhes):
Todos os elementos estruturais cujo conteúdo não tenha um análogo textual predeterminado natural, por exemplo, imagens, fórmulas, etc., deve fornecer uma descrição de texto alternativo usando a entrada Alt no dicionário de elementos de estrutura...
NOTE as descrições alternativas fornecem descrições textuais que auxiliam na interpretação adequada de conteúdos não textuais opacos.
ISO-19005-2, 6.7.5
Neste bloco, você pode ver exemplos: Como garantir que todos os elementos tenham um texto alternativo (expandir para ver detalhes).
Os utilizadores devem assegurar que todos os elementos têm um texto alternativo no documento Word de origem:
Ou o documento de saída PDF:
Descrições alternativas para hiperligações
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Além do ponto anterior, os documentos Microsoft Word também permitem aos utilizadores adicionar texto alternativo a hiperligações. Aspose.Words exporta esse texto alternativo para a saída PDF.
Infelizmente, nem todos os aplicativos permitem que você configure uma descrição alternativa. Por exemplo, Adobe Acrobat actualmente não permite configurar essa descrição para hiperligações. Mas em Microsoft Word, você pode fazer isso da seguinte maneira:
Às vezes, há um problema que não é possível definir texto alternativo para hiperligações geradas automaticamente no índice (TOC) através do Microsoft Word GUI. Aspose.Words poderia atualizar esses campos e gerar os links por conta própria.
Siga o exemplo de código para atualizar os campos TOC
usando o modelo de objeto de documento Aspose.Words (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Cabeçalhos Das Tabelas
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
As tabelas em PDF/UA-1 documentos devem ter cabeçalhos-coluna, linha ou ambos. PDF/A requer apenas marcação de tabela padrão, que não tem restrições adicionais. Observe que Aspose.Words gera a marcação de tabela padrão automaticamente.
A especificação nos diz o seguinte (expandir para ver detalhes):
As tabelas devem incluir cabeçalhos ... as tabelas podem conter cabeçalhos de coluna, cabeçalhos de linha ou ambos.
ISO-14289-1, 7.5
Neste bloco, você pode ver exemplos: como definir o cabeçalho da tabela (expandir para ver detalhes).
O cabeçalho da tabela pode ser configurado no documento de origem Microsoft Word:
Ou a saída PDF:
Texto De Substituição
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expandir para ver detalhes):
A especificação nos diz o seguinte:
Todos os elementos da estrutura textual representados de forma não normalizada, por exemplo, caracteres personalizados ou gráficos em linha, devem fornecer texto de substituição utilizando a entrada `ActualText` no dicionário de elementos da estrutura...
ISO-19005-2, 6.7.7
Microsoft Word o documento não permite que os utilizadores definam textos de substituição. Portanto, isso precisa ser verificado e corrigido na saída PDF:
Abreviaturas e acrónimos Expansões
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expandir para ver detalhes):
Todas as instâncias de abreviaturas e siglas no conteúdo textual devem ser colocadas numa sequência de conteúdo marcado com uma etiqueta Span cuja propriedade e proporcione uma expansão textual da abreviatura ou acrónimo...
ISO-19005-2, 6.7.8
Microsoft Word documento não permite aos utilizadores definir abreviaturas e acrónimos expansões. Portanto, isso precisa ser verificado e corrigido na saída PDF:
Título Do Documento
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
O documento em PDF/UA-1 deve ter um título. |
A especificação nos diz o seguinte (expandir para ver detalhes):
A especificação nos diz o seguinte:
O fluxo de metadados no dicionário do Catálogo do documento deve conter uma entrada dc: title, em que dc é o prefixo recomendado para o esquema de metadados Dublin Core…
ISO-14289-1, 7.1
Neste bloco, você pode ver exemplos: como definir o título do documento (expandir para ver detalhes).
O título do documento pode ser configurado no documento de origem Microsoft Word:
Ou a saída PDF:
Requisitos Da Fonte
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Há também uma série de nuances de trabalhar com fontes ao converter para PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 formatos usando Aspose.Words. Eles devem ser levados em consideração se você quiser evitar possíveis problemas com o documento de saída.
As secções seguintes descrevem tais nuances e opções para a sua solução.
Requisitos Legais Da Fonte
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words não verifica as restrições legais das fontes utilizadas – cabe aos utilizadores. Em outras palavras, um usuário não deve fornecer fontes inadequadas para a conversão de PDF Usando Aspose.Words.
A especificação nos diz o seguinte (expandir para ver detalhes):
Apenas serão utilizados programas de fontes que possam ser legalmente incorporados num ficheiro para uma prestação ilimitada e universal.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exatamente as mesmas citações em duas especificações)
.notdef Glyph
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
É proibida a utilização do glifo .notdef
. O glifo .notdef
aparecerá se um documento contiver caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo de Fallback da fonte.
A especificação nos diz o seguinte (expandir para ver detalhes):
Um documento em conformidade não deve conter uma referência ao .notdef glifo de qualquer um dos operadores de exibição de texto, independentemente do modo de renderização de texto, em qualquer fluxo de conteúdo.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exatamente as mesmas citações em duas especificações)
Neste bloco, você pode ver exemplos: como remover ou substituir esses caracteres (expandir para ver detalhes).
Os usuários devem remover ou substituir esses caracteres no documento do Word de origem:
Ou o documento de saída PDF usando a ferramenta " Editar PDF":
Área De Utilização Privada (PUA)
PDF níveis de Conformidade normalizados dentro de Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Os caracteres da área de uso privado (PUA) aparecem principalmente para Fontes simbólicas Windows como “Symbol”, “Wingdings”, “Webdings” e outros. Microsoft Word os formatos não fornecem uma opção para armazenar texto real para caracteres.
A especificação nos diz o seguinte (expandir para ver detalhes):
Apenas para conformidade de Nível A, para qualquer carácter ... isso é mapeado para um código ou códigos na área de Uso privado Unicode (PUA), uma entrada ActualText... devem estar presentes para esse carácter ou para uma sequência de caracteres da qual esse carácter faça parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” é uma fonte Unicode Windows que pode ser usada como alternativa às fontes simbólicas.
Neste bloco, você pode ver exemplos: o que o Usuário deve fazer para resolver o problema com fontes simbólicas (expandir para ver detalhes).
Substitua a fonte simbólica por uma fonte Unicode no documento do Word de origem:
Ou adicione uma entrada ActualText aos caracteres problemáticos no documento de saída PDF: