Trabalhar com PDF/A ou PDF/UA
O formato PDF/A e PDF/UA impõe vários requisitos relacionados ao conteúdo do documento que não pode ser cumprido durante a conversão automática de um documento no formato Word para PDF. Estes requisitos devem ser verificados e corrigidos em um documento do Word antes da conversão ou em um documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.
Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seguintes seções.
Requisitos de Estrutura de Documento
Os requisitos atuais são para formatos PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.
Há algumas nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em conta se você quiser obter o resultado esperado.
A especificação nos diz o seguinte (expand para ver detalhes):
É aconselhável que os escritores gerem informações estruturais ou semânticas utilizando processos automatizados sem verificação adequada.
ISO 19005-2, 6.7.1
As subseções abaixo descrevem nuances de como Aspose.Words funciona ao converter para vários padrões e opções de formato PDF para sua solução.
Tipo de estrutura
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Um documento PDF é uma sequência de blocos como cabeçalhos, parágrafos, tabelas e outros. Estes blocos formam uma estrutura de documentos – fortemente ou fraco.
Ambas as estruturas fortes e fracas são válidas para PDF/A. Microsoft Word documentos têm uma estrutura fraca por design, e Aspose.Words cria PDF com a estrutura fraca respectivamente e também gera cabeçalhos de acordo com os níveis de contorno dos parágrafos no documento de origem.
Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números de cabeçalho ir em ordem sem lacunas.
A especificação nos diz o seguinte (expand para ver detalhes):
A estrutura de nível de blocos pode seguir um dos dois principais paradigmas:
ISO-32000-1, 14.8.4.3.5
Para documentos PDF/UA-1, a especificação contém uma adição relacionada aos níveis de posição (expand to see details):
Se a semântica do documento exigir uma seqüência descendente de cabeçalhos, tal seqüência deve proceder em ordem numérica estrita e não pulará um nível de cabeçalho interveniente. H1 H2 H3 é permitido, enquanto H1 H3 não é.
ISO-14289-1, 7.4.2
Para garantir a saída correta, os usuários têm que garantir que o conteúdo do documento de origem seja adequadamente organizado e os níveis de contorno são especificados corretamente para parágrafos. Caso contrário, o usuário deve verificar e corrigir a estrutura do documento PDF de saída.
Neste bloco, você pode ver exemplos: como definir níveis de contorno em Microsoft Word ou verificar e corrigir a estrutura do documento PDF de saída (expand para ver detalhes).
Em Microsoft Word padrão "Heading X" estilos podem ser usados para definir o nível de contorno:
Além disso, o nível de contorno pode ser verificado ou alterado na janela "Paragrafo":
No Acrobat a estrutura do documento pode ser verificada ou alterada no painel "Tags":
Marcar o conteúdo como um artefato
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
No momento, Aspose.Words marcas cabeçalhos de página e rodapés, separadores de notas, células de cabeçalho de mesa repetidas e imagens decorativas como artefatos. Note que esta lista pode ser atualizada no futuro.
A especificação nos diz o seguinte (expand para ver detalhes):
Os objetos gráficos em um documento podem ser divididos em duas classes:
ISO-32000-1, 14.8.2.2.1
Se um documento contém qualquer outro conteúdo que deve ser marcado como um artefato, ou se algum do conteúdo artefato é um conteúdo real, os clientes devem corrigir isso no PDF de saída.
Neste bloco, você pode ver exemplos: como marcar formas como decorativas em Microsoft Word ou marca a forma como um artefato no documento PDF de saída (expand para ver detalhes).
Por exemplo, formas podem ser marcadas como decorativas em Microsoft Word, para que eles serão exportados para PDF como um artefato:
Você pode marcar a forma como um artefato na saída PDF:
Além disso, você pode alternar texto em um cabeçalho do artefato para conteúdo real no PDF de saída:
Especificação de linguagem natural
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Idioma de texto é especificado em Microsoft Word documentos. Aspose.Words exporta o idioma especificado para um PDF de saída com o Lang atributo anexado a uma sequência de conteúdo marcado ou uma tag de Span – é controlado pelo ExportLanguageToSpanTag propriedade. Geralmente não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas há uma possibilidade de que a linguagem possa ser imprecisa se o texto for gerado automaticamente.
A especificação nos diz o seguinte (expand para ver detalhes):
A linguagem natural padrão para todo o texto em um arquivo deve ser especificada pela entrada Lang no dicionário do catálogo do documento.
Todo o conteúdo textual dentro de um arquivo que difere do idioma padrão deve ser indicado pelo uso de um `Lang` propriedade anexada a uma sequência marcada-conteúdo, ou por uma entrada de Lang em um dicionário elemento estrutura ...
ISO-19005-2, 6.7.4
Além de PDF/UA-1, a especificação nos diz o seguinte (expand para ver detalhes):
A linguagem natural deve ser declarada... As alterações na língua natural são declaradas.
ISO-14289-1, 7.2
Neste bloco, você pode ver exemplos: como garantir que a linguagem é especificada corretamente (expand para ver detalhes).
Os usuários devem garantir que a linguagem seja especificada corretamente no documento do Word de origem:
Ou o documento PDF de saída:
Captura de figuras
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Microsoft Word documentos permitem aos usuários adicionar legenda figura.
A especificação nos diz o seguinte (expand para ver detalhes):
Uma legenda que acompanha uma figura deve ser marcada com uma legenda.
ISO-14289-1, 7.3
Atualmente Aspose.Words não pode exportar legendas com a tag Caption, então eles devem ser sinalizados no PDF de saída.
Neste bloco, você pode ver exemplos: como inserir a legenda (expand para ver detalhes).
Em Microsoft Word, a legenda pode ser inserida através do menu de contexto:
Em Acrobat a legenda poderia ser adicionada ou alterada via `Object` Propriedades diálogo:
Descrições alternadas
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Microsoft Word documentos permitem que os usuários adicionem texto alternativo a imagens, formas e tabelas. Aspose.Words exporta tal texto alternativo para a saída PDF.
A especificação nos diz o seguinte (expand para ver detalhes):
Todos os elementos de estrutura cujo conteúdo não tem um análogo textual pré-determinado natural, por exemplo, imagens, fórmulas, etc, devem fornecer uma descrição de texto alternativa usando a entrada Alt no dicionário elemento estrutura...
NOTA Descrições alternadas fornecem descrições textuais que ajudam na interpretação adequada de conteúdo não textual opaco de outra forma.
ISO-19005-2, 6.7.5
Neste bloco, você pode ver exemplos: como garantir que todos os elementos tenham um texto alternativo (expandir para ver detalhes).
Os usuários devem garantir que todos os elementos tenham um texto alternativo no documento fonte do Word:
Ou o documento PDF de saída:
Descrições alternadas para hiperlinks
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Além do ponto anterior, Microsoft Word documentos também permitem que os usuários adicionem texto alternativo a hiperlinks. Aspose.Words exporta tal texto alternativo para a saída PDF.
Infelizmente, nem todas as aplicaçÃμes permitem configurar uma descrição alternativa. Por exemplo, Adobe Acrobat Atualmente não permite configurar tal descrição para hiperlinks. Mas… Microsoft Word, você pode fazer isso da seguinte forma:
Às vezes há um problema que não é possível definir texto alternativo para hiperlinks autogenerados na tabela de conteúdo (TOC) através do Microsoft Word GUI. Aspose.Words poderia atualizar tais campos e gerar os links por conta própria.
Siga o exemplo de código para atualizar TOC
campos usando o Aspose.Words Document Object Model (DOM:
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Cabeçalhos de mesa
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
Tabelas em documentos PDF/UA-1 devem ter cabeçalhos – coluna, linha ou ambos. PDF/A só requer marcação de tabela padrão, que não tem restrições adicionais. Note que Aspose.Words gera a marcação de tabela padrão automaticamente.
A especificação nos diz o seguinte (expand para ver detalhes):
Tabelas devem incluir cabeçalhos... As tabelas podem conter cabeçalhos de coluna, cabeçalhos de linha ou ambos.
ISO-14289-1, 7,5
Neste bloco, você pode ver exemplos: como definir o cabeçalho da tabela (expand para ver detalhes).
O cabeçalho da tabela pode ser configurado ou a fonte Microsoft Word documento:
Ou o PDF de saída:
Texto de substituição
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expand para ver detalhes):
A especificação nos diz o seguinte:
Todos os elementos de estrutura textual que são representados de forma não padrão, por exemplo, caracteres personalizados ou gráficos inline, devem fornecer texto de substituição usando o `ActualText` entrada na estrutura elemento dicionário...
ISO-19005-2, 6.7.7
Microsoft Word documento não permite aos usuários definir texto de substituição. Então isso precisa ser verificado e corrigido no PDF de saída:
Abreviações e Acronyms Expansões
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expand para ver detalhes):
Todas as instâncias de abreviaturas e siglas em conteúdo textual devem ser colocadas em uma sequência marcada-conteúdo com uma tag de Span cuja propriedade E fornece uma expansão textual da abreviação ou acrônimo...
ISO-19005-2, 6.7.8
Microsoft Word documento não permite aos usuários definir abreviaturas e acrônimos expansões. Assim, isso precisa ser verificado e corrigido no PDF de saída:
Título do documento
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Documento em PDF/UA-1 deve ter um título |
A especificação nos diz o seguinte (expand para ver detalhes):
A especificação nos diz o seguinte:
O fluxo de metadados no dicionário de catálogo do documento deve conter uma entrada dc:title, onde dc é o prefixo recomendado para o esquema de metadados Dublin Core...
ISO-14289-1, 7.1
Neste bloco, você pode ver exemplos: como definir o título do documento (expand para ver detalhes).
O título do documento pode ser configurado ou a fonte Microsoft Word documento:
Ou o PDF de saída:
Requisitos de fonte
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-1b | |
PDF / A-2a | |
PDF / A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Há também um número de nuances de trabalhar com fontes ao converter para PDF/A-1, PDF/A-2, PDF/A-4 ou formatos PDF/UA-1 usando Aspose.Words. Eles devem ser levados em conta se você quiser evitar possíveis problemas com o documento de saída.
As seções abaixo descrevem tais nuances e opções para sua solução.
Requisitos legais da fonte
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-1b | |
PDF / A-2a | |
PDF / A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words não verifica as restrições legais das fontes usadas – cabe aos usuários. Em outras palavras, um usuário não deve fornecer fontes inadequadas para conversão de PDF usando Aspose.Words.
A especificação nos diz o seguinte (expand para ver detalhes):
Somente programas de fonte que são legalmente embeddable em um arquivo para renderização ilimitada, universal deve ser usado.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exatamente as mesmas citações em duas especificações)
.notdef Glyph
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-1b | |
PDF / A-2a | |
PDF / A-2b | |
PDF/A-4 | |
PDF/UA-1 |
O uso do .notdef
glyph é proibido. O .notdef
glyph aparecerá se um documento contém caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo Font Fallback.
A especificação nos diz o seguinte (expand para ver detalhes):
Um documento em conformidade não deve conter uma referência ao .notdef glyph de qualquer um do texto mostrando operadores, independentemente do modo de renderização de texto, em qualquer fluxo de conteúdo.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exatamente as mesmas citações em duas especificações)
Neste bloco, você pode ver exemplos: como remover ou substituir esses caracteres (expand para ver detalhes).
Os usuários devem remover ou substituir esses caracteres no documento do Word de origem:
Ou o documento PDF de saída usando a ferramenta "Editar PDF":
Área de uso privado (PUA)
níveis de conformidade padrão PDF dentro Aspose.Words | Presença de exigência |
---|---|
PDF / A-1a | |
PDF / A-1b | |
PDF / A-2a | |
PDF / A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Os caracteres Private Use Area (PUA) aparecem principalmente para Windows fontes simbólicas como “Symbol”, “Wingdings”, “Webdings”, e outros. Microsoft Word formatos não fornecem uma opção para armazenar texto real para caracteres.
A especificação nos diz o seguinte (expand para ver detalhes):
Para o nível Apenas uma conformidade, para qualquer personagem ... que é mapeada para um código ou códigos na Área de Uso Privado Unicode (PUA), uma entrada ActualText ... estará presente para este personagem ou uma sequência de caracteres dos quais tal personagem é uma parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” é um Windows Fonte Unicode que poderia ser usado como uma alternativa para fontes simbólicas.
Neste bloco, você pode ver exemplos: o que o usuário deve fazer para resolver o problema com fontes simbólicas (expand para ver detalhes).
Substituir a fonte simbólica com um Unicode um no documento fonte do Word:
Ou adicione uma entrada ActualText aos caracteres problemáticos no documento PDF de saída: