Trabalhando com PDF/A ou PDF/UA
Os formatos PDF/A e PDF/UA impõem vários requisitos relacionados ao conteúdo do documento que não podem ser atendidos durante a conversão automática de um documento no formato Word para PDF. Esses requisitos devem ser verificados e corrigidos em um documento Word antes da conversão ou em um documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.
Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seções a seguir.
Requisitos de estrutura do documento
Os requisitos atuais são para os formatos PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.
Existem algumas nuances de como o Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em consideração se você deseja obter o resultado esperado.
A especificação nos diz o seguinte (expanda para ver detalhes):
Não é aconselhável que os redatores gerem informações estruturais ou semânticas usando processos automatizados sem a verificação apropriada.
ISO19005-2, 6.7.1
As subseções abaixo descrevem as nuances de como o Aspose.Words funciona ao converter para vários padrões de formato PDF e opções para sua solução.
Tipo de estrutura
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Um documento PDF é uma sequência de blocos como títulos, parágrafos, tabelas e outros. Esses blocos formam uma estrutura de documento – forte ou fraca.
Ambas as estruturas fortes e fracas são válidas para PDF/A. Os documentos Microsoft Word têm uma estrutura fraca por design, e o Aspose.Words cria PDF com a estrutura fraca, respectivamente, e também gera títulos de acordo com os níveis de contorno dos parágrafos no documento de origem.
Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números dos títulos estejam em ordem, sem lacunas.
A especificação nos diz o seguinte (expanda para ver detalhes):
A estrutura em nível de bloco pode seguir um dos dois paradigmas principais:
ISO-32000-1, 14.8.4.3.5
Para documentos PDF/UA-1, a especificação contém um acréscimo relacionado aos níveis de cabeçalho (expanda para ver detalhes):
Se a semântica do documento exigir uma sequência descendente de cabeçalhos, tal sequência deverá proceder em ordem numérica estrita e não deverá pular um nível de cabeçalho intermediário. H1 H2 H3 é permitido, enquanto H1 H3 não.
ISO-14289-1, 7.4.2
Para garantir a saída correta, os usuários devem garantir que o conteúdo do documento de origem esteja devidamente organizado e que os níveis de estrutura de tópicos sejam especificados corretamente para os parágrafos. Caso contrário, o usuário deverá verificar e corrigir a estrutura do documento PDF de saída.
Neste bloco, você pode ver exemplos: como definir níveis de estrutura de tópicos em Microsoft Word ou verificar e corrigir a estrutura do documento PDF de saída (expanda para ver detalhes).
No padrão Microsoft Word, os estilos "Título X" podem ser usados para definir o nível de estrutura de tópicos:
Além disso, o nível do contorno pode ser verificado ou alterado na janela "Parágrafo":
No Acrobat, a estrutura do documento pode ser verificada ou alterada no painel "Tags":
Marcando o conteúdo como um artefato
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
No momento, o Aspose.Words marca cabeçalhos e rodapés de páginas, separadores de notas, células repetidas de cabeçalhos de tabelas e imagens decorativas como artefatos. Observe que esta lista pode ser atualizada no futuro.
A especificação nos diz o seguinte (expanda para ver detalhes):
Os objetos gráficos em um documento podem ser divididos em duas classes:
ISO-32000-1, 14.8.2.2.1
Se um documento contiver qualquer outro conteúdo que deva ser marcado como um artefato, ou se algum conteúdo artefato for um conteúdo real, os clientes deverão corrigir isso no PDF de saída.
Neste bloco, você pode ver exemplos: como marcar formas como decorativas em Microsoft Word ou marcar formas como artefatos no documento PDF de saída (expanda para ver detalhes).
Por exemplo, as formas podem ser marcadas como decorativas em Microsoft Word, para que sejam exportadas para PDF como um artefato:
Você pode marcar a forma como um artefato no PDF de saída:
Além disso, você pode alternar o texto em um cabeçalho do artefato para conteúdo real no PDF de saída:
Especificação de linguagem natural
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
O idioma do texto é especificado em documentos Microsoft Word. Aspose.Words exporta o idioma especificado para um PDF de saída com o atributo Lang anexado a uma sequência de conteúdo marcado ou a uma tag Span – é controlado pela propriedade ExportLanguageToSpanTag. Geralmente não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas existe a possibilidade de a linguagem ser imprecisa se o texto for gerado automaticamente.
A especificação nos diz o seguinte (expanda para ver detalhes):
O idioma natural padrão para todo o texto em um arquivo deve ser especificado pela entrada Lang no dicionário Catálogo do documento.
Todo o conteúdo textual dentro de um arquivo que difere do idioma padrão deve ser indicado pelo uso de uma propriedade `Lang` anexada a uma sequência de conteúdo marcado ou por uma entrada Lang em um dicionário de elementos de estrutura ...
ISO-19005-2, 6.7.4
Além disso, para PDF/UA-1, a especificação nos diz o seguinte (expanda para ver detalhes):
A linguagem natural será declarada… As alterações na linguagem natural serão declaradas.
ISO-14289-1, 7.2
Neste bloco você pode ver exemplos: como garantir que o idioma seja especificado corretamente (expanda para ver detalhes).
Os usuários devem garantir que o idioma seja especificado corretamente no documento Word de origem:
Ou o documento PDF de saída:
Legenda da Figura
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Documentos Microsoft Word permitem aos usuários adicionar legendas às figuras.
A especificação nos diz o seguinte (expanda para ver detalhes):
Uma legenda que acompanha uma figura deve ser marcada com uma etiqueta Caption.
ISO-14289-1, 7.3
Atualmente o Aspose.Words não pode exportar legendas com a tag Caption, portanto elas devem ser sinalizadas no PDF de saída.
Neste bloco você pode ver exemplos: como inserir a legenda (expandir para ver detalhes).
No Microsoft Word, a legenda pode ser inserida através do menu de contexto:
No Acrobat, a legenda pode ser adicionada ou alterada por meio da caixa de diálogo Propriedades do `Object`:
Descrições alternativas
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Documentos Microsoft Word permitem aos usuários adicionar texto alternativo a imagens, formas e tabelas. Aspose.Words exporta esse texto alternativo para o PDF de saída.
A especificação nos diz o seguinte (expanda para ver detalhes):
Todos os elementos da estrutura cujo conteúdo não tenha um análogo textual natural pré-determinado, por exemplo, imagens, fórmulas, etc., devem fornecer uma descrição de texto alternativa usando a entrada Alt no dicionário de elementos da estrutura...
NOTA Descrições alternativas fornecem descrições textuais que auxiliam na interpretação adequada de conteúdo não textual que de outra forma seria opaco.
ISO-19005-2, 6.7.5
Neste bloco você pode ver exemplos: como garantir que todos os elementos tenham um texto alternativo (expanda para ver detalhes).
Os usuários devem garantir que todos os elementos tenham um texto alternativo no documento Word de origem:
Ou o documento PDF de saída:
Descrições alternativas para hiperlinks
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Além do ponto anterior, os documentos Microsoft Word também permitem aos usuários adicionar texto alternativo aos hiperlinks. Aspose.Words exporta esse texto alternativo para o PDF de saída.
Infelizmente, nem todos os aplicativos permitem configurar uma descrição alternativa. Por exemplo, o Adobe Acrobat atualmente não permite configurar tal descrição para hiperlinks. Mas no Microsoft Word, você pode fazer isso da seguinte maneira:
Às vezes, há um problema de não ser possível definir texto alternativo para hiperlinks gerados automaticamente no índice (TOC) por meio da GUI Microsoft Word. O Aspose.Words poderia atualizar esses campos e gerar os links por conta própria.
Siga o exemplo de código para atualizar campos TOC
usando Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Cabeçalhos de tabela
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
As tabelas em documentos PDF/UA-1 devem ter cabeçalhos – coluna, linha ou ambos. PDF/A requer apenas marcação de tabela padrão, que não tem restrições adicionais. Observe que Aspose.Words gera a marcação de tabela padrão automaticamente.
A especificação nos diz o seguinte (expanda para ver detalhes):
As tabelas devem incluir cabeçalhos… As tabelas podem conter cabeçalhos de coluna, cabeçalhos de linha ou ambos.
ISO-14289-1, 7,5
Neste bloco você pode ver exemplos: como definir o cabeçalho da tabela (expanda para ver detalhes).
O cabeçalho da tabela pode ser configurado no documento Microsoft Word de origem:
Ou o PDF de saída:
Texto de substituição
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expanda para ver detalhes):
A especificação nos diz o seguinte:
Todos os elementos da estrutura textual representados de maneira não padronizada, por exemplo, caracteres personalizados ou gráficos embutidos, devem fornecer texto de substituição usando a entrada `ActualText` no dicionário de elementos da estrutura...
ISO-19005-2, 6.7.7
O documento Microsoft Word não permite que os usuários definam texto de substituição. Portanto, isso precisa ser verificado e corrigido no PDF de saída:
Expansões de abreviaturas e siglas
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
A especificação nos diz o seguinte (expanda para ver detalhes):
Todas as ocorrências de abreviaturas e siglas no conteúdo textual devem ser colocadas em uma sequência de conteúdo marcado com uma tag Span cuja propriedade E fornece uma expansão textual da abreviatura ou sigla...
ISO-19005-2, 6.7.8
O documento Microsoft Word não permite que os usuários definam abreviações e expansões de siglas. Portanto, isso precisa ser verificado e corrigido no PDF de saída:
Título do documento
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Documento em PDF/UA-1 deverá ter título |
A especificação nos diz o seguinte (expanda para ver detalhes):
A especificação nos diz o seguinte:
O fluxo de metadados no dicionário do catálogo do documento deve conter uma entrada dc:title, onde dc é o prefixo recomendado para o esquema de metadados Dublin Core…
ISO-14289-1, 7.1
Neste bloco você pode ver exemplos: como definir o título do documento (expanda para ver detalhes).
O título do documento pode ser configurado no documento Microsoft Word de origem:
Ou o PDF de saída:
Requisitos de fonte
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Há também uma série de nuances no trabalho com fontes ao converter para os formatos PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 usando Aspose.Words. Eles devem ser levados em consideração se você quiser evitar possíveis problemas com o documento de saída.
As seções abaixo descrevem essas nuances e opções para resolvê-las.
Requisitos legais de fonte
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words não verifica as restrições legais das fontes utilizadas – isso depende dos usuários. Em outras palavras, um usuário não deve fornecer fontes inadequadas para conversão de PDF usando Aspose.Words.
A especificação nos diz o seguinte (expanda para ver detalhes):
Somente programas de fontes legalmente incorporáveis em um arquivo para renderização ilimitada e universal deverão ser usados.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exatamente as mesmas citações em duas especificações)
.notdef Glyph
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
O uso do .notdef
glyph é proibido. O .notdef
glyph aparecerá se um documento contiver caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo Font Fallback.
A especificação nos diz o seguinte (expanda para ver detalhes):
Um documento em conformidade não deve conter uma referência ao .notdef glyph de qualquer operador que mostre o texto, independentemente do modo de renderização do texto, em qualquer fluxo de conteúdo.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exatamente as mesmas citações em duas especificações)
Neste bloco você pode ver exemplos: como remover ou substituir esses caracteres (expanda para ver detalhes).
Os usuários devem remover ou substituir estes caracteres no documento Word de origem:
Ou o documento PDF de saída usando a ferramenta "Editar PDF":
Área de Uso Privado (PUA)
Níveis de conformidade padrão de PDF em Aspose.Words | Presença de exigência |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Os caracteres da área de uso privado (PUA) aparecem principalmente para fontes simbólicas Windows como “Symbol”, “Wingdings”, “Webdings” e outras. Os formatos Microsoft Word não oferecem uma opção para armazenar texto real para caracteres.
A especificação nos diz o seguinte (expanda para ver detalhes):
Apenas para conformidade com o Nível A, para qualquer caractere ... que seja mapeado para um código ou códigos na Área de Uso Privado Unicode (PUA), uma entrada ActualText ... deve estar presente para este caractere ou uma sequência de caracteres dos quais tal um personagem é uma parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” é uma fonte Windows Unicode que pode ser usada como alternativa às fontes simbólicas.
Neste bloco você pode ver exemplos: o que o usuário deve fazer para resolver o problema com fontes simbólicas (expandir para ver detalhes).
Substitua a fonte simbólica por uma Unicode no documento Word de origem:
Ou adicione uma entrada ActualText aos caracteres problemáticos no documento PDF de saída: