Trabalhar com PDF/A ou PDF/UA

O formato PDF/A e PDF/UA impõe vários requisitos relacionados ao conteúdo do documento que não pode ser cumprido durante a conversão automática de um documento no formato Word para PDF. Estes requisitos devem ser verificados e corrigidos em um documento do Word antes da conversão ou em um documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.

Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seguintes seções.

Requisitos de Estrutura de Documento

Os requisitos atuais são para formatos PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.

Há algumas nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em conta se você quiser obter o resultado esperado.

As subseções abaixo descrevem nuances de como Aspose.Words funciona ao converter para vários padrões e opções de formato PDF para sua solução.

Tipo de estrutura

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1 tick

Um documento PDF é uma sequência de blocos como cabeçalhos, parágrafos, tabelas e outros. Estes blocos formam uma estrutura de documentos – fortemente ou fraco.

Ambas as estruturas fortes e fracas são válidas para PDF/A. Microsoft Word documentos têm uma estrutura fraca por design, e Aspose.Words cria PDF com a estrutura fraca respectivamente e também gera cabeçalhos de acordo com os níveis de contorno dos parágrafos no documento de origem.

Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números de cabeçalho ir em ordem sem lacunas.

Para garantir a saída correta, os usuários têm que garantir que o conteúdo do documento de origem seja adequadamente organizado e os níveis de contorno são especificados corretamente para parágrafos. Caso contrário, o usuário deve verificar e corrigir a estrutura do documento PDF de saída.

Marcar o conteúdo como um artefato

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1 tick

No momento, Aspose.Words marcas cabeçalhos de página e rodapés, separadores de notas, células de cabeçalho de mesa repetidas e imagens decorativas como artefatos. Note que esta lista pode ser atualizada no futuro.

Se um documento contém qualquer outro conteúdo que deve ser marcado como um artefato, ou se algum do conteúdo artefato é um conteúdo real, os clientes devem corrigir isso no PDF de saída.

Especificação de linguagem natural

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1 tick

Idioma de texto é especificado em Microsoft Word documentos. Aspose.Words exporta o idioma especificado para um PDF de saída com o Lang atributo anexado a uma sequência de conteúdo marcado ou uma tag de Span – é controlado pelo ExportLanguageToSpanTag propriedade. Geralmente não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas há uma possibilidade de que a linguagem possa ser imprecisa se o texto for gerado automaticamente.

Captura de figuras

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-2a
PDF/UA-1 tick

Microsoft Word documentos permitem aos usuários adicionar legenda figura.

Atualmente Aspose.Words não pode exportar legendas com a tag Caption, então eles devem ser sinalizados no PDF de saída.

Descrições alternadas

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1 tick

Microsoft Word documentos permitem que os usuários adicionem texto alternativo a imagens, formas e tabelas. Aspose.Words exporta tal texto alternativo para a saída PDF.

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-2a
PDF/UA-1 tick

Além do ponto anterior, Microsoft Word documentos também permitem que os usuários adicionem texto alternativo a hiperlinks. Aspose.Words exporta tal texto alternativo para a saída PDF.

Infelizmente, nem todas as aplicaçÃμes permitem configurar uma descrição alternativa. Por exemplo, Adobe Acrobat Atualmente não permite configurar tal descrição para hiperlinks. Mas… Microsoft Word, você pode fazer isso da seguinte forma:

alternate-descriptions-hyperlinks-mw

Às vezes há um problema que não é possível definir texto alternativo para hiperlinks autogenerados na tabela de conteúdo (TOC) através do Microsoft Word GUI. Aspose.Words poderia atualizar tais campos e gerar os links por conta própria.

Siga o exemplo de código para atualizar TOC campos usando o Aspose.Words Document Object Model (DOM:

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Cabeçalhos de mesa

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-2a
PDF/UA-1 tick

Tabelas em documentos PDF/UA-1 devem ter cabeçalhos – coluna, linha ou ambos. PDF/A só requer marcação de tabela padrão, que não tem restrições adicionais. Note que Aspose.Words gera a marcação de tabela padrão automaticamente.

Texto de substituição

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1

Microsoft Word documento não permite aos usuários definir texto de substituição. Então isso precisa ser verificado e corrigido no PDF de saída:

AcrobatReplacementText

Abreviações e Acronyms Expansões

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-2a tick
PDF/UA-1

Microsoft Word documento não permite aos usuários definir abreviaturas e acrônimos expansões. Assim, isso precisa ser verificado e corrigido no PDF de saída:

AcrobatSplitAddExpansionText

Título do documento

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-2a
PDF/A-4
PDF/UA-1 tick
Documento em PDF/UA-1 deve ter um título

Requisitos de fonte

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-1b tick
PDF / A-2a tick
PDF / A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Há também um número de nuances de trabalhar com fontes ao converter para PDF/A-1, PDF/A-2, PDF/A-4 ou formatos PDF/UA-1 usando Aspose.Words. Eles devem ser levados em conta se você quiser evitar possíveis problemas com o documento de saída.

As seções abaixo descrevem tais nuances e opções para sua solução.

Requisitos legais da fonte

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a tick
PDF / A-1b tick
PDF / A-2a tick
PDF / A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words não verifica as restrições legais das fontes usadas – cabe aos usuários. Em outras palavras, um usuário não deve fornecer fontes inadequadas para conversão de PDF usando Aspose.Words.

.notdef Glyph

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-1b
PDF / A-2a tick
PDF / A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

O uso do .notdef glyph é proibido. O .notdef glyph aparecerá se um documento contém caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo Font Fallback.

Área de uso privado (PUA)

níveis de conformidade padrão PDF dentro Aspose.Words Presença de exigência
PDF / A-1a
PDF / A-1b
PDF / A-2a tick
PDF / A-2b tick
PDF/A-4 tick
PDF/UA-1

Os caracteres Private Use Area (PUA) aparecem principalmente para Windows fontes simbólicas como “Symbol”, “Wingdings”, “Webdings”, e outros. Microsoft Word formatos não fornecem uma opção para armazenar texto real para caracteres.

“Segoe UI Symbol” é um Windows Fonte Unicode que poderia ser usado como uma alternativa para fontes simbólicas.