Trabalhar com PDF/A ou PDF/UA

O formato PDF/A e PDF/UA impõe vários requisitos relacionados com o conteúdo do documento que não podem ser cumpridos durante a conversão automática de um documento em formato Word para PDF. Estes requisitos devem ser verificados e corrigidos num documento do Word antes da conversão ou num documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.

Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seções a seguir.

Requisitos Da Estrutura Do Documento

Os requisitos actuais são para PDF/A-1a, PDF/A-2a, PDF/A-4, e PDF/UA-1 formatos.

Existem algumas nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em consideração se você deseja obter o resultado esperado.

As subseções abaixo descrevem nuances de como Aspose.Words funciona ao converter para vários padrões de formato PDF e opções para sua solução.

Tipo De Estrutura

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Um documento PDF é uma sequência de blocos, como títulos, parágrafos, tabelas e outros. Esses blocos formam uma estrutura de Documento-forte ou fraca.

As estruturas fortes e fracas são válidas para PDF/A. Microsoft Word os documentos têm uma estrutura fraca por design, e Aspose.Words cria PDF com a estrutura fraca, respectivamente, e também gera títulos de acordo com os níveis de contorno dos parágrafos no documento de origem.

Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números das rubricas estejam em ordem sem lacunas.

Para garantir uma saída correcta, os utilizadores têm de assegurar que o conteúdo do documento de origem está devidamente organizado e que os níveis de contorno estão correctamente especificados para os parágrafos. Caso contrário, o Usuário deve verificar e corrigir a estrutura do documento de saída PDF.

Marcar o Conteúdo como um artefacto

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

No momento, Aspose.Words marca cabeçalhos e rodapés de páginas, separadores de notas, células de cabeçalho de tabela repetidas e imagens decorativas como artefatos. Note-se que esta lista poderá ser actualizada no futuro.

Se um documento contiver qualquer outro conteúdo que deva ser marcado como um artefato, ou se algum dos conteúdos artificiais for um conteúdo real, os clientes devem corrigir isso na saída PDF.

Especificação Da Linguagem Natural

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

O idioma do texto é especificado em Microsoft Word documentos. Aspose.Words exporta o idioma especificado para uma saída PDF com o atributo Lang anexado a uma sequência de conteúdo marcado ou uma tag Span-é controlado pela propriedade ExportLanguageToSpanTag. Geralmente, não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas existe a possibilidade de a linguagem ser imprecisa se o texto for gerado automaticamente.

Legenda Da Figura

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word os documentos permitem aos utilizadores adicionar legendas.

Atualmente, Aspose.Words não é possível exportar legendas com a Tag Caption, portanto, elas devem ser sinalizadas na saída PDF.

Descrições Alternativas

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word os documentos permitem aos utilizadores adicionar texto alternativo a imagens, formas e tabelas. Aspose.Words exporta esse texto alternativo para a saída PDF.

Descrições alternativas para hiperligações

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Além do ponto anterior, os documentos Microsoft Word também permitem aos utilizadores adicionar texto alternativo a hiperligações. Aspose.Words exporta esse texto alternativo para a saída PDF.

Infelizmente, nem todos os aplicativos permitem que você configure uma descrição alternativa. Por exemplo, Adobe Acrobat actualmente não permite configurar essa descrição para hiperligações. Mas em Microsoft Word, você pode fazer isso da seguinte maneira:

alternate-descriptions-hyperlinks-mw

Às vezes, há um problema que não é possível definir texto alternativo para hiperligações geradas automaticamente no índice (TOC) através do Microsoft Word GUI. Aspose.Words poderia atualizar esses campos e gerar os links por conta própria.

Siga o exemplo de código para atualizar os campos TOC usando o modelo de objeto de documento Aspose.Words (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Cabeçalhos Das Tabelas

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

As tabelas em PDF/UA-1 documentos devem ter cabeçalhos-coluna, linha ou ambos. PDF/A requer apenas marcação de tabela padrão, que não tem restrições adicionais. Observe que Aspose.Words gera a marcação de tabela padrão automaticamente.

Texto De Substituição

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word o documento não permite que os utilizadores definam textos de substituição. Portanto, isso precisa ser verificado e corrigido na saída PDF:

AcrobatReplacementText

Abreviaturas e acrónimos Expansões

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word documento não permite aos utilizadores definir abreviaturas e acrónimos expansões. Portanto, isso precisa ser verificado e corrigido na saída PDF:

AcrobatSplitAddExpansionText

Título Do Documento

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
O documento em PDF/UA-1 deve ter um título.

Requisitos Da Fonte

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Há também uma série de nuances de trabalhar com fontes ao converter para PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 formatos usando Aspose.Words. Eles devem ser levados em consideração se você quiser evitar possíveis problemas com o documento de saída.

As secções seguintes descrevem tais nuances e opções para a sua solução.

Requisitos Legais Da Fonte

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words não verifica as restrições legais das fontes utilizadas – cabe aos utilizadores. Em outras palavras, um usuário não deve fornecer fontes inadequadas para a conversão de PDF Usando Aspose.Words.

.notdef Glyph

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

É proibida a utilização do glifo .notdef. O glifo .notdef aparecerá se um documento contiver caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo de Fallback da fonte.

Área De Utilização Privada (PUA)

PDF níveis de Conformidade normalizados dentro de Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Os caracteres da área de uso privado (PUA) aparecem principalmente para Fontes simbólicas Windows como “Symbol”, “Wingdings”, “Webdings” e outros. Microsoft Word os formatos não fornecem uma opção para armazenar texto real para caracteres.

“Segoe UI Symbol” é uma fonte Unicode Windows que pode ser usada como alternativa às fontes simbólicas.