Trabalhando com PDF/A ou PDF/UA

Os formatos PDF/A e PDF/UA impõem vários requisitos relacionados ao conteúdo do documento que não podem ser atendidos durante a conversão automática de um documento no formato Word para PDF. Esses requisitos devem ser verificados e corrigidos em um documento Word antes da conversão ou em um documento PDF após a conversão, a fim de produzir um documento totalmente compatível com PDF/A e PDF/UA.

Os requisitos básicos são para a estrutura ou fontes de um documento PDF/A e PDF/UA, que consideraremos nas seções a seguir.

Requisitos de estrutura do documento

Os requisitos atuais são para os formatos PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.

Existem algumas nuances de como o Aspose.Words funciona ao converter para vários padrões de formato PDF. Eles devem ser levados em consideração se você deseja obter o resultado esperado.

As subseções abaixo descrevem as nuances de como o Aspose.Words funciona ao converter para vários padrões de formato PDF e opções para sua solução.

Tipo de estrutura

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Um documento PDF é uma sequência de blocos como títulos, parágrafos, tabelas e outros. Esses blocos formam uma estrutura de documento – forte ou fraca.

Ambas as estruturas fortes e fracas são válidas para PDF/A. Os documentos Microsoft Word têm uma estrutura fraca por design, e o Aspose.Words cria PDF com a estrutura fraca, respectivamente, e também gera títulos de acordo com os níveis de contorno dos parágrafos no documento de origem.

Para um documento PDF/UA-1 com uma estrutura fraca, é adicionalmente necessário que os números dos títulos estejam em ordem, sem lacunas.

Para garantir a saída correta, os usuários devem garantir que o conteúdo do documento de origem esteja devidamente organizado e que os níveis de estrutura de tópicos sejam especificados corretamente para os parágrafos. Caso contrário, o usuário deverá verificar e corrigir a estrutura do documento PDF de saída.

Marcando o conteúdo como um artefato

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

No momento, o Aspose.Words marca cabeçalhos e rodapés de páginas, separadores de notas, células repetidas de cabeçalhos de tabelas e imagens decorativas como artefatos. Observe que esta lista pode ser atualizada no futuro.

Se um documento contiver qualquer outro conteúdo que deva ser marcado como um artefato, ou se algum conteúdo artefato for um conteúdo real, os clientes deverão corrigir isso no PDF de saída.

Especificação de linguagem natural

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

O idioma do texto é especificado em documentos Microsoft Word. Aspose.Words exporta o idioma especificado para um PDF de saída com o atributo Lang anexado a uma sequência de conteúdo marcado ou a uma tag Span – é controlado pela propriedade ExportLanguageToSpanTag. Geralmente não há problemas de idioma quando o texto é inserido pelo usuário via Microsoft Word. Mas existe a possibilidade de a linguagem ser imprecisa se o texto for gerado automaticamente.

Legenda da Figura

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Documentos Microsoft Word permitem aos usuários adicionar legendas às figuras.

Atualmente o Aspose.Words não pode exportar legendas com a tag Caption, portanto elas devem ser sinalizadas no PDF de saída.

Descrições alternativas

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Documentos Microsoft Word permitem aos usuários adicionar texto alternativo a imagens, formas e tabelas. Aspose.Words exporta esse texto alternativo para o PDF de saída.

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Além do ponto anterior, os documentos Microsoft Word também permitem aos usuários adicionar texto alternativo aos hiperlinks. Aspose.Words exporta esse texto alternativo para o PDF de saída.

Infelizmente, nem todos os aplicativos permitem configurar uma descrição alternativa. Por exemplo, o Adobe Acrobat atualmente não permite configurar tal descrição para hiperlinks. Mas no Microsoft Word, você pode fazer isso da seguinte maneira:

alternativas alternativas-hiperlinks-mw

Às vezes, há um problema de não ser possível definir texto alternativo para hiperlinks gerados automaticamente no índice (TOC) por meio da GUI Microsoft Word. O Aspose.Words poderia atualizar esses campos e gerar os links por conta própria.

Siga o exemplo de código para atualizar campos TOC usando Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Cabeçalhos de tabela

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

As tabelas em documentos PDF/UA-1 devem ter cabeçalhos – coluna, linha ou ambos. PDF/A requer apenas marcação de tabela padrão, que não tem restrições adicionais. Observe que Aspose.Words gera a marcação de tabela padrão automaticamente.

Texto de substituição

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

O documento Microsoft Word não permite que os usuários definam texto de substituição. Portanto, isso precisa ser verificado e corrigido no PDF de saída:

AcrobatReplacementText

Expansões de abreviaturas e siglas

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

O documento Microsoft Word não permite que os usuários definam abreviações e expansões de siglas. Portanto, isso precisa ser verificado e corrigido no PDF de saída:

AcrobatSplitAddExpansionText

Título do documento

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Documento em PDF/UA-1 deverá ter título

Requisitos de fonte

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Há também uma série de nuances no trabalho com fontes ao converter para os formatos PDF/A-1, PDF/A-2, PDF/A-4 ou PDF/UA-1 usando Aspose.Words. Eles devem ser levados em consideração se você quiser evitar possíveis problemas com o documento de saída.

As seções abaixo descrevem essas nuances e opções para resolvê-las.

Requisitos legais de fonte

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words não verifica as restrições legais das fontes utilizadas – isso depende dos usuários. Em outras palavras, um usuário não deve fornecer fontes inadequadas para conversão de PDF usando Aspose.Words.

.notdef Glyph

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

O uso do .notdef glyph é proibido. O .notdef glyph aparecerá se um documento contiver caracteres que não estão presentes na fonte selecionada e que também não podem ser resolvidos através do mecanismo Font Fallback.

Área de Uso Privado (PUA)

Níveis de conformidade padrão de PDF em Aspose.Words Presença de exigência
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Os caracteres da área de uso privado (PUA) aparecem principalmente para fontes simbólicas Windows como “Symbol”, “Wingdings”, “Webdings” e outras. Os formatos Microsoft Word não oferecem uma opção para armazenar texto real para caracteres.

“Segoe UI Symbol” é uma fonte Windows Unicode que pode ser usada como alternativa às fontes simbólicas.