Lavorare con PDF/A o PDF/UA

Il formato PDF/A e PDF/UA impone diversi requisiti relativi al contenuto del documento che non possono essere soddisfatti durante la conversione automatica da un documento in formato Word a PDF. Questi requisiti devono essere verificati e corretti in un documento Word prima della conversione o in un documento PDF dopo la conversione per produrre un documento completamente conforme a PDF/A e PDF/UA.

I requisiti di base riguardano la struttura o i caratteri di un documento PDF/A e PDF/UA, che prenderemo in considerazione nelle sezioni seguenti.

Requisiti della struttura del documento

I requisiti attuali riguardano i formati PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.

Esistono alcune sfumature nel funzionamento di Aspose.Words durante la conversione in vari standard di formato PDF. Devono essere presi in considerazione se si desidera ottenere il risultato atteso.

Le sottosezioni seguenti descrivono le sfumature del funzionamento di Aspose.Words durante la conversione in vari standard di formato PDF e le opzioni per la loro soluzione.

Tipo di struttura

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF è una sequenza di blocchi come intestazioni, paragrafi, tabelle e altri. Questi blocchi formano una struttura del documento – forte o debole.

Sia le strutture forti che quelle deboli sono valide per PDF/A. I documenti Microsoft Word hanno una struttura debole in base alla progettazione e Aspose.Words crea rispettivamente PDF con la struttura debole e genera anche intestazioni in base ai livelli di struttura dei paragrafi nel documento di origine.

Per un documento PDF/UA-1 con una struttura debole, è inoltre necessario che i numeri delle intestazioni siano in ordine senza spazi vuoti.

Per garantire un output corretto, gli utenti devono assicurarsi che il contenuto del documento di origine sia organizzato correttamente e che i livelli di struttura siano specificati correttamente per i paragrafi. Altrimenti, l’utente dovrà verificare e correggere la struttura del documento PDF di output.

Contrassegnare il contenuto come artefatto

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Al momento, Aspose.Words contrassegna intestazioni e piè di pagina, separatori di note, celle di intestazione di tabella ripetute e immagini decorative come artefatti. Tieni presente che questo elenco potrebbe essere aggiornato in futuro.

Se un documento contiene qualsiasi altro contenuto che deve essere contrassegnato come artefatto o se uno qualsiasi dei contenuti artefatti è un contenuto reale, i clienti devono correggere questo problema nel PDF di output.

Specifica del linguaggio naturale

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

La lingua del testo è specificata nei documenti Microsoft Word. Aspose.Words esporta la lingua specificata in un PDF di output con l’attributo Lang allegato a una sequenza di contenuto contrassegnato o a un tag Span: è controllato dalla proprietà export_language_to_span_tag. Generalmente non ci sono problemi di lingua quando il testo viene inserito dall’utente tramite Microsoft Word. Ma esiste la possibilità che la lingua possa essere imprecisa se il testo viene generato automaticamente.

Descrizioni alternative

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

I documenti Microsoft Word consentono agli utenti di aggiungere testo alternativo a immagini, forme e tabelle. Aspose.Words esporta tale testo alternativo nel PDF di output.

Testo sostitutivo

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Il documento Microsoft Word non consente agli utenti di impostare il testo sostitutivo. Quindi questo deve essere verificato e corretto nel PDF di output:

AcrobatReplacementText

Abbreviazioni ed espansioni di acronimi

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Il documento Microsoft Word non consente agli utenti di impostare abbreviazioni ed espansioni di acronimi. Quindi questo deve essere verificato e corretto nel PDF di output:

AcrobatSplitAddExpansionText

Requisiti dei caratteri

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Ci sono anche una serie di sfumature nel lavorare con i caratteri durante la conversione nei formati PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 utilizzando Aspose.Words. È necessario tenerne conto se si desidera evitare possibili problemi con il documento di output.

Le sezioni seguenti descrivono tali sfumature e opzioni per la loro soluzione.

Requisiti legali sui caratteri

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words non verifica le restrizioni legali dei caratteri utilizzati: spetta agli utenti. In altre parole, un utente non dovrebbe fornire caratteri inappropriati per la conversione PDF utilizzando Aspose.Words.

.notdef Glyph

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

È vietato l’utilizzo del .notdef glyph. Il .notdef glyph apparirà se un documento contiene caratteri che non sono presenti nel carattere selezionato e che non possono essere risolti tramite il meccanismo Font Fallback.

Area ad uso privato (PUA)

Livelli di conformità agli standard PDF all’interno di Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

I caratteri PUA (Private Use Area) vengono visualizzati principalmente per i caratteri simbolici Windows come “Symbol”, “Wingdings”, “Webdings” e altri. I formati Microsoft Word non forniscono un’opzione per memorizzare il testo effettivo per i caratteri.

“Segoe UI Symbol” è un carattere Unicode Windows che può essere utilizzato come alternativa ai caratteri simbolici.