Lavorare con PDF/A o PDF/UA
Il formato PDF/A e PDF/UA impone diversi requisiti relativi al contenuto del documento che non possono essere soddisfatti durante la conversione automatica da un documento in formato Word a PDF. Questi requisiti devono essere verificati e corretti in un documento Word prima della conversione o in un documento PDF dopo la conversione per produrre un documento completamente conforme a PDF/A e PDF/UA.
I requisiti di base riguardano la struttura o i caratteri di un documento PDF/A e PDF/UA, che prenderemo in considerazione nelle sezioni seguenti.
Requisiti della struttura del documento
I requisiti attuali riguardano i formati PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.
Esistono alcune sfumature nel funzionamento di Aspose.Words durante la conversione in vari standard di formato PDF. Devono essere presi in considerazione se si desidera ottenere il risultato atteso.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
È sconsigliabile per gli autori generare informazioni strutturali o semantiche utilizzando processi automatizzati senza un'adeguata verifica.
ISO 19005-2, 6.7.1
Le sottosezioni seguenti descrivono le sfumature del funzionamento di Aspose.Words durante la conversione in vari standard di formato PDF e le opzioni per la loro soluzione.
Tipo di struttura
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Un documento PDF è una sequenza di blocchi come intestazioni, paragrafi, tabelle e altri. Questi blocchi formano una struttura del documento – forte o debole.
Sia le strutture forti che quelle deboli sono valide per PDF/A. I documenti Microsoft Word hanno una struttura debole in base alla progettazione e Aspose.Words crea rispettivamente PDF con la struttura debole e genera anche intestazioni in base ai livelli di struttura dei paragrafi nel documento di origine.
Per un documento PDF/UA-1 con una struttura debole, è inoltre necessario che i numeri delle intestazioni siano in ordine senza spazi vuoti.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
La struttura a livello di blocco può seguire uno dei due paradigmi principali:
ISO-32000-1, 14.8.4.3.5
Per i documenti PDF/UA-1, la specifica contiene un'aggiunta relativa ai livelli di intestazione (espandi per vedere i dettagli):
Se la semantica del documento richiede una sequenza discendente di intestazioni, tale sequenza dovrà procedere in rigoroso ordine numerico e non dovrà saltare un livello di intestazione intermedio. H1 H2 H3 è consentito, mentre H1 H3 no.
ISO-14289-1, 7.4.2
Per garantire un output corretto, gli utenti devono assicurarsi che il contenuto del documento di origine sia organizzato correttamente e che i livelli di struttura siano specificati correttamente per i paragrafi. Altrimenti, l’utente dovrà verificare e correggere la struttura del documento PDF di output.
In questo blocco puoi vedere degli esempi: come impostare i livelli di struttura in Microsoft Word o controllare e correggere la struttura del documento PDF di output (espandi per vedere i dettagli).
Negli stili predefiniti Microsoft Word "Intestazione X" è possibile utilizzare per impostare il livello di struttura:
Inoltre, il livello della struttura può essere controllato o modificato nella finestra "Paragrafo":
In Acrobat la struttura del documento può essere controllata o modificata nel riquadro "Tag":
Contrassegnare il contenuto come artefatto
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Al momento, Aspose.Words contrassegna intestazioni e piè di pagina, separatori di note, celle di intestazione di tabella ripetute e immagini decorative come artefatti. Tieni presente che questo elenco potrebbe essere aggiornato in futuro.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Gli oggetti grafici in un documento possono essere divisi in due classi:
ISO-32000-1, 14.8.2.2.1
Se un documento contiene qualsiasi altro contenuto che deve essere contrassegnato come artefatto o se uno qualsiasi dei contenuti artefatti è un contenuto reale, i clienti devono correggere questo problema nel PDF di output.
In questo blocco puoi vedere degli esempi: come contrassegnare le forme come decorative in Microsoft Word o contrassegnare la forma come artefatto nel documento PDF di output (espandi per vedere i dettagli).
Ad esempio, le forme potrebbero essere contrassegnate come decorative in Microsoft Word, quindi verranno esportate in PDF come artefatto:
Puoi contrassegnare la forma come artefatto nel PDF di output:
Inoltre, puoi cambiare il testo in un'intestazione dall'artefatto al contenuto reale nel PDF di output:
Specifica del linguaggio naturale
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
La lingua del testo è specificata nei documenti Microsoft Word. Aspose.Words esporta la lingua specificata in un PDF di output con l’attributo Lang allegato a una sequenza di contenuto contrassegnato o a un tag Span: è controllato dalla proprietà export_language_to_span_tag. Generalmente non ci sono problemi di lingua quando il testo viene inserito dall’utente tramite Microsoft Word. Ma esiste la possibilità che la lingua possa essere imprecisa se il testo viene generato automaticamente.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
La lingua naturale predefinita per tutto il testo in un file deve essere specificata dalla voce Lang nel dizionario del catalogo del documento.
Tutto il contenuto testuale all'interno di un file che differisce dalla lingua predefinita dovrebbe essere indicato mediante l'uso di una proprietà `Lang` allegata a una sequenza di contenuto contrassegnato o da una voce Lang in un dizionario di elementi di struttura...
ISO-19005-2, 6.7.4
Inoltre, per PDF/UA-1, le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Il linguaggio naturale deve essere dichiarato… I cambiamenti nel linguaggio naturale devono essere dichiarati.
ISO-14289-1, 7.2
In questo blocco puoi vedere degli esempi: come garantire che la lingua sia specificata correttamente (espandi per vedere i dettagli).
Gli utenti devono assicurarsi che la lingua sia specificata correttamente nel documento Word di origine:
Oppure il documento PDF di output:
Descrizioni alternative
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
I documenti Microsoft Word consentono agli utenti di aggiungere testo alternativo a immagini, forme e tabelle. Aspose.Words esporta tale testo alternativo nel PDF di output.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Tutti gli elementi della struttura il cui contenuto non ha un analogo testuale naturale predeterminato, ad esempio immagini, formule, ecc., dovrebbero fornire una descrizione testuale alternativa utilizzando la voce Alt nel dizionario degli elementi della struttura...
NOTA Le descrizioni alternative forniscono descrizioni testuali che aiutano nella corretta interpretazione di contenuto non testuale altrimenti opaco.
ISO-19005-2, 6.7.5
In questo blocco puoi vedere degli esempi: come garantire che tutti gli elementi abbiano un testo alternativo (espandi per vedere i dettagli).
Gli utenti devono assicurarsi che tutti gli elementi abbiano un testo alternativo nel documento Word di origine:
Oppure il documento PDF di output:
Testo sostitutivo
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
La specifica ci dice quanto segue:
Tutti gli elementi della struttura testuale che sono rappresentati in modo non standard, ad esempio caratteri personalizzati o grafica incorporata, dovrebbero fornire testo sostitutivo utilizzando la voce `ActualText` nel dizionario degli elementi della struttura...
ISO-19005-2, 6.7.7
Il documento Microsoft Word non consente agli utenti di impostare il testo sostitutivo. Quindi questo deve essere verificato e corretto nel PDF di output:
Abbreviazioni ed espansioni di acronimi
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Tutte le istanze di abbreviazioni e acronimi nel contenuto testuale dovrebbero essere inserite in una sequenza di contenuto contrassegnato con un tag Span la cui proprietà E fornisce un'espansione testuale dell'abbreviazione o dell'acronimo...
ISO-19005-2, 6.7.8
Il documento Microsoft Word non consente agli utenti di impostare abbreviazioni ed espansioni di acronimi. Quindi questo deve essere verificato e corretto nel PDF di output:
Requisiti dei caratteri
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Ci sono anche una serie di sfumature nel lavorare con i caratteri durante la conversione nei formati PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 utilizzando Aspose.Words. È necessario tenerne conto se si desidera evitare possibili problemi con il documento di output.
Le sezioni seguenti descrivono tali sfumature e opzioni per la loro soluzione.
Requisiti legali sui caratteri
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words non verifica le restrizioni legali dei caratteri utilizzati: spetta agli utenti. In altre parole, un utente non dovrebbe fornire caratteri inappropriati per la conversione PDF utilizzando Aspose.Words.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Devono essere utilizzati solo programmi di caratteri legalmente incorporabili in un file per una resa universale e illimitata.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (esattamente le stesse virgolette in due specifiche)
.notdef Glyph
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
È vietato l’utilizzo del .notdef
glyph. Il .notdef
glyph apparirà se un documento contiene caratteri che non sono presenti nel carattere selezionato e che non possono essere risolti tramite il meccanismo Font Fallback.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Un documento conforme non deve contenere un riferimento al .notdef glyph da nessuno dei testi che mostrano gli operatori, indipendentemente dalla modalità di rendering del testo, in qualsiasi flusso di contenuto.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (esattamente le stesse virgolette in due specifiche)
In questo blocco puoi vedere degli esempi: come rimuovere o sostituire questi caratteri (espandi per vedere i dettagli).
Gli utenti devono rimuovere o sostituire questi caratteri nel documento Word di origine:
Oppure il documento PDF di output utilizzando lo strumento "Modifica PDF":
Area ad uso privato (PUA)
Livelli di conformità agli standard PDF all’interno di Aspose.Words | Presenza del requisito |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
I caratteri PUA (Private Use Area) vengono visualizzati principalmente per i caratteri simbolici Windows come “Symbol”, “Wingdings”, “Webdings” e altri. I formati Microsoft Word non forniscono un’opzione per memorizzare il testo effettivo per i caratteri.
Le specifiche ci dicono quanto segue (espandi per vedere i dettagli):
Solo per la conformità di livello A, per qualsiasi carattere... che è mappato su uno o più codici nell'Unicode Private Use Area (PUA), una voce ActualText... deve essere presente per questo carattere o una sequenza di caratteri di cui tale un personaggio è una parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” è un carattere Unicode Windows che può essere utilizzato come alternativa ai caratteri simbolici.
In questo blocco puoi vedere degli esempi: cosa dovrebbe fare l'utente per risolvere il problema con i caratteri simbolici (espandi per vedere i dettagli).
Sostituisci il carattere simbolico con uno Unicode nel documento Word di origine:
Oppure aggiungi una voce ActualText ai caratteri problematici nel documento PDF di output: