Lavorare con PDF/A o PDF/UA

Il formato PDF/A e PDF/UA impone diversi requisiti relativi al contenuto del documento che non possono essere soddisfatti durante la conversione automatica da un documento in formato Word a PDF. Questi requisiti devono essere verificati e corretti in un documento Word prima della conversione o in un documento PDF dopo la conversione al fine di produrre un documento pienamente conforme a PDF/A e PDF/UA.

I requisiti di base sono per la struttura o i caratteri di un documento PDF/A e PDF/UA, che considereremo nelle sezioni seguenti.

Requisiti di struttura del documento

I requisiti attuali sono per PDF/A-1a, PDF/A-2a, PDF/A-4, formati PDF/UA-1.

Ci sono alcune sfumature di come funziona Aspose.Words quando si converte in vari standard di formato PDF. Devono essere presi in considerazione se si desidera ottenere il risultato atteso.

Le sottosezioni seguenti descrivono le sfumature di come funziona Aspose.Words durante la conversione in vari standard di formato PDF e opzioni per la loro soluzione.

Tipo di struttura

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF è una sequenza di blocchi come intestazioni, paragrafi, tabelle e altri. Questi blocchi formano una struttura del documento-fortemente o debole.

Sia le strutture forti che quelle deboli sono valide per PDF/A. Microsoft Word i documenti hanno una struttura debole in base alla progettazione e Aspose.Words crea PDF con la struttura debole rispettivamente e genera anche intestazioni in base ai livelli di struttura dei paragrafi nel documento di origine.

Per un documento PDF/UA-1 con una struttura debole, è inoltre necessario che i numeri di intestazione vadano in ordine senza spazi vuoti.

Per garantire un output corretto, gli utenti devono assicurarsi che il contenuto del documento di origine sia organizzato correttamente e che i livelli di struttura siano specificati correttamente per i paragrafi. In caso contrario, l’utente deve verificare e correggere la struttura del documento di output PDF.

Contrassegnare il contenuto come un artefatto

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Al momento, Aspose.Words contrassegna intestazioni e piè di pagina, separatori di note, celle di intestazione di tabella ripetute e immagini decorative come artefatti. Si noti che questo elenco potrebbe essere aggiornato in futuro.

Se un documento contiene qualsiasi altro contenuto che dovrebbe essere contrassegnato come artefatto o se uno qualsiasi dei contenuti artificiali è un contenuto reale, i clienti dovrebbero correggerlo nell’output PDF.

Specifica del linguaggio naturale

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

La lingua del testo è specificata nei documenti Microsoft Word. Aspose.Words esporta la lingua specificata in un output PDF con l’attributo Lang collegato a una sequenza di contenuto contrassegnato o a un tag Span-è controllato dalla proprietà ExportLanguageToSpanTag. Generalmente non ci sono problemi di lingua quando il testo viene inserito dall’utente tramite Microsoft Word. Ma c’è la possibilità che la lingua possa essere imprecisa se il testo viene generato automaticamente.

Didascalia figura

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word i documenti consentono agli utenti di aggiungere didascalie.

Attualmente Aspose.Words non può esportare le didascalie con il tag Didascalia, quindi devono essere contrassegnate nell’output PDF.

Descrizioni alternative

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word i documenti consentono agli utenti di aggiungere testo alternativo a immagini, forme e tabelle. Aspose.Words esporta tale testo alternativo nell’output PDF.

Descrizioni alternative per i collegamenti ipertestuali

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Oltre al punto precedente, i documenti Microsoft Word consentono anche agli utenti di aggiungere testo alternativo ai collegamenti ipertestuali. Aspose.Words esporta tale testo alternativo nell’output PDF.

Sfortunatamente, non tutte le applicazioni consentono di impostare una descrizione alternativa. Ad esempio, Adobe Acrobat attualmente non consente di impostare tale descrizione per i collegamenti ipertestuali. Ma in Microsoft Word, puoi farlo come segue:

alternate-descriptions-hyperlinks-mw

A volte c’è un problema che non è possibile impostare il testo alternativo per i collegamenti ipertestuali generati automaticamente nell’indice (TOC) attraverso Microsoft Word GUI. Aspose.Words potrebbe aggiornare tali campi e generare i collegamenti da solo.

Seguire l’esempio di codice per aggiornare i campi TOC utilizzando il modello a oggetti del documento Aspose.Words (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Intestazioni tabella

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Le tabelle nei documenti PDF/UA-1 devono avere intestazioni: colonna, riga o entrambe. PDF/A richiede solo markup di tabella standard, che non ha restrizioni aggiuntive. Si noti che Aspose.Words genera automaticamente il markup della tabella standard.

Testo sostitutivo

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Il documento Microsoft Word non consente agli utenti di impostare il testo sostitutivo. Quindi questo deve essere verificato e risolto nell’output PDF:

AcrobatReplacementText

Abbreviazioni e acronimi Espansioni

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Il documento Microsoft Word non consente agli utenti di impostare estensioni di abbreviazioni e acronimi. Quindi questo deve essere verificato e risolto nell’output PDF:

AcrobatSplitAddExpansionText

Titolo del documento

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Il documento in PDF/UA-1 dovrebbe avere un titolo.

Requisiti del carattere

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Ci sono anche una serie di sfumature di lavorare con i font durante la conversione in PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 formati utilizzando Aspose.Words. Devono essere presi in considerazione se si desidera evitare possibili problemi con il documento di output.

Le sezioni seguenti descrivono tali sfumature e opzioni per la loro soluzione.

Carattere Requisiti legali

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words non verifica le restrizioni legali dei font utilizzati – spetta agli utenti. In altre parole, un utente non dovrebbe fornire font inappropriati per la conversione di PDF utilizzando Aspose.Words.

.notdef Glyph

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

L’uso del glifo .notdef è vietato. Il glifo .notdef apparirà se un documento contiene caratteri che non sono presenti nel font selezionato e che non possono essere risolti tramite il meccanismo di Fallback del font.

Area ad uso privato (PUA)

PDF livelli di conformità standard entro Aspose.Words Presenza di requisiti
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

I caratteri dell’area di uso privato (PUA) appaiono principalmente per i caratteri simbolici Windows come “Symbol”, “Wingdings”, “Webdings” e altri. I formati Microsoft Word non forniscono un’opzione per memorizzare il testo effettivo per i caratteri.

“Segoe UI Symbol” è un carattere Unicode Windows che potrebbe essere usato come alternativa ai font simbolici.