Lavorare con PDF/A o PDF/UA

Il formato PDF/A e PDF/UA impone diversi requisiti relativi al contenuto del documento che non può essere soddisfatto durante la conversione automatica da un documento in formato Word a PDF. Tali requisiti devono essere verificati e corretti sia in un documento di Word prima della conversione o in un documento PDF dopo la conversione al fine di produrre un documento conforme a PDF/A e PDF/UA.

I requisiti di base sono per la struttura o i caratteri di un documento PDF/A e PDF/UA, che prenderemo in considerazione nelle seguenti sezioni.

Struttura dei documenti

I requisiti attuali sono per i formati PDF/A-1a, PDF/A-2a, PDF/A-4 e PDF/UA-1.

Ci sono alcune sfumature di come Aspose.Words funziona quando si converte in vari standard di formato PDF. Devono essere presi in considerazione se si desidera ottenere il risultato previsto.

Le sottosezioni qui sotto descrivono sfumature di come Aspose.Words funziona quando si converte in vari standard di formato PDF e opzioni per la loro soluzione.

Tipo di struttura

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un documento PDF è una sequenza di blocchi come voci, paragrafi, tabelle e altri. Questi blocchi formano una struttura documentale – forte o debole.

Le strutture forti e deboli sono valide per PDF/A. Microsoft Word documenti hanno una struttura debole per design, e Aspose.Words crea PDF con la struttura debole rispettivamente e genera anche voci in base ai livelli di profilo dei paragrafi nel documento sorgente.

Per un documento PDF/UA-1 con una struttura debole, è inoltre necessario che i numeri di intestazione vadano in ordine senza lacune.

Per garantire un output corretto, gli utenti devono assicurarsi che il contenuto del documento di origine sia adeguatamente organizzato e che i livelli dei contorni siano correttamente specificati per i paragrafi. In caso contrario, l’utente deve verificare e correggere la struttura del documento PDF di output.

Contrassegnare il contenuto come artefatto

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Al momento, Aspose.Words marca intestazioni e piè di pagina, separatori di nota, celle ripetute dell’intestazione del tavolo e immagini decorative come artefatti. Si noti che questo elenco può essere aggiornato in futuro.

Se un documento contiene qualsiasi altro contenuto che dovrebbe essere contrassegnato come un artefatto, o se uno qualsiasi dei contenuti realizzati è un contenuto reale, i clienti dovrebbero risolvere che nel PDF di output.

Specificazione della lingua naturale

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

La lingua di testo è specificata in Microsoft Word documenti. Aspose.Words esporta la lingua specificata in un formato PDF con Lang attributo allegato a una sequenza di contenuto marcato o un tag Span – è controllato da ExportLanguageToSpanTag proprieta'. Generalmente non ci sono problemi di lingua quando il testo viene inserito dall’utente tramite Microsoft Word. Ma c’è la possibilità che la lingua possa essere inesatta se il testo viene generato automaticamente.

Didascalia

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word i documenti consentono agli utenti di aggiungere la captazione figura.

Attualmente Aspose.Words non è possibile esportare le didascalie con il tag Caption, quindi devono essere contrassegnati nel PDF di output.

Descrizioni alterne

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documenti consentono agli utenti di aggiungere testo alternativo a immagini, forme e tabelle. Aspose.Words esporta un testo così alternativo alla produzione PDF.

Descrizioni alternative per collegamenti ipertestuali

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Oltre al punto precedente, Microsoft Word documenti permettono anche agli utenti di aggiungere testo alternativo ai collegamenti ipertestuali. Aspose.Words esporta un testo così alternativo alla produzione PDF.

Purtroppo, non ogni applicazione consente di impostare una descrizione alternativa. Per esempio, Adobe Acrobat Attualmente non consente di impostare una tale descrizione per i collegamenti ipertestuali. Ma… Microsoft Word, potete farlo come segue:

alternate-descriptions-hyperlinks-mw

A volte c’è un problema che non è possibile impostare il testo alt per i collegamenti ipertestuali autogenerati nella tabella dei contenuti (TOC) attraverso il Microsoft Word GUI. Aspose.Words potrebbe aggiornare tali campi e generare i collegamenti da soli.

Seguire l’esempio del codice per aggiornare TOC campi utilizzando Aspose.Words Document Object Model (DOM?

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Intestazioni da tavolo

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Le tabelle dei documenti PDF/UA-1 devono avere intestazioni – colonna, riga o entrambi. PDF/A richiede solo il markup della tabella standard, che non ha restrizioni aggiuntive. Nota: Aspose.Words genera automaticamente il markup della tabella standard.

Testo di sostituzione

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word documento non consente agli utenti di impostare il testo di sostituzione. Quindi questo deve essere verificato e fissato in uscita PDF:

AcrobatReplacementText

Abbreviazioni e Acronimi Espansioni

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word documento non consente agli utenti di impostare abbreviazioni e espansioni acronimi. Quindi questo deve essere verificato e fissato in uscita PDF:

AcrobatSplitAddExpansionText

Titolo del documento

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Il documento in PDF/UA-1 dovrebbe avere un titolo

Requisiti di carattere

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Ci sono anche una serie di sfumature di lavoro con i caratteri durante la conversione in formato PDF/A-1, PDF/A-2, PDF/A-4 o PDF/UA-1 Aspose.Words. Essi devono essere presi in considerazione se si desidera evitare possibili problemi con il documento di output.

Le sezioni qui sotto descrivono tali sfumature e opzioni per la loro soluzione.

Font Requisiti legali

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words non verifica le restrizioni legali dei font usati – spetta agli utenti. In altre parole, un utente non dovrebbe fornire caratteri inappropriati per la conversione PDF utilizzando Aspose.Words.

.notdef Glyph

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

L’uso del .notdef glyph è vietato. The .notdef glyph apparirà se un documento contiene caratteri che non sono presenti nel carattere selezionato e che non possono essere risolti tramite il meccanismo Font Fallback.

Area di uso privato (PUA)

livelli di conformità standard PDF all’interno Aspose.Words Presenza del requisito
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Personaggi Private Use Area (PUA) appaiono per lo più per Windows caratteri simbolici come “Symbol”, “Wingdings”, “Webdings”, e altri. Microsoft Word i formati non forniscono un’opzione per memorizzare il testo effettivo per i caratteri.

“Segoe UI Symbol” è un Windows font Unicode che potrebbe essere utilizzato come alternativa ai caratteri simbolici.