Lucrul cu PDF/A sau PDF/UA

Formatele PDF/A și PDF/UA impun mai multe cerințe legate de conținutul documentului care nu pot fi îndeplinite în timpul conversiei automate dintr-un document în format Word într-unul PDF. Aceste cerințe ar trebui verificate și corectate fie într-un document Word înainte de conversie, fie într-un document PDF după conversie, pentru a produce un document conform PDF/A și PDF/UA.

Cerințele de bază sunt pentru structura sau fonturile unui document PDF/A și PDF/UA, care vom considera în următoarele secțiuni.

Cerințe de structură a documentului

Cerințele actuale sunt pentru formatele PDF/A-1a, PDF/A-2a, PDF/A-4 și PDF/UA-1.

Există câteva nuanțe în modul de funcționare a Aspose.Words atunci când se convertește la diferite standarde de formatare PDF. Acestea trebuie luate în calcul dacă vrei să obții rezultatul așteptat.

Subsecțiunile de mai jos descriu nuanțele modului în care Aspose.Words funcționează atunci când se convertește la diferite standarde și opțiuni pentru formatul PDF.

Tip de structură

Niveluri de conformitate PDF standard în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un document PDF este o secvență de blocuri, cum ar fi titluri, paragrafe, tabele și altele. Aceste blocuri formează o structură de document – puternică sau slabă.

Ambele structuri puternice și slabe sunt valide pentru PDF/A. Microsoft Word documente au o structură slabă prin proiectare, iar Aspose.Words creează PDF cu structura slabă respectiv și generează, de asemenea, titluri în conformitate cu nivelurile de schiță ale paragrafelor din documentul sursă.

Pentru un document PDF/UA-1 cu o structură slabă, este necesar în plus ca numerele de antet să meargă în ordine fără pauze.

Pentru a asigura un rezultat corect, utilizatorii trebuie să se asigure că conținutul documentului sursă este organizat corespunzător și că nivelurile de listă sunt specificate corect pentru paragrafe. În caz contrar, utilizatorul trebuie să verifice și să repare structura documentului PDF rezultat.

“Marcarea conținutului ca artefact”

Niveluri de conformitate cu standardul PDF în cadrul Aspose.Words Prezența cerințelor
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

În acest moment, Aspose.Words marchează anteturi și subsoluri de pagină, separatoare de notă, celule de antet al tabelelor repetate și imagini decorative ca fiind artefacte. Notă că această listă ar putea fi actualizată în viitor.

Dacă un document conține orice alt conținut care ar trebui marcat ca artefact sau dacă vreunul din conținutul artefactat este un conținut real, clienții ar trebui să repare acest lucru în PDF-ul de ieșire.

Specificația Limbajului Natural

Nivelurile de conformitate PDF-uri în cadrul Aspose.Words Prezența cerințelor
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Limba text este specificată în Microsoft Word documente. Aspose.Words exportă limba specificată într-un fișier PDF de ieșire cu atributul Lang atașat la o secvență de conținut marcat sau la o etichetă Span – acesta este controlat de proprietatea ExportLanguageToSpanTag. În general nu sunt probleme legate de limbă atunci când textul este introdus de utilizator prin Microsoft Word. Dar există posibilitatea ca limbajul să fie inexact dacă textul este generat automat.

Figură caption

Niveluri de conformitate PDF standard în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word documente permite utilizatorilor să adauge legendă de figură

În prezent Aspose.Words nu poate exporta subtitrări cu eticheta Captioane, deci trebuie semnalate în PDF-ul de ieșire.

Descrieri alternative

Niveluri de conformitate PDF în cadrul Aspose.Words Prezența cerințelor
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documente permit utilizatorilor să adauge text alternativ la imagini, forme și tabele. " Aspose.Words exportă astfel de text alternativ în fișierul PDF rezultat.

Descrieri alternative pentru hyperlinkuri

Niveluri de conformitate PDF standard în interiorul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

În plus față de punctul anterior, Microsoft Word documente permit utilizatorilor să adauge text alternativ pentru linkuri. Aspose.Words exportă un astfel de text alternativ în fișierul PDF rezultat.

Din păcate, nu fiecare aplicație îți permite să introduci o descriere alternativă. De exemplu, Adobe Acrobat în prezent nu permite să se configureze o astfel de descriere pentru hyperlink-uri. Dar în Microsoft Word, poți face asta după cum urmează:

alternate-descriptions-hyperlinks-mw

Uneori există o problemă că nu este posibil să se stabilească text alternativ pentru hiperlinkuri automate în tabelul de conținut (TOC) prin intermediul Microsoft Word interfeței grafice. Aspose.Words ar putea actualiza aceste câmpuri și genera legăturile pe cont propriu.

Urmează exemplul de cod pentru a actualiza TOC câmpuri utilizând Aspose.Words Document Object Model (DOM):

Anteturi de masă

Nivelurile de conformitate cu standardele PDF în interiorul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabelurile din documentele PDF/UA-1 trebuie să aibă anteturi – coloană, rând sau ambele. PDF/A necesită doar marcarea tabelului standard, care nu are restricții suplimentare. Observați că Aspose.Words generează automat marcajul tabelului standard.

Text de înlocuire

Niveluri de conformitate PDF standard în Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Documentul Microsoft Word nu permite utilizatorilor să introducă text de înlocuire. Așadar, aceasta trebuie verificată și corectată în fișierul PDF de ieșire:

AcrobatReplacementText

Abrevieri și acronime Expanțiuni

Nivelurile de conformitate cu standardul PDF în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Documentul Microsoft Word nu permite utilizatorilor să stabilească expansiuni de abrevierile și acronime Deci, trebuie verificat și reparat în PDF-ul de ieșire:

AcrobatSplitAddExpansionText

Titlul documentului

Niveluri de conformitate cu PDF standard în Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Documentele în PDF/UA-1 ar trebui să aibă un titlu.

Cerințe de font

Nivelurile de conformitate cu standardele PDF în cadrul Aspose.Words Prezența cerințelor
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Există și o serie de nuanțe în lucrul cu fonturile la conversia în formatul PDF/A-1, PDF/A-2, PDF/A-4 sau PDF/UA-1 folosind Aspose.Words. Acestea trebuie luate în considerare dacă vrei să eviți posibile probleme cu documentul de ieșire.

Secțiunile de mai jos descriu astfel de nuanțe și opțiuni pentru rezolvarea lor.

Cerințe de tip font

Nivelurile de conformitate PDF în interiorul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words nu verifică restricțiile legale ale fonturilor utilizate – este responsabilitatea utilizatorilor. “În alte cuvinte, utilizatorul nu ar trebui să furnizeze fonturi nepotrivite pentru conversia PDF folosind Aspose.Words.”

.notdef Glyph

Niveluri de conformitate cu standardul PDF în cadrul Aspose.Words Prezența cerințelor
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Utilizarea .notdef glyph este interzisă. The .notdef glyph va apărea dacă un document conține caractere care nu sunt prezente în fontul selectat și nici nu pot fi rezolvate prin mecanismul de cădere a fontului.

Zona de utilizare privată (PUA)

Nivelurile de conformitate PDF în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Caracterele Private Use Area (PUA) apar în general pentru Windows fonturi simbolice precum “Symbol”, “Wingdings”, “Webdings” și altele. Microsoft Word formate nu oferă o opțiune de a stoca textul real pentru caractere.

“Segoe UI Simbol” este un Windows Font unicode care ar putea fi folosit ca alternativă la fonturi simbolice.