Lucrul cu PDF/A sau PDF/UA

Formatul PDF/A și PDF/UA impune mai multe cerințe legate de conținutul documentului care nu pot fi îndeplinite în timpul conversiei automate dintr-un document în format Word în PDF. Aceste cerințe trebuie verificate și corectate fie într-un document Word înainte de conversie, fie într-un document PDF după conversie, pentru a produce un document complet compatibil PDF/A și PDF/UA.

Cerințele de bază sunt pentru structura sau fonturile unui document PDF/A și PDF/UA, pe care le vom lua în considerare în secțiunile următoare.

Cerințe Privind Structura Documentelor

Cerințele actuale sunt pentru PDF/A-1a, PDF/A-2a, PDF/A-4, și PDF/UA-1 formate.

Există câteva nuanțe ale modului în care funcționează Aspose.Words atunci când se convertesc la diferite standarde de format PDF. Acestea trebuie luate în considerare dacă doriți să obțineți rezultatul scontat.

Subsecțiunile de mai jos descriu nuanțele modului în care funcționează Aspose.Words atunci când se convertesc la diferite standarde de format PDF și opțiuni pentru soluția lor.

Tipul Structurii

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Un document PDF este o secvență de blocuri, cum ar fi titluri, paragrafe, tabele și altele. Aceste blocuri formează o structură de document-puternic sau slab.

Atât structurile puternice, cât și cele slabe sunt valabile pentru PDF/A. Microsoft Word documentele au o structură slabă prin proiectare, iar Aspose.Words creează PDF cu structura slabă, respectiv, și generează, de asemenea, titluri în funcție de nivelurile de schiță ale paragrafelor din documentul sursă.

Pentru un document PDF/UA-1 cu o structură slabă, este necesar în plus ca numerele de titlu să meargă în ordine fără goluri.

Pentru a asigura ieșirea corectă, utilizatorii trebuie să se asigure că conținutul documentului sursă este organizat corespunzător și că nivelurile de schiță sunt specificate corect pentru paragrafe. În caz contrar, utilizatorul ar trebui să verifice și să stabilească structura documentului de ieșire PDF.

Marcarea conținutului ca artefact

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

În acest moment, Aspose.Words marchează anteturile și subsolurile paginilor, separatoarele de note, celulele antetului tabelului repetate și imaginile decorative ca artefacte. Rețineți că această listă poate fi actualizată în viitor.

Dacă un document conține orice alt conținut care ar trebui marcat ca un artefact sau dacă oricare dintre conținutul artifacted este un conținut real, clienții ar trebui să remedieze acest lucru în rezultatul PDF.

Specificația Limbajului Natural

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Limba textului este specificată în documentele Microsoft Word. Aspose.Words exportă limba specificată la o ieșire PDF cu atributul Lang atașat la o secvență de conținut marcat sau la o etichetă Span-este controlată de proprietatea ExportLanguageToSpanTag. În general, nu există probleme de limbă atunci când textul este introdus de utilizator prin Microsoft Word. Dar există posibilitatea ca limba să fie inexactă dacă textul este generat automat.

Legenda Figurii

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word documentele permit utilizatorilor să adauge legenda figurii.

În prezent, Aspose.Words nu poate exporta subtitrări cu eticheta de subtitrare, deci trebuie să fie marcate în rezultatul PDF.

Descrieri Alternative

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documentele permit utilizatorilor să adauge text alternativ la imagini, forme și tabele. Aspose.Words exportă un astfel de text alternativ la ieșire PDF.

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

În plus față de punctul anterior, documentele Microsoft Word permit, de asemenea, utilizatorilor să adauge text alternativ la hyperlink-uri. Aspose.Words exportă un astfel de text alternativ la ieșire PDF.

Din păcate, nu orice aplicație vă permite să configurați o descriere alternativă. De exemplu, Adobe Acrobat în prezent nu permite configurarea unei astfel de descrieri pentru hyperlink-uri. Dar în Microsoft Word, puteți face acest lucru după cum urmează:

alternate-descriptions-hyperlinks-mw

Uneori există o problemă că nu este posibil să setați text alternativ pentru hyperlink-uri autogenerate în cuprins (TOC) Prin Microsoft Word GUI. Aspose.Words ar putea actualiza astfel de câmpuri și de a genera link-uri pe cont propriu.

Urmați exemplul de cod pentru a actualiza câmpurile TOC utilizând modelul de obiect Document Aspose.Words (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Anteturile Tabelului

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabelele din documentele PDF/UA-1 trebuie să aibă anteturi-coloană, rând sau ambele. PDF/A necesită doar marcarea tabelului standard, care nu are restricții suplimentare. Rețineți că Aspose.Words generează automat marcajul standard al tabelului.

Text De Înlocuire

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word documentul nu permite utilizatorilor să seteze text de înlocuire. Deci, acest lucru trebuie verificat și fixat în ieșirea PDF:

AcrobatReplacementText

Abrevieri și acronime expansiuni

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word documentul nu permite utilizatorilor să stabilească abrevieri și acronime expansiuni. Deci, acest lucru trebuie verificat și fixat în ieșirea PDF:

AcrobatSplitAddExpansionText

Titlul Documentului

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Documentul din PDF/UA-1 ar trebui să aibă un titlu.

Cerințe De Font

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Există, de asemenea, o serie de nuanțe de lucru cu fonturi la conversia în PDF/A-1, PDF/A-2, PDF/A-4 sau PDF/UA-1 formate folosind Aspose.Words. Acestea trebuie luate în considerare dacă doriți să evitați posibilele probleme cu documentul de ieșire.

Secțiunile de mai jos descriu astfel de nuanțe și opțiuni pentru soluția lor.

Cerințe Legale Privind Fontul

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words nu verifică restricțiile legale ale fonturilor utilizate-depinde de utilizatori. Cu alte cuvinte, un utilizator nu ar trebui să furnizeze fonturi nepotrivite pentru Conversia PDF Folosind Aspose.Words.

.notdef Glyph

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Utilizarea glifului .notdef este interzisă. Simbolul .notdef va apărea dacă un document conține caractere care nu sunt prezente în fontul selectat și care, de asemenea, nu pot fi rezolvate prin mecanismul de rezervă a fontului.

Zona De Utilizare Privată (PUA)

PDF niveluri standard de conformitate în cadrul Aspose.Words Prezența cerinței
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Caracterele din zona de utilizare privată (PUA) apar în principal pentru Windows fonturi simbolice precum “Symbol”, “Wingdings”, “Webdings” și altele. Microsoft Word formatele nu oferă o opțiune de stocare a textului real pentru caractere.

“Segoe UI Symbol” este un font Unicode Windows care ar putea fi folosit ca alternativă la fonturile simbolice.