Lucrul cu PDF/A sau PDF/UA
Formatul PDF/A și PDF/UA impune mai multe cerințe legate de conținutul documentului care nu pot fi îndeplinite în timpul conversiei automate dintr-un document în format Word în PDF. Aceste cerințe trebuie verificate și corectate fie într-un document Word înainte de conversie, fie într-un document PDF după conversie, pentru a produce un document complet compatibil PDF/A și PDF/UA.
Cerințele de bază sunt pentru structura sau fonturile unui document PDF/A și PDF/UA, pe care le vom lua în considerare în secțiunile următoare.
Cerințe Privind Structura Documentelor
Cerințele actuale sunt pentru PDF/A-1a, PDF/A-2a, PDF/A-4, și PDF/UA-1 formate.
Există câteva nuanțe ale modului în care funcționează Aspose.Words atunci când se convertesc la diferite standarde de format PDF. Acestea trebuie luate în considerare dacă doriți să obțineți rezultatul scontat.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Nu este recomandabil ca scriitorii să genereze informații structurale sau semantice folosind procese automatizate fără o verificare adecvată.
ISO 19005-2, 6.7.1
Subsecțiunile de mai jos descriu nuanțele modului în care funcționează Aspose.Words atunci când se convertesc la diferite standarde de format PDF și opțiuni pentru soluția lor.
Tipul Structurii
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Un document PDF este o secvență de blocuri, cum ar fi titluri, paragrafe, tabele și altele. Aceste blocuri formează o structură de document-puternic sau slab.
Atât structurile puternice, cât și cele slabe sunt valabile pentru PDF/A. Microsoft Word documentele au o structură slabă prin proiectare, iar Aspose.Words creează PDF cu structura slabă, respectiv, și generează, de asemenea, titluri în funcție de nivelurile de schiță ale paragrafelor din documentul sursă.
Pentru un document PDF/UA-1 cu o structură slabă, este necesar în plus ca numerele de titlu să meargă în ordine fără goluri.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Structura la nivel de bloc poate urma una dintre cele două paradigme principale:
ISO-32000-1, 14.8.4.3.5
Pentru documentele PDF/UA-1, specificația conține o adăugare legată de nivelurile de titlu (extindeți pentru a vedea detalii):
Dacă semantica documentelor necesită o secvență descendentă de anteturi, o astfel de secvență trebuie să se desfășoare în ordine numerică strictă și nu trebuie să treacă peste un nivel de antet intermediar. H1 H2 H3 este permis, în timp ce H1 H3 nu este.
ISO-14289-1, 7.4.2
Pentru a asigura ieșirea corectă, utilizatorii trebuie să se asigure că conținutul documentului sursă este organizat corespunzător și că nivelurile de schiță sunt specificate corect pentru paragrafe. În caz contrar, utilizatorul ar trebui să verifice și să stabilească structura documentului de ieșire PDF.
În acest bloc, puteți vedea exemple: cum să setați nivelurile de contur în Microsoft Word sau să verificați și să remediați structura documentului de ieșire PDF (extindeți pentru a vedea detalii).
În Microsoft Word stilurile implicite "Heading X" ar putea fi folosite pentru a seta nivelul conturului:
În plus, nivelul conturului ar putea fi verificat sau modificat în fereastra " paragraf:
În Acrobat, structura documentului ar putea fi verificată sau modificată în panoul " etichete:
Marcarea conținutului ca artefact
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
În acest moment, Aspose.Words marchează anteturile și subsolurile paginilor, separatoarele de note, celulele antetului tabelului repetate și imaginile decorative ca artefacte. Rețineți că această listă poate fi actualizată în viitor.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Obiectele grafice dintr-un document pot fi împărțite în două clase:
ISO-32000-1, 14.8.2.2.1
Dacă un document conține orice alt conținut care ar trebui marcat ca un artefact sau dacă oricare dintre conținutul artifacted este un conținut real, clienții ar trebui să remedieze acest lucru în rezultatul PDF.
În acest bloc, puteți vedea exemple: cum să marcați formele ca decorative în Microsoft Word sau să marcați forma ca artefact în documentul de ieșire PDF (extindeți pentru a vedea detalii).
De exemplu, formele ar putea fi marcate ca decorative în Microsoft Word, astfel încât acestea vor fi exportate în PDF ca artefact:
Puteți marca forma ca un artefact în Ieșire PDF:
De asemenea, puteți comuta textul dintr-un antet de la artefact la conținut real în Ieșire PDF:
Specificația Limbajului Natural
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Limba textului este specificată în documentele Microsoft Word. Aspose.Words exportă limba specificată la o ieșire PDF cu atributul Lang atașat la o secvență de conținut marcat sau la o etichetă Span-este controlată de proprietatea export_language_to_span_tag. În general, nu există probleme de limbă atunci când textul este introdus de utilizator prin Microsoft Word. Dar există posibilitatea ca limba să fie inexactă dacă textul este generat automat.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Limbajul natural implicit pentru tot textul dintr-un fișier trebuie specificat prin intrarea Lang din Dicționarul de Catalog al documentului.
Tot conținutul textual dintr-un fișier care diferă de limba implicită trebuie indicat prin utilizarea unei proprietăți `Lang` atașate unei secvențe de conținut marcat sau printr-o intrare Lang într-un dicționar de elemente de structură ...
ISO-19005-2, 6.7.4
În plus, pentru PDF/UA-1, specificația ne spune următoarele (extindeți pentru a vedea detalii):
Limbajul Natural va fi declarat ... modificările limbajului natural vor fi declarate.
ISO-14289-1, 7.2
În acest bloc, puteți vedea exemple: cum să vă asigurați că limba este specificată corect (extindeți pentru a vedea detalii).
Utilizatorii trebuie să se asigure că limba este specificată corect în documentul Word sursă:
Sau documentul de ieșire PDF:
Descrieri Alternative
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documentele permit utilizatorilor să adauge text alternativ la imagini, forme și tabele. Aspose.Words exportă un astfel de text alternativ la ieșire PDF.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Toate elementele de structură al căror conținut nu are un analog textual predeterminat natural, de exemplu imagini, formule etc., ar trebui să furnizeze o descriere alternativă a textului utilizând intrarea Alt din dicționarul elementelor de structură...
NOTE descrierile alternative oferă descrieri textuale care ajută la interpretarea corectă a conținutului non-textual opac.
ISO-19005-2, 6.7.5
În acest bloc, puteți vedea exemple: cum să vă asigurați că toate elementele au un text alternativ (extindeți pentru a vedea detalii).
Utilizatorii ar trebui să se asigure că toate elementele au un text alternativ în documentul Word sursă:
Sau documentul de ieșire PDF:
Text De Înlocuire
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Specificația ne spune următoarele::
Toate elementele de structură textuală care sunt reprezentate într-un mod nestandard, de exemplu, caractere personalizate sau grafice în linie, ar trebui să furnizeze text de înlocuire utilizând intrarea `ActualText` din dicționarul elementelor de structură...
ISO-19005-2, 6.7.7
Microsoft Word documentul nu permite utilizatorilor să seteze text de înlocuire. Deci, acest lucru trebuie verificat și fixat în ieșirea PDF:
Abrevieri și acronime expansiuni
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Toate instanțele de abrevieri și acronime în conținut textual ar trebui plasate într-o secvență de conținut marcat cu o etichetă de interval a cărei proprietate E oferă o extindere textuală a abrevierii sau acronimului...
ISO-19005-2, 6.7.8
Microsoft Word documentul nu permite utilizatorilor să stabilească abrevieri și acronime expansiuni. Deci, acest lucru trebuie verificat și fixat în ieșirea PDF:
Cerințe De Font
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Există, de asemenea, o serie de nuanțe de lucru cu fonturi la conversia în PDF/A-1, PDF/A-2, PDF/A-4 sau PDF/UA-1 formate folosind Aspose.Words. Acestea trebuie luate în considerare dacă doriți să evitați posibilele probleme cu documentul de ieșire.
Secțiunile de mai jos descriu astfel de nuanțe și opțiuni pentru soluția lor.
Cerințe Legale Privind Fontul
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words nu verifică restricțiile legale ale fonturilor utilizate-depinde de utilizatori. Cu alte cuvinte, un utilizator nu ar trebui să furnizeze fonturi nepotrivite pentru Conversia PDF Folosind Aspose.Words.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Vor fi utilizate numai programele de fonturi care pot fi încorporate legal într-un fișier pentru redare nelimitată și universală.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (exact aceleași citate în două specificații)
.notdef Glyph
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Utilizarea glifului .notdef
este interzisă. Simbolul .notdef
va apărea dacă un document conține caractere care nu sunt prezente în fontul selectat și care, de asemenea, nu pot fi rezolvate prin mecanismul de rezervă a fontului.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Un document conform nu trebuie să conțină o trimitere la .notdef glyph de la oricare dintre operatorii care arată textul, indiferent de modul de redare a textului, în orice flux de conținut.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (exact aceleași citate în două specificații)
În acest bloc, puteți vedea exemple: cum să eliminați sau să înlocuiți aceste caractere (extindeți pentru a vedea detalii).
Utilizatorii ar trebui să elimine sau să înlocuiască aceste caractere în documentul Word sursă:
Sau documentul de ieșire PDF folosind instrumentul" Editare PDF":
Zona De Utilizare Privată (PUA)
PDF niveluri standard de conformitate în cadrul Aspose.Words | Prezența cerinței |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Caracterele din zona de utilizare privată (PUA) apar în principal pentru Windows fonturi simbolice precum “Symbol”, “Wingdings”, “Webdings” și altele. Microsoft Word formatele nu oferă o opțiune de stocare a textului real pentru caractere.
Specificația ne spune următoarele (extindeți pentru a vedea detalii):
Doar pentru conformitatea de nivel A, pentru orice personaj ... care este mapat la un cod sau coduri din zona de utilizare privată Unicode (PUA), o intrare ActualText... trebuie să fie prezent pentru acest caracter sau o succesiune de caractere din care un astfel de caracter face parte.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” este un font Unicode Windows care ar putea fi folosit ca alternativă la fonturile simbolice.
În acest bloc, puteți vedea exemple: ce ar trebui să facă utilizatorul pentru a rezolva problema cu fonturile simbolice (extindeți pentru a vedea detalii).
Înlocuiți fontul simbolic cu unul Unicode în documentul sursă Word:
Sau adăugați o intrare ActualText la caracterele problematice din documentul de ieșire PDF: