Werken met PDF/A of PDF/UA
PDF/A en PDF/UA-formaat legt verschillende eisen op met betrekking tot de inhoud van het document waaraan niet kan worden voldaan tijdens automatische conversie van een document in Word-formaat naar PDF. Deze eisen moeten worden geverifieerd en gecorrigeerd hetzij in een Word-document vóór conversie of in een PDF-document na conversie om een volledig PDF/A en PDF/UA-conform document te produceren.
Basisvereisten zijn voor de structuur of lettertypen van een PDF/A en PDF/UA document, die we in de volgende secties zullen overwegen.
Documentstructuurvereisten
De huidige eisen zijn voor PDF/A-1a, PDF/A-2a, PDF/A-4 en PDF/UA-1 formaten.
Er zijn enkele nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat normen. Ze moeten in aanmerking worden genomen om het verwachte resultaat te krijgen.
De specificatie vertelt ons het volgende (expand to see details):
Het is niet raadzaam voor schrijvers om structurele of semantische informatie te genereren met behulp van geautomatiseerde processen zonder passende verificatie.
ISO 19005-2, 6.7.1
De subsecties hieronder beschrijven nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat normen en opties voor hun oplossing.
Structuurtype
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Een PDF-document is een reeks blokken zoals rubrieken, paragrafen, tabellen en andere. Deze blokken vormen een documentstructuur die sterk of zwak is.
Zowel sterke als zwakke structuren zijn geldig voor PDF/A. Microsoft Word documenten een zwakke structuur door ontwerp hebben, en Aspose.Words maakt PDF met de zwakke structuur respectievelijk en genereert ook rubrieken volgens de omtrekniveaus van de paragrafen in het brondocument.
Voor een PDF/UA-1 document met een zwakke structuur is het bovendien vereist dat de kopnummers in orde gaan zonder gaten.
De specificatie vertelt ons het volgende (expand to see details):
De structuur op blokniveau kan één van de twee belangrijkste paradigma's volgen:
ISO-32000-1, 14,8.4.3.5
Voor PDF/UA-1 documenten bevat de specificatie een toevoeging met betrekking tot rubriekniveaus (breid uit om details te zien):
Indien voor de documentsemantiek een dalende volgorde van koppen vereist is, moet een dergelijke volgorde in strikte numerieke volgorde verlopen en mag een tussenliggende koersniveau niet worden overgeslagen. H1 H2 H3 is toegestaan, terwijl H1 H3 dat niet is.
ISO-14289-1, 7.4.2
Om een correcte output te garanderen, moeten de gebruikers ervoor zorgen dat de inhoud van het brondocument naar behoren wordt georganiseerd en worden de contourniveaus correct gespecificeerd voor de paragrafen. Anders moet de gebruiker de structuur van het uitvoer PDF-document verifiëren en repareren.
In dit blok kun je voorbeelden zien: hoe omtrekniveaus in te stellen Microsoft Word of controleer en fixeer de structuur van het uitvoer PDF-document (verruimen om details te zien).
In Microsoft Word standaard "Heading X"-stijlen kunnen gebruikt worden om het overzichtsniveau in te stellen:
Bovendien kan het schemaniveau worden gecontroleerd of gewijzigd in het venster "Paragraph":
In Acrobat kon de documentstructuur worden gecontroleerd of gewijzigd in het "Tags"-paneel:
De inhoud als artefact markeren
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Op dit moment, Aspose.Words markeert pagina headers en voetteksten, notitiescheiders, herhaalde tafel koptekst cellen, en decoratieve beelden als artefacten. Deze lijst kan in de toekomst worden bijgewerkt.
De specificatie vertelt ons het volgende (expand to see details):
De grafische objecten in een document kunnen in twee klassen worden onderverdeeld:
ISO-32000-1, 14.8.2.2.1
Als een document andere inhoud bevat die als artefact moet worden gemarkeerd, of als een van de artefacten een echte inhoud is, moeten klanten dat in de output PDF repareren.
In dit blok kun je voorbeelden zien: hoe je vormen markeert als decoratief in Microsoft Word of markeer vorm als een artefact in het uitvoer PDF document (verruimen om details te zien).
Bijvoorbeeld, vormen kunnen worden gemarkeerd als decoratieve in Microsoft Word, Ze worden dus geëxporteerd naar PDF als artefact:
U kunt vorm markeren als een artefact in de output PDF:
Ook kunt u tekst in een header schakelen van het artefact naar echte inhoud in de output PDF:
Natuurlijke taalspecificatie
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Teksttaal is gespecificeerd in Microsoft Word documenten. Aspose.Words exporteert de opgegeven taal naar een uitvoer PDF met de Lang attribuut verbonden aan een gemarkeerde-inhoud sequentie of een Span-tag ExportLanguageToSpanTag eigendom. Over het algemeen zijn er geen taalproblemen wanneer tekst wordt ingevoerd door de gebruiker via Microsoft Word. Maar er is een mogelijkheid dat de taal onjuist kan zijn als de tekst automatisch wordt gegenereerd.
De specificatie vertelt ons het volgende (expand to see details):
De standaard natuurlijke taal voor alle tekst in een bestand moet worden gespecificeerd door de Lang entry in het document
Alle tekstuele inhoud binnen een bestand dat verschilt van de standaardtaal moet worden aangegeven door het gebruik van een `Lang` eigenschap verbonden aan een gemarkeerde-inhoudssequentie, of door een Lang-ingang in een structuurelement woordenboek ...
ISO-19005-2, 6.7.4
Bovendien voor PDF/UA-1 vertelt de specificatie ons het volgende (breid uit om details te zien):
Natuurlijke taal wordt verklaard... Veranderingen in de natuurlijke taal worden aangegeven.
ISO-14289-1,2,2
In dit blok kun je voorbeelden zien: hoe ervoor te zorgen dat de taal correct wordt opgegeven (breid uit om details te zien).
Gebruikers moeten ervoor zorgen dat de taal correct wordt opgegeven in het bron Word-document:
Of het uitvoer PDF-document:
Figuurtitel
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documenten laten gebruikers toe om figuurtitel toe te voegen.
De specificatie vertelt ons het volgende (expand to see details):
Een bijschrift bij een figuur wordt voorzien van een bijschrift.
ISO-14289-1,3
Momenteel Aspose.Words kan bijschriften met de bijschrift-tag niet exporteren, dus ze moeten gemarkeerd worden in de uitvoer PDF.
In dit blok kun je voorbeelden zien: hoe je de bijschrift invoegt (vergroot om details te zien).
In Microsoft Word, de bijschrift kan worden ingevoegd via het contextmenu:
In Acrobat kan het bijschrift worden toegevoegd of gewijzigd via de `Object` Eigenschappen dialoogvenster:
Alternatieve beschrijvingen
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documenten laten gebruikers toe alternatieve tekst toe te voegen aan afbeeldingen, vormen en tabellen. Aspose.Words exporteert een dergelijke alternatieve tekst naar de output PDF.
De specificatie vertelt ons het volgende (expand to see details):
Alle structuurelementen waarvan de inhoud geen natuurlijk vooraf bepaald tekstueel analoog heeft, bijvoorbeeld afbeeldingen, formules, enz., dienen een alternatieve tekstbeschrijving te verstrekken met behulp van de Alt-item in het woordenboek van het structuurelement...
NOOT Alternatieve beschrijvingen bieden tekstuele beschrijvingen die helpen bij de juiste interpretatie van anders ondoorzichtige niet-tekstuele inhoud.
ISO-19005-2, 6.7.5
In dit blok zie je voorbeelden: hoe ervoor te zorgen dat alle elementen een alternatieve tekst hebben (breid uit om details te zien).
Gebruikers moeten ervoor zorgen dat alle elementen een alternatieve tekst hebben in het bron Word-document:
Of het uitvoer PDF-document:
Alternatieve beschrijvingen voor hyperlinks
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Naast het vorige punt, Microsoft Word documenten kunnen gebruikers ook alternatieve tekst toevoegen aan hyperlinks. Aspose.Words exporteert een dergelijke alternatieve tekst naar de output PDF.
Helaas, niet elke toepassing kunt u het opzetten van een alternatieve beschrijving. Bijvoorbeeld, Adobe Acrobat een dergelijke beschrijving voor hyperlinks momenteel niet mogelijk maakt. Maar in Microsoft Word, U kunt dit als volgt doen:
Soms is er een probleem dat het niet mogelijk is om alt tekst voor automatisch gegenereerde hyperlinks in de inhoudsopgave (TOC) via de Microsoft Word GUI. Aspose.Words dergelijke velden kunnen bijwerken en de links zelfstandig kunnen genereren.
Volg het voorbeeld van de code om bij te werken TOC
velden Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Tabelkoppen
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabellen in PDF/UA-1 documenten moeten headers bevatten met kolom, rij of beide. PDF/A vereist alleen standaardtabelmarkering, zonder extra beperkingen. Merk op dat Aspose.Words genereert automatisch de standaard tabelopmaak.
De specificatie vertelt ons het volgende (expand to see details):
Tabellen moeten headers bevatten... Tabellen kunnen kolomkoppen, rijkoppen of beide bevatten.
ISO-14289-1, 7,5
In dit blok kun je voorbeelden zien: hoe de tabelkop in te stellen (vergroot om details te zien).
De tabelkop kan worden ingesteld ofwel de bron Microsoft Word document:
Of de uitvoer PDF:
Vervangingstekst
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (expand to see details):
De specificatie vertelt ons het volgende:
Alle tekstuele structuurelementen die op een niet-standaard manier worden vertegenwoordigd, bijvoorbeeld aangepaste tekens of inline graphics, moeten vervangende tekst leveren met behulp van de `ActualText` ingang in het woordenboek structuurelement...
ISO-19005-2, 67,7
Microsoft Word document staat gebruikers niet toe om vervangende tekst in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:
Afkortingen en acroniemen Uitbreidingen
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (expand to see details):
Alle instanties van afkortingen en acroniemen in tekstuele inhoud moeten in een reeks gemarkeerde inhoud worden geplaatst met een Span-tag waarvan de eigenschap E een tekstuele uitbreiding van de afkorting of acroniem geeft...
ISO-19005-2, 67,8
Microsoft Word document laat gebruikers niet toe om afkortingen en acroniemen uitbreidingen in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:
Titel document
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Document in PDF/UA-1 moet een titel hebben |
De specificatie vertelt ons het volgende (expand to see details):
De specificatie vertelt ons het volgende:
De Metadata-stream in het document-catalogus woordenboek bevat een dc:title ingang, waarbij dc het aanbevolen voorvoegsel is voor het Dublin Core metadataschema...
ISO-14289-1, 7,1
In dit blok zie je voorbeelden: hoe de documenttitel in te stellen (vergroot om details te zien).
De titel van het document kan worden ingesteld als bron Microsoft Word document:
Of de uitvoer PDF:
Lettertypevereisten
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Er zijn ook een aantal nuances van het werken met lettertypen bij het omzetten naar PDF/A-1, PDF/A-2, PDF/A-4 of PDF/UA-1 formaten met behulp van Aspose.Words. Zij moeten in aanmerking worden genomen als u mogelijke problemen met het uitvoerdocument wilt voorkomen.
De onderstaande paragrafen beschrijven dergelijke nuances en opties voor hun oplossing.
Juridische vereisten voor lettertype
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words controleert niet de wettelijke beperkingen van de gebruikte lettertypen Met andere woorden, een gebruiker moet geen ongepaste lettertypen voor PDF conversie met behulp van Aspose.Words.
De specificatie vertelt ons het volgende (expand to see details):
Alleen lettertypeprogramma's die wettelijk ingesloten zijn in een bestand voor onbeperkte, universele rendering mogen worden gebruikt.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (precies dezelfde citaten in twee specificaties)
.notdef Glyph
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Het gebruik van de .notdef
glyph is verboden. De .notdef
glyph zal verschijnen als een document tekens bevat die niet aanwezig zijn in het geselecteerde lettertype en die ook niet kunnen worden opgelost via het Font Fallback-mechanisme.
De specificatie vertelt ons het volgende (expand to see details):
Een conform document mag geen verwijzing bevatten naar het glyph van een van de tekst tonen operators, ongeacht tekst rendering mode, in elke inhoud stroom.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (precies dezelfde citaten in twee specificaties)
In dit blok kun je voorbeelden zien: hoe deze tekens te verwijderen of te vervangen (verruimen om details te zien).
Gebruikers moeten deze tekens verwijderen of vervangen in het bron Word-document:
Of het uitvoer PDF document met behulp van de "PDF bewerken" tool:
Ruimte voor privégebruik (PUA)
PDF-standaard compliance levels binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Private Use Area (PUA) tekens verschijnen meestal voor Windows symbolische lettertypen als “Symbol,” “Wingdings,” “Webdings” en andere. Microsoft Word formaten bieden geen optie om actuele tekst op te slaan voor tekens.
De specificatie vertelt ons het volgende (expand to see details):
Voor niveau Alleen een conformheid, voor elk teken ... dat is toegewezen aan een code of codes in het Unicode Private Use Area (PUA), een ActualText ingang ... is aanwezig voor dit teken of een opeenvolging van tekens waarvan een dergelijk teken deel uitmaakt.
ISO-19005-2, 6.2.11.7,3
“Segoe UI Symbool” is een Windows Unicode lettertype dat gebruikt kan worden als alternatief voor symbolische lettertypen.
In dit blok kun je voorbeelden zien: wat de gebruiker moet doen om het probleem op te lossen met symbolische lettertypen (expand to see details).
Het symbolische lettertype vervangen door een Unicode in het bron Word-document:
Of voeg een ActualText-item toe aan de problematische tekens in het uitvoer PDF-document: