Werken met PDF/A of PDF/UA
De indeling PDF/A en PDF/UA legt verschillende vereisten op met betrekking tot de documentinhoud waaraan niet kan worden voldaan tijdens de automatische conversie van een document in de indeling Word naar PDF. Deze vereisten moeten worden gecontroleerd en gecorrigeerd in een Word document vóór conversie of in een PDF document na conversie om een volledig PDF/A en PDF/UA conform document te produceren.
De basisvereisten zijn voor de structuur of lettertypen van een PDF/A en PDF/UA document, die we in de volgende secties zullen bespreken.
Vereisten Voor Documentstructuur
De huidige eisen zijn:PDF/A-1a, PDF/A-2a, PDF/A-4, en PDF/UA-1 formaten.
Er zijn enkele nuances van hoe Aspose.Words werkt bij het converteren naar verschillende PDF - opmaakstandaarden. Er moet rekening mee worden gehouden als u het verwachte resultaat wilt krijgen.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Het is niet raadzaam voor schrijvers om structurele of semantische informatie te genereren met behulp van geautomatiseerde processen zonder passende verificatie.
ISO 19005-2, 6.7.1
De onderstaande subsecties beschrijven nuances van hoe Aspose.Words werkt bij het converteren naar verschillende PDF - formatstandaarden en opties voor hun oplossing.
Structuur Type
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Een PDF document is een reeks blokken zoals koppen, alinea ' s, tabellen en andere. Deze blokken vormen een documentstructuur-sterk of zwak.
Zowel sterke als zwakke structuren zijn geldig voor PDF/A. Microsoft Word documenten hebben een zwakke structuur door het ontwerp, en Aspose.Words maakt respectievelijk PDF met de zwakke structuur en genereert ook koppen volgens de overzichtsniveaus van alinea ' s in het brondocument.
Voor een PDF/UA-1 - document met een zwakke structuur is het bovendien vereist dat de kopnummers zonder gaten in volgorde staan.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
De structuur op blokniveau kan een van de twee hoofdparadigma ' s volgen:
ISO-32000-1, 14.8.4.3.5
Voor PDF/UA-1 - documenten bevat de specificatie een toevoeging met betrekking tot kopniveaus (uitvouwen om details te zien):
Indien de documentsemantiek een afnemende reeks koppen vereist, moet een dergelijke reeks in strikte numerieke volgorde worden uitgevoerd en mag een tussentijds kopniveau niet worden overgeslagen. H1 H2 H3 is toegestaan, terwijl H1 H3 dat niet is.
ISO-14289-1, 7.4.2
Om de juiste uitvoer te garanderen, moeten gebruikers ervoor zorgen dat de inhoud van het brondocument goed is georganiseerd en dat de overzichtsniveaus correct zijn gespecificeerd voor alinea ' s. Anders moet de gebruiker de structuur van het uitvoer PDF document verifiëren en repareren.
In dit blok kunt u voorbeelden zien: overzichtsniveaus instellen in Microsoft Word of de structuur van het Uitvoer PDF - document controleren en repareren (uitvouwen om details te zien).
In Microsoft Word kunnen standaard stijlen "kop X" worden gebruikt om het overzichtsniveau in te stellen:
Bovendien kan het overzichtsniveau worden gecontroleerd of gewijzigd in het venster" paragraaf":
In Acrobat kan de documentstructuur worden gecontroleerd of gewijzigd in het deelvenster" Tags":
De inhoud markeren als een artefact
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Op dit moment markeert Aspose.Words paginakoppen en voetteksten, notitiescheidingstekens, herhaalde tabelkopcellen en decoratieve afbeeldingen als artefacten. Deze lijst kan in de toekomst worden bijgewerkt.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
De grafische objecten in een document kunnen in twee klassen worden onderverdeeld:
ISO-32000-1, 14.8.2.2.1
Als een document andere inhoud bevat die moet worden gemarkeerd als een artefact, of als een van de artefacteerde inhoud een echte inhoud is, moeten klanten dat oplossen in de uitvoer PDF.
In dit blok kunt u voorbeelden zien: shapes markeren als decoratief in Microsoft Word of shape markeren als een artefact in het document uitvoer PDF (uitvouwen om details te zien).
Vormen kunnen bijvoorbeeld worden gemarkeerd als decoratief in Microsoft Word, zodat ze worden geëxporteerd naar PDF als een artefact:
U kunt shape markeren als een artefact in de uitvoer PDF:
U kunt ook tekst in een koptekst van het artefact overschakelen naar echte inhoud in de uitvoer PDF:
Natuurlijke Taalspecificatie
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Teksttaal is opgegeven in Microsoft Word documenten. Aspose.Words exporteert de opgegeven taal naar een uitvoer PDF met het Lang attribuut gekoppeld aan een gemarkeerde-content sequentie of een Span tag – het wordt bestuurd door de ExportLanguageToSpanTag eigenschap. Over het algemeen zijn er geen taalproblemen wanneer tekst door de gebruiker wordt ingevoerd via Microsoft Word. Maar het is mogelijk dat de taal onnauwkeurig is als de tekst automatisch wordt gegenereerd.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
De standaard natuurlijke taal voor alle tekst in een bestand moet worden gespecificeerd door de vermelding Lang in het Cataloguswoordenboek van het document.
Alle tekstuele inhoud in een bestand dat afwijkt van de standaardtaal moet worden aangegeven door gebruik te maken van een `Lang` eigenschap die is gekoppeld aan een reeks gemarkeerde inhoud, of door een Lang-invoer in een woordenboek met structuurelementen ...
ISO-19005-2, 6.7.4
Bovendien voor PDF/UA-1, de specificatie vertelt ons het volgende (expand to see details):
Natuurlijke taal moet worden aangegeven... veranderingen in natuurlijke taal moeten worden aangegeven.
ISO-14289-1, 7.2
In dit blok kunt u voorbeelden zien: hoe kunt u ervoor zorgen dat de taal correct is opgegeven (uitvouwen om details te zien).
Gebruikers moeten ervoor zorgen dat de taal correct is opgegeven in het brondocument Word:
Of het uitvoer PDF document:
Figuur Bijschrift
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Met Microsoft Word documenten kunnen gebruikers figuurbijschriften toevoegen.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Een bijschrift dat een figuur vergezelt, wordt voorzien van een bijschrift.
ISO-14289-1, 7.3
Op dit moment kan Aspose.Words bijschriften niet exporteren met de tag bijschrift, dus ze moeten worden gemarkeerd in de uitvoer PDF.
In dit blok kunt u voorbeelden zien: hoe het bijschrift invoegen (uitvouwen om details te zien).
In Microsoft Word kan het bijschrift worden ingevoegd via het contextmenu:
In Acrobat kan het bijschrift worden toegevoegd of gewijzigd via het dialoogvenster Eigenschappen van `Object`:
Alternatieve Beschrijvingen
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Met Microsoft Word documenten kunnen gebruikers alternatieve tekst toevoegen aan afbeeldingen, vormen en tabellen. Aspose.Words exporteert zo ' n alternatieve tekst naar de output PDF.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Alle structuurelementen waarvan de inhoud geen natuurlijke vooraf bepaalde tekstanalogon heeft, bijvoorbeeld afbeeldingen, formules, enz., moet een alternatieve tekstbeschrijving leveren met behulp van de Alt-invoer in het woordenboek van structuurelementen...
NOTE alternatieve beschrijvingen bieden tekstbeschrijvingen die helpen bij de juiste interpretatie van anders ondoorzichtige niet-tekstuele inhoud.
ISO-19005-2, 6.7.5
In dit blok kunt u voorbeelden zien: hoe kunt u ervoor zorgen dat alle elementen een alternatieve tekst hebben (uitvouwen om details te zien).
Gebruikers moeten ervoor zorgen dat alle elementen een alternatieve tekst hebben in het brondocument Word:
Of het uitvoer PDF document:
Alternatieve beschrijvingen voor Hyperlinks
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Naast het vorige punt kunnen gebruikers in Microsoft Word - documenten ook alternatieve tekst toevoegen aan hyperlinks. Aspose.Words exporteert zo ' n alternatieve tekst naar de output PDF.
Helaas kunt u niet bij elke toepassing een alternatieve beschrijving instellen. Bijvoorbeeld, Adobe Acrobat is momenteel niet in staat om een dergelijke beschrijving voor hyperlinks in te stellen. Maar in Microsoft Word kunt u dit als volgt doen:
Soms is er een probleem dat het niet mogelijk is om alternatieve tekst in te stellen voor automatisch gegenereerde hyperlinks in de inhoudsopgave (TOC) Via de Microsoft Word GUI. Aspose.Words kan dergelijke velden bijwerken en de koppelingen zelf genereren.
Volg het codevoorbeeld om TOC
velden bij te werken met het Aspose.Words Document Object Model (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Tabelkop
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabellen in PDF/UA-1 documenten moeten kopteksten hebben-kolom, rij of beide. PDF/A vereist alleen standaard tabelmarkering, die geen extra beperkingen heeft. Merk op dat Aspose.Words automatisch de standaard tabelmarkering genereert.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Tabellen moeten koppen bevatten ... tabellen kunnen kolomkoppen, rijkoppen of beide bevatten.
ISO-14289-1, 7.5
In dit blok kunt u voorbeelden zien: hoe de tabelkop instellen (uitvouwen om details te zien).
De tabelkop kan worden ingesteld in het brondocument Microsoft Word:
Of de output PDF:
Vervangende Tekst
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
De specificatie vertelt ons het volgende:
Alle textuele structuurelementen die op een niet-standaard manier worden weergegeven, bijvoorbeeld aangepaste tekens of inline afbeeldingen, moeten vervangende tekst leveren met behulp van de `ActualText` - invoer in het structuurelement woordenboek...
ISO-19005-2, 6.7.7
Microsoft Word document staat gebruikers niet toe vervangende tekst in te stellen. Dus dit moet worden geverifieerd en opgelost in de output PDF:
Afkortingen en acroniemen uitbreidingen
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Alle gevallen van afkortingen en acroniemen in tekstuele inhoud moeten worden geplaatst in een volgorde van gemarkeerde inhoud met een Span-tag waarvan de eigenschap E een tekstuele uitbreiding van de Afkorting of acroniem biedt...
ISO-19005-2, 6.7.8
Microsoft Word document staat gebruikers niet toe afkortingen en acroniemen uitbreidingen in te stellen. Dus dit moet worden geverifieerd en opgelost in de output PDF:
Documenttitel
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Het Document in PDF/UA-1 moet een titel hebben. |
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
De specificatie vertelt ons het volgende:
De metagegevensstroom in het cataloguswoordenboek van het document moet een dc:title-vermelding bevatten, waarbij dc het aanbevolen voorvoegsel is voor het Dublin Core-metagegevensschema…
ISO-14289-1, 7.1
In dit blok kunt u voorbeelden zien: de titel van het document instellen (uitvouwen om details te zien).
De titel van het document kan worden ingesteld in het brondocument Microsoft Word:
Of de output PDF:
Lettertypevereisten
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Er zijn ook een aantal nuances van het werken met lettertypen bij het converteren naar PDF/A-1, PDF/A-2, PDF/A-4 of PDF/UA-1 opmaak met Aspose.Words. Hiermee moet rekening worden gehouden als u mogelijke problemen met het uitvoerdocument wilt voorkomen.
De onderstaande secties beschrijven dergelijke nuances en opties voor hun oplossing.
Font Wettelijke Vereisten
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words controleert de wettelijke beperkingen van de gebruikte lettertypen niet – het is aan de gebruikers. Met andere woorden, een gebruiker moet geen ongeschikte lettertypen voor PDF conversie met behulp van Aspose.Words.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Alleen lettertypeprogramma ' s die wettelijk in een bestand kunnen worden ingebed voor onbeperkte, universele weergave, mogen worden gebruikt.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (precies dezelfde citaten in twee specs)
.notdef Glyph
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Het gebruik van het .notdef
glyf is verboden. De .notdef
glyf wordt weergegeven als een document tekens bevat die niet aanwezig zijn in het geselecteerde lettertype en die ook niet kunnen worden opgelost via het font Fallback-mechanisme.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Een conform document mag geen verwijzing naar de .notdef-glyf van een van de tekst die operatoren toont, ongeacht de tekstweergavemodus, in een inhoudsstroom.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (precies dezelfde citaten in twee specs)
In dit blok kunt u voorbeelden zien: hoe deze tekens te verwijderen of te vervangen (uitvouwen om details te zien).
Gebruikers moeten deze tekens in het brondocument Word verwijderen of vervangen:
Of het uitvoer PDF document met behulp van het gereedschap" bewerken PDF":
Ruimte Voor Privégebruik (PUA)
PDF standaard compliance niveaus binnen Aspose.Words | Aanwezigheid van eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Ruimte voor privégebruik (PUA) tekens verschijnen meestal voor Windows symbolische lettertypes zoals “Symbol”, “Wingdings”, “Webdings” en anderen. Microsoft Word - indelingen bieden geen optie om echte tekst voor tekens op te slaan.
De specificatie vertelt ons het volgende (uitbreiden om details te zien):
Alleen voor niveau a conformiteit, voor elk karakter ... dat wordt toegewezen aan een code of codes in het Unicode-gebied voor privégebruik (PUA), een ActualText - item ... moet aanwezig zijn voor dit teken of een reeks tekens waarvan dit teken deel uitmaakt.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” is een Windows Unicode-lettertype dat als alternatief voor symbolische lettertypen kan worden gebruikt.
In dit blok kunt u voorbeelden zien: wat de gebruiker moet doen om het probleem met symbolische lettertypen op te lossen (uitvouwen om details te zien).
Het symbolische lettertype vervangen door een Unicode-lettertype in het brondocument Word:
Of voeg een ActualText - item toe aan de problematische tekens in het Uitvoer PDF - document: