Werken met PDF/A of PDF/UA
PDF/A en PDF/UA-formaat stelt verschillende eisen met betrekking tot de inhoud van het document waaraan niet kan worden voldaan tijdens automatische conversie van een document in Word-formaat naar PDF. Deze eisen moeten worden geverifieerd en gecorrigeerd, hetzij in een Word-document vóór conversie, hetzij in een PDF-document na conversie om een volledig PDF/A en PDF/UA-conform document te produceren.
Basisvereisten zijn voor de structuur of lettertypen van een PDF/A en PDF/UA document, die we in de volgende secties zullen overwegen.
Documentstructuurvereisten
De huidige eisen zijn voor PDF/A-1a, PDF/A-2a, PDF/A-4 en PDF/UA-1 formaten.
Er zijn nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat standaarden. Zij moeten in aanmerking worden genomen als u het verwachte resultaat wilt bereiken.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Het is niet raadzaam voor schrijvers om structurele of semantische informatie te genereren met behulp van geautomatiseerde processen zonder passende verificatie.
ISO 19005-2, 6.7.1
De subsecties hieronder beschrijven nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat normen en opties voor hun oplossing.
Structuurtype
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Een PDF-document is een reeks blokken zoals rubrieken, paragrafen, tabellen en andere. Deze blokken vormen een documentstructuur die sterk of zwak is.
Zowel sterke als zwakke structuren zijn geldig voor PDF/A. Microsoft Word documenten een zwakke structuur van ontwerp hebben, en Aspose.Words maakt PDF met de zwakke structuur respectievelijk en genereert ook rubrieken volgens de omtrekniveaus van de paragrafen in het brondocument.
Voor een PDF/UA-1 document met een zwakke structuur is het bovendien vereist dat de kopnummers in orde gaan zonder gaten.
De specificatie vertelt ons het volgende (breid uit om details te zien):
De structuur op blokniveau kan een van de twee belangrijkste paradigma's volgen:
ISO-32000-1, 14.8.4.3.5
Voor PDF/UA-1 documenten bevat de specificatie een toevoeging met betrekking tot rubriekniveaus (b.v. om details te bekijken):
Indien voor documentsemantiek een dalende volgorde van koppen vereist is, moet een dergelijke volgorde in strikte numerieke volgorde verlopen en mag een tussenliggende koersniveau niet worden overgeslagen. H1 H2 H3 is toegestaan, terwijl H1 H3 dat niet is.
ISO-14289-1, 7.4.2
Om een correcte uitvoer te garanderen, moeten de gebruikers ervoor zorgen dat de inhoud van het brondocument naar behoren is georganiseerd en worden de contourniveaus correct gespecificeerd voor de paragrafen. Anders moet de gebruiker de structuur van het uitvoer PDF-document verifiëren en repareren.
In dit blok zie je voorbeelden: hoe omlijnde niveaus in te stellen Microsoft Word of controleer en repareer de structuur van het uitvoer PDF-document (uitbreiding om details te zien).
In Microsoft Word standaard "Heading X"-stijlen kunnen worden gebruikt om het overzichtsniveau in te stellen:
Bovendien kan het schemaniveau worden gecontroleerd of gewijzigd in het venster "Paragraph":
In Acrobat kon de documentstructuur worden gecontroleerd of gewijzigd in het "Tags"-paneel:
De inhoud als artefact markeren
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Op dit moment, Aspose.Words markeert pagina headers en voetteksten, notitiescheiders, herhaalde tafel koptekst cellen, en decoratieve beelden als artefacten. Deze lijst kan in de toekomst worden bijgewerkt.
De specificatie vertelt ons het volgende (breid uit om details te zien):
De grafische objecten in een document kunnen in twee klassen worden onderverdeeld:
ISO-32000-1, 14.8.2.2.1
Als een document andere inhoud bevat die als artefact moet worden gemarkeerd, of als een van de artefacten een echte inhoud is, moeten klanten dat in de output PDF herstellen.
In dit blok zie je voorbeelden: hoe je vormen markeert als decoratief in Microsoft Word of markeer vorm als een artefact in het uitvoer PDF document (verruimen om details te zien).
Bijvoorbeeld, vormen kunnen worden gemarkeerd als decoratief in Microsoft Word, Dus ze zullen worden geëxporteerd naar PDF als een artefact:
U kunt vorm markeren als een artefact in de output PDF:
Ook kunt u tekst in een header schakelen van het artefact naar echte inhoud in de output PDF:
Natuurlijke taalspecificatie
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Teksttaal is gespecificeerd in Microsoft Word documenten. Aspose.Words exporteert de opgegeven taal naar een uitvoer PDF met de Lang attribuut gekoppeld aan een gemarkeerde-inhoud sequentie of een Span-tag ExportLanguageToSpanTag eigendom. Over het algemeen zijn er geen taalproblemen wanneer tekst wordt ingevoerd door de gebruiker via Microsoft Word. Maar er is een mogelijkheid dat de taal onjuist kan zijn als de tekst automatisch wordt gegenereerd.
De specificatie vertelt ons het volgende (breid uit om details te zien):
De standaard natuurlijke taal voor alle tekst in een bestand moet worden gespecificeerd door de Lang entry in het document.
Alle tekstuele inhoud binnen een bestand die verschilt van de standaardtaal moet worden aangegeven door gebruik van een `Lang` eigenschap verbonden aan een gemarkeerde-inhoudssequentie, of door een Lang ingang in een structuurelement woordenboek ...
ISO-19005-2, 6.7.4
Bovendien voor PDF/UA-1 vertelt de specificatie ons het volgende (breid uit om details te zien):
Natuurlijke taal wordt verklaard... Wijzigingen in de natuurlijke taal worden aangegeven.
ISO-14289-1,2,2
In dit blok zie je voorbeelden: hoe ervoor te zorgen dat de taal correct wordt opgegeven (breid uit om details te zien).
Gebruikers moeten ervoor zorgen dat de taal correct wordt opgegeven in het bron Word-document:
Of het uitvoer PDF-document:
Figuurtitel
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documenten laten gebruikers toe om figuurtitel toe te voegen.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Een bijschrift bij een figuur wordt voorzien van een bijschrift.
ISO-14289-1,3
Momenteel Aspose.Words kan geen bijschriften exporteren met de Bijschrift-tag, dus ze moeten gemarkeerd worden in de uitvoer PDF.
In dit blok kun je voorbeelden zien: hoe je de bijschrift invoegt (vergroot om details te zien).
In Microsoft Word, de bijschrift kan worden ingevoegd via het contextmenu:
In Acrobat kan het bijschrift worden toegevoegd of gewijzigd via de `Object` Eigenschappen dialoogvenster:
Alternatieve beschrijvingen
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word documenten laten gebruikers toe alternatieve tekst toe te voegen aan afbeeldingen, vormen en tabellen. Aspose.Words exporteert een dergelijke alternatieve tekst naar de uitvoer PDF.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Alle structuurelementen waarvan de inhoud geen natuurlijk vooraf bepaald tekstueel analoog heeft, bijvoorbeeld afbeeldingen, formules, enz., dienen een alternatieve tekstbeschrijving te verstrekken met behulp van de Alt-invoer in het woordenboek van het structuurelement...
NOOT Alternatieve beschrijvingen bieden tekstuele beschrijvingen die helpen bij de juiste interpretatie van anders ondoorzichtige niet-tekstuele inhoud.
ISO-19005-2, 6.7.5
In dit blok kun je voorbeelden zien: hoe ervoor te zorgen dat alle elementen een alternatieve tekst hebben (uitbreiden om details te zien).
Gebruikers moeten ervoor zorgen dat alle elementen een alternatieve tekst hebben in ofwel het bron Word-document:
Of het uitvoer PDF-document:
Alternatieve beschrijvingen voor hyperlinks
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Naast het vorige punt, Microsoft Word documenten kunnen gebruikers ook alternatieve tekst toevoegen aan hyperlinks. Aspose.Words exporteert een dergelijke alternatieve tekst naar de uitvoer PDF.
Helaas, niet elke toepassing kunt u een alternatieve beschrijving. Bijvoorbeeld, Adobe Acrobat een dergelijke beschrijving voor hyperlinks momenteel niet mogelijk maakt. Maar in Microsoft Word, U kunt dit als volgt doen:
Soms is er een probleem dat het niet mogelijk is om alt tekst voor automatisch gegenereerde hyperlinks in de inhoudsopgave (TOC) via de Microsoft Word GUI. Aspose.Words dergelijke velden kunnen bijwerken en de links zelfstandig kunnen genereren.
Volg het codevoorbeeld om te updaten TOC
velden Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Tabelkoppen
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabellen in PDF/UA-1 documenten moeten headers bevatten met kolom, rij of beide. PDF/A vereist alleen standaard-tabelopmaak, zonder extra beperkingen. Merk op dat Aspose.Words genereert automatisch de standaard tabelopmaak.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Tabellen moeten headers bevatten... Tabellen kunnen kolomkoppen, rijkoppen of beide bevatten.
ISO-14289-1, 7,5
In dit blok kun je voorbeelden zien: hoe de tabelkop in te stellen (uitbreiden om details te zien).
De tabelkop kan worden ingesteld ofwel de bron Microsoft Word document:
Of de uitvoer PDF:
Vervangingstekst
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (breid uit om details te zien):
De specificatie vertelt ons het volgende:
Alle tekstuele structuurelementen die op een niet-standaard wijze worden weergegeven, bijvoorbeeld aangepaste tekens of inline graphics, moeten vervangende tekst leveren met behulp van de `ActualText` ingang in het woordenboek structuurelement...
ISO-19005-2, 67,7
Microsoft Word document staat gebruikers niet toe om vervangende tekst in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:
Afkortingen en acroniemen Uitbreidingen
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
De specificatie vertelt ons het volgende (breid uit om details te zien):
Alle instanties van afkortingen en acroniemen in tekstuele inhoud moeten in een reeks gemarkeerde inhoud worden geplaatst met een Span-tag waarvan de eigenschap E een tekstuele uitbreiding van de afkorting of acroniem geeft...
ISO-19005-2, 67,8
Microsoft Word document laat gebruikers niet toe om afkortingen en acroniemen uitbreidingen in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:
Titel document
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Document in PDF/UA-1 moet een titel hebben |
De specificatie vertelt ons het volgende (breid uit om details te zien):
De specificatie vertelt ons het volgende:
De Metadata-stream in het document-catalogus woordenboek bevat een dc:title ingang, waarbij dc het aanbevolen voorvoegsel is voor het Dublin Core metadataschema...
ISO-14289-1, 7,1
In dit blok zie je voorbeelden: hoe de documenttitel in te stellen (uitbreiden om details te zien).
De titel van het document kan worden ingesteld als bron Microsoft Word document:
Of de uitvoer PDF:
Lettertypevereisten
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Er zijn ook een aantal nuances van het werken met lettertypen bij het omzetten naar PDF/A-1, PDF/A-2, PDF/A-4 of PDF/UA-1 formaten met behulp van Aspose.Words. Zij moeten in aanmerking worden genomen als u mogelijke problemen met het uitvoerdocument wilt voorkomen.
In onderstaande paragrafen worden dergelijke nuances en opties voor hun oplossing beschreven.
Juridische vereisten voor lettertype
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words controleert niet de wettelijke beperkingen van de gebruikte lettertypen Met andere woorden, een gebruiker moet geen ongepaste lettertypen voor PDF conversie met behulp van Aspose.Words.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Alleen lettertypeprogramma's die wettelijk ingesloten zijn in een bestand voor onbeperkte, universele rendering mogen worden gebruikt.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (precies dezelfde citaten in twee specificaties)
.notdef Glyph
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Het gebruik van de .notdef
glyph is verboden. De .notdef
glyph zal verschijnen als een document tekens bevat die niet aanwezig zijn in het geselecteerde lettertype en die ook niet kunnen worden opgelost via het Font Fallback-mechanisme.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Een conform document bevat geen verwijzing naar het glyph van een van de tekst tonen operators, ongeacht tekst rendering mode, in elke inhoud stroom.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (precies dezelfde citaten in twee specificaties)
In dit blok kun je voorbeelden zien: hoe deze tekens te verwijderen of te vervangen (uitbreiden om details te zien).
Gebruikers moeten deze tekens verwijderen of vervangen in het bron Word-document:
Of het uitvoer PDF document met behulp van de "PDF bewerken" tool:
Ruimte voor privégebruik (PUA)
PDF-standaard nalevingsniveaus binnen Aspose.Words | Aanwezigheid van de eis |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Private Use Area (PUA) tekens verschijnen meestal voor Windows symbolische lettertypen als “Symbol,” “Wingdings,” “Webdings” en andere. Microsoft Word formaten bieden geen optie om actuele tekst op te slaan voor tekens.
De specificatie vertelt ons het volgende (breid uit om details te zien):
Voor niveau Alleen een overeenstemming, voor elk teken ... dat is toegewezen aan een code of codes in het Unicode Private Use Area (PUA), een ActualText ingang ... is aanwezig voor dit teken of een opeenvolging van tekens waarvan een dergelijk teken een onderdeel is.
ISO-19005-2, 6.2.11.7,3
“Segoe UI Symbool” is een Windows Unicode lettertype dat gebruikt kan worden als alternatief voor symbolische lettertypen.
In dit blok kun je voorbeelden zien: wat de gebruiker moet doen om het probleem op te lossen met symbolische lettertypen (expand to see details).
Het symbolische lettertype vervangen door een Unicode in het bronwoorddocument:
Of voeg een ActualText-invoer toe aan de problematische tekens in het uitvoer PDF-document: