Werken met PDF/A of PDF/UA

PDF/A en PDF/UA-formaat legt verschillende eisen op met betrekking tot de inhoud van het document waaraan niet kan worden voldaan tijdens automatische conversie van een document in Word-formaat naar PDF. Deze eisen moeten worden geverifieerd en gecorrigeerd hetzij in een Word-document vóór conversie of in een PDF-document na conversie om een volledig PDF/A en PDF/UA-conform document te produceren.

Basisvereisten zijn voor de structuur of lettertypen van een PDF/A en PDF/UA document, die we in de volgende secties zullen overwegen.

Documentstructuurvereisten

De huidige eisen zijn voor PDF/A-1a, PDF/A-2a, PDF/A-4 en PDF/UA-1 formaten.

Er zijn enkele nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat normen. Ze moeten in aanmerking worden genomen om het verwachte resultaat te krijgen.

De subsecties hieronder beschrijven nuances van hoe Aspose.Words werkt bij het omzetten naar verschillende PDF-formaat normen en opties voor hun oplossing.

Structuurtype

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Een PDF-document is een reeks blokken zoals rubrieken, paragrafen, tabellen en andere. Deze blokken vormen een documentstructuur die sterk of zwak is.

Zowel sterke als zwakke structuren zijn geldig voor PDF/A. Microsoft Word documenten een zwakke structuur door ontwerp hebben, en Aspose.Words maakt PDF met de zwakke structuur respectievelijk en genereert ook rubrieken volgens de omtrekniveaus van de paragrafen in het brondocument.

Voor een PDF/UA-1 document met een zwakke structuur is het bovendien vereist dat de kopnummers in orde gaan zonder gaten.

Om een correcte output te garanderen, moeten de gebruikers ervoor zorgen dat de inhoud van het brondocument naar behoren wordt georganiseerd en worden de contourniveaus correct gespecificeerd voor de paragrafen. Anders moet de gebruiker de structuur van het uitvoer PDF-document verifiëren en repareren.

De inhoud als artefact markeren

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Op dit moment, Aspose.Words markeert pagina headers en voetteksten, notitiescheiders, herhaalde tafel koptekst cellen, en decoratieve beelden als artefacten. Deze lijst kan in de toekomst worden bijgewerkt.

Als een document andere inhoud bevat die als artefact moet worden gemarkeerd, of als een van de artefacten een echte inhoud is, moeten klanten dat in de output PDF repareren.

Natuurlijke taalspecificatie

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Teksttaal is gespecificeerd in Microsoft Word documenten. Aspose.Words exporteert de opgegeven taal naar een uitvoer PDF met de Lang attribuut verbonden aan een gemarkeerde-inhoud sequentie of een Span-tag ExportLanguageToSpanTag eigendom. Over het algemeen zijn er geen taalproblemen wanneer tekst wordt ingevoerd door de gebruiker via Microsoft Word. Maar er is een mogelijkheid dat de taal onjuist kan zijn als de tekst automatisch wordt gegenereerd.

Figuurtitel

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word documenten laten gebruikers toe om figuurtitel toe te voegen.

Momenteel Aspose.Words kan bijschriften met de bijschrift-tag niet exporteren, dus ze moeten gemarkeerd worden in de uitvoer PDF.

Alternatieve beschrijvingen

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word documenten laten gebruikers toe alternatieve tekst toe te voegen aan afbeeldingen, vormen en tabellen. Aspose.Words exporteert een dergelijke alternatieve tekst naar de output PDF.

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Naast het vorige punt, Microsoft Word documenten kunnen gebruikers ook alternatieve tekst toevoegen aan hyperlinks. Aspose.Words exporteert een dergelijke alternatieve tekst naar de output PDF.

Helaas, niet elke toepassing kunt u het opzetten van een alternatieve beschrijving. Bijvoorbeeld, Adobe Acrobat een dergelijke beschrijving voor hyperlinks momenteel niet mogelijk maakt. Maar in Microsoft Word, U kunt dit als volgt doen:

alternate-descriptions-hyperlinks-mw

Soms is er een probleem dat het niet mogelijk is om alt tekst voor automatisch gegenereerde hyperlinks in de inhoudsopgave (TOC) via de Microsoft Word GUI. Aspose.Words dergelijke velden kunnen bijwerken en de links zelfstandig kunnen genereren.

Volg het voorbeeld van de code om bij te werken TOC velden Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Tabelkoppen

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabellen in PDF/UA-1 documenten moeten headers bevatten met kolom, rij of beide. PDF/A vereist alleen standaardtabelmarkering, zonder extra beperkingen. Merk op dat Aspose.Words genereert automatisch de standaard tabelopmaak.

Vervangingstekst

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word document staat gebruikers niet toe om vervangende tekst in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:

AcrobatReplacementText

Afkortingen en acroniemen Uitbreidingen

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word document laat gebruikers niet toe om afkortingen en acroniemen uitbreidingen in te stellen. Dus dit moet worden geverifieerd en vastgesteld in de uitvoer PDF:

AcrobatSplitAddExpansionText

Titel document

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Document in PDF/UA-1 moet een titel hebben

Lettertypevereisten

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Er zijn ook een aantal nuances van het werken met lettertypen bij het omzetten naar PDF/A-1, PDF/A-2, PDF/A-4 of PDF/UA-1 formaten met behulp van Aspose.Words. Zij moeten in aanmerking worden genomen als u mogelijke problemen met het uitvoerdocument wilt voorkomen.

De onderstaande paragrafen beschrijven dergelijke nuances en opties voor hun oplossing.

Juridische vereisten voor lettertype

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words controleert niet de wettelijke beperkingen van de gebruikte lettertypen Met andere woorden, een gebruiker moet geen ongepaste lettertypen voor PDF conversie met behulp van Aspose.Words.

.notdef Glyph

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Het gebruik van de .notdef glyph is verboden. De .notdef glyph zal verschijnen als een document tekens bevat die niet aanwezig zijn in het geselecteerde lettertype en die ook niet kunnen worden opgelost via het Font Fallback-mechanisme.

Ruimte voor privégebruik (PUA)

PDF-standaard compliance levels binnen Aspose.Words Aanwezigheid van de eis
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Private Use Area (PUA) tekens verschijnen meestal voor Windows symbolische lettertypen als “Symbol,” “Wingdings,” “Webdings” en andere. Microsoft Word formaten bieden geen optie om actuele tekst op te slaan voor tekens.

“Segoe UI Symbool” is een Windows Unicode lettertype dat gebruikt kan worden als alternatief voor symbolische lettertypen.