Werk met PDF/A of PDF/UA
PDF/A en PDF/UA formaat stel verskeie vereistes wat verband hou met die dokumentinhoud wat nie tydens outomatiese omskakeling van’n dokument in Word-formaat na PDF vervul kan word nie. Hierdie vereistes moet geverifieer en reggestel word in’n Word-dokument voor omskakeling of in’n PDF - dokument na omskakeling om’n volledig PDF/A en PDF/UA - versoenbare dokument te produseer.
Basiese vereistes is vir die struktuur of lettertipes van’n PDF/A en PDF/UA dokument, wat ons in die volgende afdelings sal oorweeg.
Dokumentstruktuurvereistes
Die huidige vereistes is vir PDF/A-1a, PDF/A-2a, PDF/A-4, en PDF/UA-1 formate.
Daar is’n paar nuanses van hoe Aspose.Words werk wanneer omgeskakel word na verskillende PDF formaat standaarde. Hulle moet in ag geneem word as jy die verwagte resultaat wil kry.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Dit is nie raadsaam vir skrywers om strukturele of semantiese inligting te genereer deur outomatiese prosesse te gebruik sonder toepaslike verifikasie nie.
ISO 19005-2, 6.7.1
Die onderstaande onderafdelings beskryf nuanses van hoe Aspose.Words werk wanneer dit omgeskakel word na verskillende PDF formaatstandaarde en opsies vir hul oplossing.
Struktuur Tipe
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
‘n PDF dokument is’n reeks blokke soos opskrifte, paragrawe, tabelle en ander. Hierdie blokke vorm’n dokumentstruktuur – sterk of swak.
Beide sterk en swak strukture is geldig vir PDF/A. Microsoft Word dokumente het’n swak struktuur deur ontwerp, en Aspose.Words skep PDF met die swak struktuur onderskeidelik en genereer ook opskrifte volgens die sketsvlakke van paragrawe in die brondokument.
Vir’n PDF/UA-1 dokument met’n swak struktuur, is dit ook nodig dat die kop nommers in volgorde gaan sonder gapings.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Die blokvlakstruktuur kan een van twee hoofparadigmas volg:
ISO-32000-1, 14.8.4.3.5
Vir PDF/UA-1 dokumente bevat die spesifikasie'n byvoeging wat verband hou met kopvlakke (brei uit om besonderhede te sien):
As dokument semantiek'n dalende volgorde van koptekste vereis, moet so'n volgorde in streng numeriese volgorde voortgaan en mag nie'n tussenliggende kopvlak oorslaan nie. H1 H2 H3 is toegelaat, terwyl H1 H3 nie toegelaat word nie.
ISO-14289-1, 7.4.2
Om korrekte uitset te verseker, moet gebruikers verseker dat die inhoud van die brondokument behoorlik georganiseer is en dat die sketsvlakke korrek vir paragrawe gespesifiseer word. Andersins moet die gebruiker die struktuur van die uitset PDF dokument verifieer en regstel.
In hierdie blok kan jy voorbeelde sien: hoe om sketsvlakke in Microsoft Word in te stel of die struktuur van die uitset PDF - dokument te kontroleer en reg te stel (brei uit om besonderhede te sien).
In Microsoft Word standaard "Kop X" style gebruik kan word om die omtrek vlak stel:
Daarbenewens kan die buitelyn vlak nagegaan of verander word in die venster" Paragraaf":
In Acrobat kan Die dokumentstruktuur in Die "Tags" paneel nagegaan of verander word:
Merk Die Inhoud as’n Artefak
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Op die oomblik merk Aspose.Words bladsyopskrifte en-voetskrifte, nootskeiers, herhaalde tabelopskrifte en dekoratiewe beelde as artefakte. Let daarop dat hierdie lys in die toekoms opgedateer kan word.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Die grafiese voorwerpe in'n dokument kan verdeel word in twee klasse:
ISO-32000-1, 14.8.2.2.1
As’n dokument enige ander inhoud bevat wat as’n artefak gemerk moet word, of as enige van die artefakte inhoud’n werklike inhoud is, moet kliënte dit in die uitset PDF regstel.
In hierdie blok kan jy voorbeelde sien: hoe om vorms as dekoratief in Microsoft Word te merk of vorm as'n artefak in die uitset PDF - dokument te merk (brei uit om besonderhede te sien).
Byvoorbeeld, vorms kan gemerk word as dekoratiewe in Microsoft Word, sodat hulle sal uitgevoer word na PDF as'n artefak:
Jy kan vorm merk as'n artefak in die uitset PDF:
U kan ook teks in'n koptekst van die artefak na werklike inhoud in die uitset verander PDF:
Natuurlike Taal Spesifikasie
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Teks taal word gespesifiseer in Microsoft Word dokumente. Aspose.Words voer die gespesifiseerde taal uit na’n uitset PDF met die Lang kenmerk wat aan’n gemerkte inhoud volgorde of’n Span tag gekoppel is-dit word beheer deur die ExportLanguageToSpanTag eienskap. Oor die algemeen is daar geen taalprobleme wanneer teks deur die gebruiker via Microsoft Word ingevoer word nie. Maar daar is’n moontlikheid dat die taal dalk onakkuraat is as die teks outomaties gegenereer word.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Die standaard natuurlike taal vir alle teks in'n lêer moet gespesifiseer word deur die Lang inskrywing in Die dokument Se Katalogus woordeboek.
Alle tekstuele inhoud binne'n lêer wat verskil van die standaard taal moet aangedui word deur die gebruik van'n `Lang` eienskap wat aan'n gemerkte inhoud volgorde, of deur'n Lang inskrywing in'n struktuur element woordeboek ...
ISO-19005-2, 6.7.4
Daarbenewens vir PDF/UA-1, die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Natuurlike taal sal verklaar word... Veranderinge in natuurlike taal sal verklaar word.
ISO-14289-1, 7.2
In hierdie blok kan jy voorbeelde sien: hoe om te verseker dat die taal korrek gespesifiseer word (brei uit om besonderhede te sien).
Gebruikers moet verseker dat die taal korrek in die bronwoorddokument gespesifiseer word:
Of die uitset PDF dokument:
Figuur Onderskrif
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumente laat gebruikers toe om figuur onderskrif by te voeg.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
'n onderskrif wat'n figuur vergesel, moet met'n Onderskrif-etiket gemerk word.
ISO-14289-1, 7.3
Tans kan Aspose.Words nie onderskrifte met die Onderskrif-etiket uitvoer nie, dus moet hulle in die uitset PDF gemerk word.
In hierdie blok kan jy voorbeelde sien: hoe om die onderskrif in te voeg (brei uit om besonderhede te sien).
In Microsoft Word, kan die onderskrif ingevoeg word deur die konteks kieslys:
In Acrobat kan die onderskrif bygevoeg of verander word via die `Object` Eienskappe dialoog:
Alternatiewe Beskrywings
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumente laat gebruikers toe om alternatiewe teks by beelde, vorms en tabelle te voeg. Aspose.Words voer so’n alternatiewe teks uit na die uitset PDF.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Alle struktuurelemente waarvan die inhoud nie'n natuurlike voorafbepaalde tekstuele analoog het nie, bv.beelde, formules, ens., moet'n alternatiewe teks beskrywing verskaf met behulp van die Alt inskrywing in die struktuur element woordeboek...
NOTE Alternatiewe beskrywings verskaf tekstuele beskrywings wat help met die behoorlike interpretasie van andersins ondeursigtige nie-tekstuele inhoud.
ISO-19005-2, 6.7.5
In hierdie blok kan jy voorbeelde sien: hoe om te verseker dat alle elemente'n alternatiewe teks het (brei uit om besonderhede te sien).
Gebruikers moet verseker dat alle elemente'n alternatiewe teks in die bron Word-dokument het:
Of die uitset PDF dokument:
Alternatiewe Beskrywings vir Hiperskakels
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Benewens die vorige punt, laat Microsoft Word dokumente gebruikers ook toe om alternatiewe teks by hiperskakels te voeg. Aspose.Words voer so’n alternatiewe teks uit na die uitset PDF.
Ongelukkig kan u nie elke toepassing’n alternatiewe beskrywing opstel nie. Byvoorbeeld, Adobe Acrobat maak dit tans nie moontlik om so’n beskrywing vir hiperskakels op te stel nie. Maar in Microsoft Word, kan jy dit doen soos volg:
Soms is daar’n probleem dat dit nie moontlik is om alt teks vir outomaties gegenereerde hiperskakels in die inhoudsopgawe (TOC) deur die Microsoft Word GUI te stel nie. Aspose.Words kan sulke velde opdateer en die skakels op sy eie genereer.
Volg die kode voorbeeld om TOC
velde op te dateer met behulp van die Aspose.Words Document Object Model (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Tabelopskrifte
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabelle in PDF/UA-1 dokumente moet koptekste hê – kolom, ry of albei. PDF/A vereis slegs standaard tabel opmerkings, wat geen bykomende beperkings het nie. Let daarop dat Aspose.Words die standaard tabel merk outomaties genereer.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Tabelle moet koptekste insluit ... Tabelle kan kolomopskrifte, ryopskrifte of albei bevat.
ISO-14289-1, 7.5
In hierdie blok kan jy voorbeelde sien: hoe om die tabelopskrif te stel (brei uit om besonderhede te sien).
Die tabel kop kan ingestel word op die bron Microsoft Word dokument:
Of die uitset PDF:
Vervangende Teks
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Die spesifikasie vertel ons die volgende:
Alle tekstuele struktuur elemente wat op'n nie-standaard manier verteenwoordig word, bv, persoonlike karakters of inline grafiese, moet vervanging teks verskaf met behulp van die `ActualText` inskrywing in die struktuur element woordeboek...
ISO-19005-2, 6.7.7
Microsoft Word dokument laat gebruikers nie toe om vervangende teks in te stel nie. So dit moet geverifieer en vasgestel word in die uitset PDF:
Afkortings En Akronieme Uitbreidings
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Alle gevalle van afkortings en akronieme in tekstuele inhoud moet in'n gemerkte inhoud volgorde geplaas word met'n Span tag waarvan Die e eienskap'n tekstuele uitbreiding van die afkorting of akroniem bied...
ISO-19005-2, 6.7.8
Microsoft Word dokument laat gebruikers nie toe om afkortings en akronieme uitbreidings in te stel nie. So dit moet geverifieer en vasgestel word in die uitset PDF:
Dokument Titel
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument in PDF/UA-1 moet’n titel hê. |
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Die spesifikasie vertel ons die volgende:
Die Metadata stroom in die dokument se katalogus woordeboek moet'n dc:titel inskrywing bevat, waar dc is die aanbevole voorvoegsel vir Die Dublin Core metadata skema…
ISO-14289-1, 7.1
In hierdie blok kan jy voorbeelde sien: hoe om die dokumenttitel te stel (brei uit om besonderhede te sien).
Die dokument titel kan ingestel word op die bron Microsoft Word dokument:
Of die uitset PDF:
Skrif Tipe Vereistes
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Daar is ook’n aantal nuanses van die werk met lettertipes wanneer die omskakeling na PDF/A-1, PDF/A-2, PDF/A-4 of PDF/UA-1 formate met behulp van Aspose.Words. Hulle moet in ag geneem word as u moontlike probleme met die uitvoerdokument wil vermy.
Die onderstaande afdelings beskryf sulke nuanses en opsies vir hul oplossing.
Font Wetlike Vereistes
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words verifieer nie die wetlike beperkings van die gebruikte lettertipes nie – dit is aan gebruikers. Met ander woorde, ‘n gebruiker moet nie onvanpaste lettertipes vir PDF omskakeling met behulp van Aspose.Words verskaf nie.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Slegs lettertipe programme wat wettiglik in'n lêer ingebed kan word vir onbeperkte, universele weergawe, moet gebruik word.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (presies dieselfde aanhalings in twee spesifikasies)
.notdef Glyph
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Die gebruik van die .notdef
glyf is verbode. Die .notdef
glyf sal verskyn as’n dokument karakters bevat wat nie in die geselekteerde lettertipe voorkom nie en wat ook nie via die Lettertipe-Terugvalmeganisme opgelos kan word nie.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
'n ooreenstemmende dokument mag nie'n verwysing na die.notdef glyph van enige van die teks wat operateurs, ongeag van die teks weergawe af, in enige inhoud stroom.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (presies dieselfde aanhalings in twee spesifikasies)
In hierdie blok kan jy voorbeelde sien: hoe om hierdie karakters te verwyder of te vervang (brei uit om besonderhede te sien).
Gebruikers moet hierdie karakters in die bronwoorddokument verwyder of vervang:
Of die uitset PDF dokument met behulp van die" Wysig PDF " instrument:
Privaat Gebruik Area (PUA)
PDF standaard voldoeningsvlakke binne Aspose.Words | Teenwoordigheid van vereiste |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Private Gebruik Area (PUA) karakters verskyn meestal vir Windows simboliese lettertipes soos “Symbol”, “Wingdings”, “Webdings”, en ander. Microsoft Word formate bied nie’n opsie om werklike teks vir karakters te stoor nie.
Die spesifikasie vertel ons die volgende (brei uit om besonderhede te sien):
Vir Vlak a ooreenstemming alleen, vir enige karakter ... wat gekarteer is na'n kode of kodes in die Unicode Private Gebruik Area (PUA), 'n ActualText inskrywing ... moet teenwoordig wees vir hierdie karakter of'n reeks karakters waarvan so'n karakter deel is.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” is’n Windows Unicode lettertipe wat gebruik kan word as’n alternatief vir simboliese lettertipes.
In hierdie blok kan jy voorbeelde sien: wat gebruiker moet doen om die probleem met simboliese lettertipes op te los (brei uit om besonderhede te sien).
Vervang die simboliese lettertipe met'n Unicode-lettertipe in die bronwoorddokument:
Of voeg'n ActualText inskrywing by die problematiese karakters in die uitset PDF dokument: