PDF/A
Format PDF / A dan PDF / U memaksakan beberapa persyaratan yang terkait dengan konten dokumen yang tidak dapat dipenuhi selama konversi otomatis dari dokumen dalam format Word ke PDF. Persyaratan ini harus diverifikasi dan dikoreksi baik dalam dokumen Word sebelum konversi atau dalam dokumen PDF setelah konversi untuk menghasilkan dokumen sesuai PDF / A dan PDF / U.
Persyaratan dasar untuk struktur atau font dokumen PDF/A dan PDF/UA, yang akan kami pertimbangkan di bagian berikut.
Persyaratan Struktur Dokumen
Persyaratan saat ini adalah untuk format PDF / A-1a, PDF / A-2a, PDF / A-4, dan PDF / U-1.
Ada beberapa nuansa bagaimana Aspose.Words bekerja ketika mengkonversi ke berbagai standar format PDF. Mereka harus diperhitungkan jika Anda ingin mendapatkan hasil yang diharapkan.
Spesifikasi memberi tahu kami rincian berikut:
Hal ini dapat diinformasikan untuk penulis untuk menghasilkan informasi struktural atau semantik menggunakan proses otomatis tanpa verifikasi yang tepat.
ISO JPY 108.08504 120.52496
Bagian bawah ini menjelaskan nuansa bagaimana Aspose.Words bekerja ketika mengkonversi ke berbagai standar dan opsi format PDF untuk solusi mereka.
Jenis Struktur
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Dokumen PDF adalah urutan blok seperti judul, paragraf, tabel, dan lain-lain. Blok ini membentuk struktur dokumen - sangat atau lemah.
Struktur yang kuat dan lemah berlaku untuk PDF / A. Microsoft Word dokumen memiliki struktur yang lemah dengan desain, dan Aspose.Words membuat PDF dengan struktur yang lemah masing-masing dan juga menghasilkan judul sesuai dengan tingkat garis besar paragraf dalam dokumen sumber.
Untuk dokumen PDF/UA-1 dengan struktur yang lemah, ini juga diperlukan bahwa nomor judul masuk tanpa celah.
Spesifikasi memberi tahu kami rincian berikut:
Struktur tingkat blok dapat mengikuti salah satu dari dua paradigma utama:
ISO-32000-1, 14.8.4.3.5
Untuk dokumen PDF/UA-1, spesifikasinya mengandung tambahan yang terkait dengan tingkat judul (expand to see details):
Jika dokumen semantik membutuhkan urutan turunan header, urutan seperti itu akan diproses dalam urutan numerik yang ketat dan tidak akan melewatkan tingkat kepala yang intervensi. H1 H2 H3 tidak diizinkan, sementara H1 H3 tidak.
ISOArtikel-ID:#006400
Untuk memastikan output yang benar, pengguna harus memastikan bahwa konten dokumen sumber diatur dengan benar dan tingkat garis ditentukan dengan benar untuk paragraf. Jika tidak, pengguna harus memverifikasi dan memperbaiki struktur dokumen PDF output.
Dalam blok ini, Anda dapat melihat contoh: bagaimana mengatur tingkat garis dalam Microsoft Word atau periksa dan memperbaiki struktur dokumen PDF output (dan untuk melihat rincian).
Sitemap Microsoft Word default "Kepala X" gaya dapat digunakan untuk mengatur tingkat garis besar:
Selain itu, tingkat garis besar dapat diperiksa atau diubah di jendela "Paragraf":
Dalam Acrobat struktur dokumen dapat diperiksa atau diubah dalam pane "Tags":
Menandai Konten sebagai Artief
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Saat ini, Aspose.Words menandai header halaman dan footer, pemisah catatan, sel header tabel berulang, dan gambar dekoratif sebagai artefak. Perhatikan bahwa daftar ini dapat diperbarui di masa depan.
Spesifikasi memberi tahu kami rincian berikut:
Objek grafis dalam dokumen dapat dibagi menjadi dua kelas:
ISO-32000-1, 14.8.2.2.1
Jika dokumen berisi konten lain yang harus ditandai sebagai artefak, atau jika ada konten yang artefak adalah konten nyata, pelanggan harus memperbaiki bahwa dalam PDF output.
Dalam blok ini, Anda dapat melihat contoh: bagaimana menandai bentuk dekoratif Microsoft Word atau bentuk tanda sebagai artefak dalam dokumen PDF output (expand to see details).
Misalnya, bentuk bisa ditandai sebagai dekoratif dalam Microsoft Word, sehingga mereka akan diekspor ke PDF sebagai artefak:
Anda dapat menandai bentuk sebagai artefak dalam PDF output:
Juga, Anda dapat beralih teks di header dari artefak ke konten nyata dalam PDF output:
Spesifikasi Bahasa Alam
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Bahasa teks ditentukan dalam Microsoft Word dokumen. Aspose.Words ekspor bahasa yang ditentukan ke PDF output dengan Lang atribut yang melekat pada urutan yang ditandai atau tag Span - dikontrol oleh ExportLanguageToSpanTag Login Umumnya tidak ada masalah bahasa ketika teks dimasukkan oleh pengguna melalui Microsoft WordSitemap Tapi ada kemungkinan bahwa bahasa mungkin tidak akurat jika teks dihasilkan secara otomatis.
Spesifikasi memberi tahu kami rincian berikut:
Bahasa alami default untuk semua teks dalam file harus ditentukan oleh entri Lang di kamus Katalog dokumen.
Semua konten teks dalam file yang berbeda dari bahasa default harus ditunjukkan dengan menggunakan `Lang` properti yang melekat pada urutan konten yang ditandai, atau dengan entri Lang dalam elemen struktur kamus ...
ISODi. 08.00 - 12.00/13.30
Selain PDF/UA-1, spesifikasi memberi tahu kami rincian berikut (kemahan untuk melihat rincian):
Bahasa alami akan dideklarasikan... Perubahan dalam bahasa alami dinyatakan.
ISO-14289-1, 7.2
Dalam blok ini, Anda dapat melihat contoh: bagaimana memastikan bahwa bahasa ditentukan dengan benar (dan untuk melihat rincian).
Pengguna harus memastikan bahwa bahasa ditentukan dengan benar dalam dokumen Word sumber:
Atau dokumen PDF output:
Gambar Caption
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Microsoft Word dokumen memungkinkan pengguna untuk menambahkan keterangan gambar.
Spesifikasi memberi tahu kami rincian berikut:
Sebuah caption menemani sebuah angka akan ditandai dengan tag Caption.
ISO-14289-1, 7.3
Sitemap Aspose.Words tidak dapat mengekspor caption dengan tag Caption, sehingga mereka harus ditandai di PDF output.
Dalam blok ini, Anda dapat melihat contoh: cara memasukkan caption (expand untuk melihat rincian).
Sitemap Microsoft Word, caption dapat dimasukkan melalui menu konteks:
Dalam Acrobat caption bisa ditambahkan atau diubah melalui `Object` dialog properti:
Alternate Deskripsi
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Microsoft Word dokumen memungkinkan pengguna untuk menambahkan teks alternatif ke gambar, bentuk, dan tabel. Aspose.Words ekspor teks alternatif ke PDF output.
Spesifikasi memberi tahu kami rincian berikut:
Semua elemen struktur yang kontennya tidak memiliki analog tekstual yang telah ditentukan alami, misalnya gambar, formula, dll., harus memasok deskripsi teks alternatif menggunakan Alt masuk dalam elemen struktur kamus...
Login Deskripsi Alternate memberikan deskripsi tekstual yang membantu dalam interpretasi yang tepat dari konten non-teksual yang tidak dapat diopaque.
ISODi. 08.00 - 12.00/13.30 - 17.30
Dalam blok ini, Anda dapat melihat contoh: bagaimana untuk memastikan bahwa semua elemen memiliki teks alternatif (expand to see details).
Pengguna harus memastikan bahwa semua elemen memiliki teks alternatif dalam dokumen Word sumber:
Atau dokumen PDF output:
Deskripsi Alternate untuk Hyperlinks
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Selain titik sebelumnya, Microsoft Word dokumen juga memungkinkan pengguna untuk menambahkan teks alternatif ke hyperlink. Aspose.Words ekspor teks alternatif ke PDF output.
Sayangnya, tidak setiap aplikasi memungkinkan Anda untuk mengatur deskripsi alternatif. Sitemap Adobe Acrobat saat ini tidak memungkinkan untuk mengatur deskripsi tersebut untuk hyperlink. Login Microsoft Word, Anda dapat melakukan ini sebagai berikut:
Kadang-kadang ada masalah yang tidak mungkin untuk mengatur teks alt untuk hyperlink autogenerasi di tabel konten (TOC) melalui Microsoft Word Login Aspose.Words dapat memperbarui bidang tersebut dan menghasilkan tautan sendiri.
Ikuti contoh kode untuk memperbarui TOC
kolom menggunakan Aspose.Words Document Object Model SitemapDOMSitemap
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Kepala Meja
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Tabel dalam dokumen PDF/UA-1 harus memiliki header – kolom, baris, atau keduanya. PDF / Satu-satunya memerlukan markup tabel standar, yang tidak memiliki batasan tambahan. Login Aspose.Words menghasilkan markup tabel standar secara otomatis.
Spesifikasi memberi tahu kami rincian berikut:
Tabel harus mencakup header ... Tabel dapat berisi header kolom, header baris atau keduanya.
ISO-14289-1, 7,5
Dalam blok ini, Anda dapat melihat contoh: bagaimana mengatur header tabel (ketika melihat rincian).
header tabel dapat diatur baik sumber Microsoft Word dokumen:
Atau PDF output:
Penggantian Teks
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Spesifikasi memberi tahu kami rincian berikut:
Spesifikasi memberitahu kami sebagai berikut:
Semua elemen struktur teksal yang diwakili dengan cara non-standar, misalnya, karakter kustom atau grafis inline, harus menyediakan teks pengganti menggunakan `ActualText` masuk dalam elemen struktur kamus...
ISODi. 08.00 - 12.00/13.30 - 17.30
Microsoft Word dokumen tidak memungkinkan pengguna untuk mengatur teks pengganti. Jadi ini perlu diverifikasi dan tetap di PDF output:
Akronim dan Akronisasi Ekspansi
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
PDF/UA-1 |
Spesifikasi memberi tahu kami rincian berikut:
Semua kasus singkatan dan akronim dalam konten teks harus ditempatkan dalam urutan yang ditandai dengan tag Span yang properti E memberikan ekspansi tekstual dari singkatan atau akronim...
ISODi. 08.00 - 12.00/13.30 - 17.30
Microsoft Word dokumen tidak memungkinkan pengguna untuk mengatur singkatan dan ekspansi akronim. Jadi ini perlu diverifikasi dan tetap di PDF output:
Judul Dokumen
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
Datasheet PDF | |
PDF/UA-1 |
Dokumen di PDF/UA-1 harus memiliki judul |
Spesifikasi memberi tahu kami rincian berikut:
Spesifikasi memberitahu kami sebagai berikut:
Aliran Metadata dalam kamus katalog dc dokumen akan mengandung dc: entri judul, di mana prefiks yang disarankan untuk schema metadata Dublin Core ...
ISO-14289-1, 7.1
Dalam blok ini, Anda dapat melihat contoh: bagaimana mengatur judul dokumen (kemahan untuk melihat rincian).
Judul dokumen dapat diatur baik sumber Microsoft Word dokumen:
Atau PDF output:
Persyaratan Font
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
PDF/UA-1 |
Ada juga sejumlah nuansa bekerja dengan font ketika mengkonversi ke PDF / A-1, PDF / A-2, format PDF / A-4 atau PDF / U-1 menggunakan Aspose.WordsSitemap Mereka harus diperhitungkan jika Anda ingin menghindari kemungkinan masalah dengan dokumen output.
Bagian di bawah ini menjelaskan nuansa dan pilihan tersebut untuk solusi mereka.
Persyaratan Hukum Font
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
PDF/UA-1 |
Aspose.Words tidak memverifikasi pembatasan hukum dari font yang digunakan - itu hingga pengguna. Dengan kata lain, pengguna tidak boleh memberikan font yang tidak pantas untuk konversi PDF menggunakan Aspose.WordsSitemap
Spesifikasi memberi tahu kami rincian berikut:
Hanya program font yang secara hukum dapat diatur dalam file untuk unlimited, rendering universal akan digunakan.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (hanya kutipan yang sama dalam dua spesifikasi)
.Login Glyph
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
PDF/UA-1 |
Penggunaan .notdef
glyph dilarang. Login .notdef
glyph akan muncul jika dokumen berisi karakter yang tidak hadir dalam font yang dipilih dan yang juga tidak dapat diselesaikan melalui mekanisme Font Fallback.
Spesifikasi memberi tahu kami rincian berikut:
Dokumen yang sesuai tidak mengandung referensi ke .notdef glyph dari setiap operator yang menampilkan teks, terlepas dari mode rendering teks, dalam aliran konten apa pun.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (hanya kutipan yang sama dalam dua spesifikasi)
Dalam blok ini, Anda dapat melihat contoh: cara menghapus atau mengganti karakter ini (dan untuk melihat rincian).
Pengguna harus menghapus atau mengganti karakter ini dalam dokumen Word sumber:
Atau dokumen PDF output menggunakan alat "Edit PDF":
Area Penggunaan Pribadi (PUA)
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
Datasheet PDF | |
PDF/UA-1 |
Personal Use Area (PUA) karakter muncul sebagian besar untuk Windows font simbolik seperti “Symbol”, “Wingdings”, “Webdings”, dan lain-lain. Microsoft Word format tidak memberikan pilihan untuk menyimpan teks aktual untuk karakter.
Spesifikasi memberi tahu kami rincian berikut:
Untuk Tingkat Kesesuaian hanya, untuk karakter apa pun ... yang dipetakan ke kode atau kode di Unicode Private Use Area (PUA), entri ActualText ... akan hadir untuk karakter ini atau urutan karakter yang karakter tersebut adalah bagian.
ISODi. 08.00 - 12.00/13.30 - 17.30
“Segoe UI Simbol” adalah Windows Unicode font yang bisa digunakan sebagai alternatif untuk font simbolik.
Dalam blok ini, Anda dapat melihat contoh: apa yang harus dilakukan pengguna untuk memecahkan masalah dengan font simbolik (ketika melihat rincian).
Ganti font simbolik dengan Unicode satu dalam dokumen Word sumber:
Atau tambahkan entri ActualText ke karakter bermasalah dalam dokumen PDF output: