Bekerja dengan PDF/Aatau PDF/UA
Format PDF/A dan PDF/UA memberlakukan beberapa persyaratan terkait konten dokumen yang tidak dapat dipenuhi selama konversi otomatis dari dokumen dalam format Word menjadi PDF. Persyaratan ini harus diverifikasi dan dikoreksi baik dalam dokumen Word sebelum konversi atau dalam dokumen PDF setelah konversi untuk menghasilkan dokumen yang sepenuhnya sesuai dengan PDF/A dan PDF/UA.
Persyaratan dasar adalah untuk struktur atau font dokumen PDF/A dan PDF/UA, yang akan kita bahas di bagian berikut.
Persyaratan Struktur Dokumen
Persyaratan saat ini adalah untuk PDF/A-1a, PDF/A-2a, PDF/A-4, dan format PDF/UA-1.
Ada beberapa nuansa tentang cara kerja Aspose.Words saat mengonversi ke berbagai standar format PDF. Mereka harus diperhitungkan jika Anda ingin mendapatkan hasil yang diharapkan.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Tidak disarankan bagi penulis untuk menghasilkan informasi struktural atau semantik menggunakan proses otomatis tanpa verifikasi yang sesuai.
ISO 19005-2, 6.7.1
Subbagian di bawah ini menjelaskan nuansa cara kerja Aspose.Words saat mengonversi ke berbagai standar format PDF dan opsi untuk solusinya.
Tipe Struktur
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokumen PDF adalah urutan blok seperti judul, paragraf, tabel, dan lainnya. Blok-blok ini membentuk struktur dokumen-kuat atau lemah.
Struktur kuat dan lemah berlaku untuk PDF/A. dokumen Microsoft Word memiliki struktur yang lemah menurut desain, dan Aspose.Words membuat PDF dengan struktur yang lemah masing-masing dan juga menghasilkan judul sesuai dengan tingkat garis besar paragraf dalam dokumen sumber.
Untuk dokumen PDF/UA-1 dengan struktur yang lemah, nomor heading juga harus berurutan tanpa celah.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Struktur tingkat blok dapat mengikuti salah satu dari dua paradigma utama:
ISO-32000-1, 14.8.4.3.5
Untuk dokumen PDF/UA-1, spesifikasi berisi tambahan yang terkait dengan level heading (perluas untuk melihat detailnya):
Jika semantik dokumen memerlukan urutan header yang menurun, urutan tersebut harus dilanjutkan dalam urutan numerik yang ketat dan tidak boleh melewati level heading yang mengintervensi. H1 H2 H3 diperbolehkan, sedangkan H1 H3 tidak.
ISO-14289-1, 7.4.2
Untuk memastikan keluaran yang benar, pengguna harus memastikan bahwa konten dokumen sumber diatur dengan benar dan tingkat kerangka ditentukan dengan benar untuk paragraf. Jika tidak, pengguna harus memverifikasi dan memperbaiki struktur dokumen keluaran PDF.
Di blok ini, Anda dapat melihat contoh: cara mengatur level outline di Microsoft Word atau memeriksa dan memperbaiki struktur dokumen output PDF (perluas untuk melihat detailnya).
Dalam gaya Microsoft Word default "Heading X" dapat digunakan untuk mengatur level outline:
Selain itu, level outline dapat dicentang atau diubah di jendela "Paragraph":
Di Acrobat, struktur dokumen dapat dicentang atau diubah di panel "Tag":
Menandai Konten sebagai Artefak
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Saat ini, Aspose.Words menandai header dan footer halaman, pemisah catatan, sel header tabel berulang, dan gambar dekoratif sebagai artefak. Perhatikan bahwa daftar ini dapat diperbarui di masa mendatang.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Objek grafik dalam dokumen dapat dibagi menjadi dua kelas:
ISO-32000-1, 14.8.2.2.1
Jika dokumen berisi konten lain yang harus ditandai sebagai artefak, atau jika salah satu konten artefak adalah konten asli, pelanggan harus memperbaikinya di output PDF.
Di blok ini, Anda dapat melihat contoh: cara menandai bentuk sebagai dekoratif di Microsoft Word atau menandai bentuk sebagai artefak di dokumen keluaran PDF (perluas untuk melihat detailnya).
Misalnya, bentuk dapat ditandai sebagai dekoratif di Microsoft Word, sehingga akan diekspor ke PDF sebagai artefak:
Anda dapat menandai bentuk sebagai artefak di output PDF:
Selain itu, Anda dapat mengalihkan teks di header dari artefak ke konten nyata di output PDF:
Spesifikasi Bahasa Alami
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Bahasa teks ditentukan dalam dokumen Microsoft Word. Aspose.Words mengekspor bahasa yang ditentukan ke keluaran PDF dengan atribut Lang yang dilampirkan ke urutan konten yang ditandai atau tag Rentang-ini dikendalikan oleh properti ExportLanguageToSpanTag. Umumnya tidak ada masalah bahasa saat teks dimasukkan oleh pengguna melalui Microsoft Word. Namun ada kemungkinan bahasanya mungkin tidak akurat jika teks dibuat secara otomatis.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Bahasa alami default untuk semua teks dalam file harus ditentukan oleh entri Lang di kamus Katalog dokumen.
Semua konten tekstual dalam file yang berbeda dari bahasa default harus ditunjukkan dengan menggunakan properti `Lang` yang dilampirkan ke urutan konten yang ditandai, atau dengan entri Lang dalam kamus elemen struktur ...
ISO-19005-2, 6.7.4
Selain itu untuk PDF/UA-1, spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Bahasa alami harus dideklarasikan ... Perubahan dalam bahasa alami harus dideklarasikan.
ISO-14289-1, 7.2
Di blok ini, Anda dapat melihat contoh: cara memastikan bahwa bahasa ditentukan dengan benar (perluas untuk melihat detailnya).
Pengguna harus memastikan bahwa bahasa tersebut ditentukan dengan benar di salah satu dokumen sumber Word:
Atau dokumen keluaran PDF:
Keterangan Gambar
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumen memungkinkan pengguna untuk menambahkan keterangan gambar.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Keterangan yang menyertai gambar harus diberi tag dengan tag Keterangan.
ISO-14289-1, 7.3
Saat ini Aspose.Words tidak dapat mengekspor teks dengan tag Teks, jadi teks tersebut harus ditandai di output PDF.
Di blok ini, Anda dapat melihat contoh: cara menyisipkan teks (perluas untuk melihat detail).
Dalam Microsoft Word, teks dapat disisipkan melalui menu konteks:
Di Acrobat, teks dapat ditambahkan atau diubah melalui dialog Properti `Object`:
Deskripsi Alternatif
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumen memungkinkan pengguna menambahkan teks alternatif ke gambar, bentuk, dan tabel. Aspose.Words mengekspor teks alternatif tersebut ke keluaran PDF.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Semua elemen struktur yang isinya tidak memiliki analogi tekstual alami yang telah ditentukan sebelumnya, mis. gambar, rumus, dll., harus memberikan deskripsi teks alternatif menggunakan entri Alt dalam kamus elemen struktur...
NOTE Deskripsi alternatif memberikan deskripsi tekstual yang membantu interpretasi yang tepat dari konten non-tekstual yang tidak jelas.
ISO-19005-2, 6.7.5
Di blok ini, Anda dapat melihat contoh: cara memastikan bahwa semua elemen memiliki teks alternatif (perluas untuk melihat detail).
Pengguna harus memastikan bahwa semua elemen memiliki teks alternatif di salah satu dokumen sumber Word:
Atau dokumen keluaran PDF:
Deskripsi Alternatif untuk Hyperlink
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Selain poin sebelumnya, dokumen Microsoft Word juga memungkinkan pengguna menambahkan teks alternatif ke hyperlink. Aspose.Words mengekspor teks alternatif tersebut ke keluaran PDF.
Sayangnya, tidak semua aplikasi memungkinkan Anda menyiapkan deskripsi alternatif. Misalnya, Adobe Acrobat saat ini tidak memungkinkan untuk menyiapkan deskripsi seperti itu untuk hyperlink. Tetapi dalam Microsoft Word, Anda dapat melakukannya sebagai berikut:
Terkadang ada masalah bahwa tidak mungkin menyetel teks alternatif untuk hyperlink yang dibuat secara otomatis dalam daftar isi (TOC) melalui Microsoft Word GUI. Aspose.Words dapat memperbarui bidang tersebut dan membuat tautannya sendiri.
Ikuti contoh kode untuk memperbarui bidang TOC
menggunakan Model Objek Dokumen Aspose.Words (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Header Tabel
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabel dalam dokumen PDF/UA-1 harus memiliki header-kolom, baris, atau keduanya. PDF/A hanya memerlukan markup tabel standar, yang tidak memiliki batasan tambahan. Perhatikan bahwa Aspose.Words menghasilkan markup tabel standar secara otomatis.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Tabel harus menyertakan header... Tabel dapat berisi header kolom, header baris, atau keduanya.
ISO-14289-1, 7.5
Di blok ini, Anda dapat melihat contoh: cara mengatur header tabel (perluas untuk melihat detail).
Header tabel dapat diatur baik dokumen sumber Microsoft Word:
Atau outputnya PDF:
Teks Pengganti
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Spesifikasi tersebut memberi tahu kita hal-hal berikut:
Semua elemen struktur tekstual yang direpresentasikan dengan cara yang tidak standar, mis., karakter khusus atau grafik sebaris, harus menyediakan teks pengganti menggunakan entri `ActualText` dalam kamus elemen struktur...
ISO-19005-2, 6.7.7
Microsoft Word dokumen tidak mengizinkan pengguna menyetel teks pengganti. Jadi ini perlu diverifikasi dan diperbaiki dalam output PDF:
Singkatan dan Akronim Ekspansi
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Semua contoh singkatan dan akronim dalam konten tekstual harus ditempatkan dalam urutan konten yang ditandai dengan tag Rentang yang properti E-nya memberikan perluasan tekstual dari singkatan atau akronim tersebut...
ISO-19005-2, 6.7.8
Microsoft Word dokumen tidak mengizinkan pengguna untuk mengatur perluasan singkatan dan akronim. Jadi ini perlu diverifikasi dan diperbaiki dalam output PDF:
Judul Dokumen
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokumen dalam PDF/UA-1 harus memiliki judul. |
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Spesifikasi tersebut memberi tahu kita hal-hal berikut:
Aliran metadata dalam kamus katalog dokumen harus berisi entri dc: title, di mana dc adalah awalan yang disarankan untuk skema metadata Dublin Core…
ISO-14289-1, 7.1
Di blok ini, Anda dapat melihat contoh: cara mengatur judul dokumen (perluas untuk melihat detail).
Judul dokumen dapat diatur baik dokumen sumber Microsoft Word:
Atau outputnya PDF:
Persyaratan Fonta
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Ada juga sejumlah nuansa bekerja dengan font saat mengonversi ke PDF/A-1, PDF/A-2, PDF/A-4 atau format PDF/UA-1 menggunakan Aspose.Words. Mereka harus diperhitungkan jika Anda ingin menghindari kemungkinan masalah dengan dokumen keluaran.
Bagian di bawah ini menjelaskan nuansa dan opsi seperti itu untuk solusinya.
Persyaratan Hukum Font
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words tidak memverifikasi batasan hukum dari font yang digunakan-terserah pengguna. Dengan kata lain, pengguna tidak boleh menyediakan font yang tidak sesuai untuk konversi PDF menggunakan Aspose.Words.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Hanya program font yang dapat disematkan secara legal dalam file untuk rendering universal tanpa batas yang boleh digunakan.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (kutipan yang sama persis dalam dua spesifikasi)
.notdef Glyph
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Penggunaan mesin terbang .notdef
dilarang. Mesin terbang .notdef
akan muncul jika dokumen berisi karakter yang tidak ada dalam font yang dipilih dan yang juga tidak dapat diselesaikan melalui mekanisme Fallback Font.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Dokumen yang sesuai tidak boleh berisi referensi ke .notdef glyph dari teks mana pun yang menampilkan operator, terlepas dari mode rendering teks, dalam aliran konten apa pun.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (kutipan yang sama persis dalam dua spesifikasi)
Di blok ini, Anda dapat melihat contoh: cara menghapus atau mengganti karakter ini (perluas untuk melihat detailnya).
Pengguna harus menghapus atau mengganti karakter ini di salah satu dokumen sumber Word:
Atau dokumen keluaran PDF menggunakan alat " Edit PDF":
Area Penggunaan Pribadi (PUA)
PDF tingkat kepatuhan standar dalam Aspose.Words | Adanya persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Karakter Private Use Area (PUA) sebagian besar muncul untuk font simbolik Windows seperti “Symbol”, “Wingdings”, “Webdings”, dan lainnya. Format Microsoft Word tidak menyediakan opsi untuk menyimpan teks aktual untuk karakter.
Spesifikasi memberi tahu kami hal berikut (perluas untuk melihat detailnya):
Untuk kesesuaian Level A saja, untuk karakter apa pun ... itu dipetakan ke kode atau kode di Area Penggunaan Pribadi Unicode (PUA), entri ActualText... harus ada untuk karakter ini atau urutan karakter yang menjadi bagian dari karakter tersebut.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” adalah font Unicode Windows yang dapat digunakan sebagai alternatif font simbolik.
Di blok ini, Anda dapat melihat contoh: apa yang harus dilakukan pengguna untuk menyelesaikan masalah dengan font simbolik (perluas untuk melihat detailnya).
Ganti font simbolik dengan font Unicode di dokumen sumber Word:
Atau tambahkan entri ActualText ke karakter bermasalah dalam dokumen PDF keluaran: