Bekerja dengan PDF/A atau PDF/UA
Format PDF/A dan PDF/UA memberlakukan beberapa persyaratan terkait konten dokumen yang tidak dapat dipenuhi selama konversi otomatis dari dokumen dalam format Word ke PDF. Persyaratan ini harus diverifikasi dan diperbaiki baik dalam dokumen Word sebelum konversi atau dalam dokumen PDF setelah konversi untuk menghasilkan dokumen yang sepenuhnya sesuai PDF/A dan PDF/UA.
Persyaratan dasar adalah untuk struktur atau font dokumen PDF/A dan PDF/UA, yang akan kita pertimbangkan di bagian berikut.
Persyaratan Struktur Dokumen
Persyaratan saat ini adalah untuk format PDF/A-1a, PDF/A-2a, PDF/A-4, dan PDF/UA-1.
Ada beberapa perbedaan dalam cara kerja Aspose.Words saat mengonversi ke berbagai standar format PDF. Mereka harus diperhitungkan jika Anda ingin mendapatkan hasil yang diharapkan.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Tidak disarankan bagi penulis untuk menghasilkan informasi struktural atau semantik menggunakan proses otomatis tanpa verifikasi yang tepat.
ISO 19005-2, 6.7.1
Subbagian di bawah ini menjelaskan perbedaan cara kerja Aspose.Words saat mengonversi ke berbagai standar format PDF dan opsi untuk solusinya.
Tipe Struktur
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokumen PDF merupakan rangkaian blok seperti judul, paragraf, tabel, dan lain-lain. Blok-blok ini membentuk struktur dokumen – kuat atau lemah.
Struktur kuat dan lemah keduanya valid untuk PDF/A. Dokumen Microsoft Word memiliki struktur yang lemah berdasarkan desain, dan Aspose.Words membuat PDF dengan struktur yang lemah dan juga menghasilkan judul sesuai dengan tingkat garis besar paragraf dalam dokumen sumber.
Untuk dokumen PDF/UA-1 dengan struktur yang lemah, nomor judul juga harus diurutkan tanpa celah.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Struktur tingkat blok dapat mengikuti salah satu dari dua paradigma utama:
ISO-32000-1, 14.8.4.3.5
Untuk dokumen PDF/UA-1, spesifikasinya berisi tambahan terkait level heading (perluas untuk melihat detail):
Jika semantik dokumen memerlukan urutan header yang menurun, urutan tersebut harus dilanjutkan dalam urutan numerik yang ketat dan tidak boleh melewatkan tingkat judul di antaranya. H1 H2 H3 diperbolehkan, sedangkan H1 H3 tidak.
ISO-14289-1, 7.4.2
Untuk memastikan keluaran yang benar, pengguna harus memastikan bahwa konten dokumen sumber diatur dengan benar dan tingkat kerangka paragraf ditentukan dengan benar. Jika tidak, pengguna harus memverifikasi dan memperbaiki struktur dokumen PDF keluaran.
Di blok ini, Anda dapat melihat contoh: cara mengatur level garis besar di Microsoft Word atau memeriksa dan memperbaiki struktur dokumen PDF keluaran (perluas untuk melihat detailnya).
Dalam Microsoft Word, gaya "Heading X" default dapat digunakan untuk mengatur tingkat garis besar:
Selain itu, tingkat kerangka dapat diperiksa atau diubah di jendela "Paragraf":
Di Acrobat, struktur dokumen dapat diperiksa atau diubah di panel "Tag":
Menandai Konten sebagai Artefak
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Saat ini, Aspose.Words menandai header dan footer halaman, pemisah catatan, sel header tabel berulang, dan gambar dekoratif sebagai artefak. Perhatikan bahwa daftar ini mungkin diperbarui di masa mendatang.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Objek grafik dalam dokumen dapat dibagi menjadi dua kelas:
ISO-32000-1, 14.8.2.2.1
Jika dokumen berisi konten lain yang harus ditandai sebagai artefak, atau jika konten artefak tersebut merupakan konten asli, pelanggan harus memperbaikinya di PDF keluaran.
Di blok ini, Anda dapat melihat contoh: cara menandai bentuk sebagai dekoratif di Microsoft Word atau menandai bentuk sebagai artefak di dokumen PDF keluaran (perluas untuk melihat detailnya).
Misalnya, bentuk dapat ditandai sebagai dekoratif di Microsoft Word, sehingga bentuk tersebut akan diekspor ke PDF sebagai artefak:
Anda dapat menandai bentuk sebagai artefak di keluaran PDF:
Selain itu, Anda juga dapat mengalihkan teks di header dari artefak ke konten nyata di PDF keluaran:
Spesifikasi Bahasa Alami
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Bahasa teks ditentukan dalam dokumen Microsoft Word. Aspose.Words mengekspor bahasa tertentu ke PDF keluaran dengan atribut Lang yang dilampirkan ke urutan konten yang ditandai atau tag Span – ini dikontrol oleh properti ExportLanguageToSpanTag. Secara umum tidak ada masalah bahasa ketika teks dimasukkan oleh pengguna melalui Microsoft Word. Namun ada kemungkinan bahasanya tidak akurat jika teks dibuat secara otomatis.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Bahasa alami default untuk semua teks dalam file harus ditentukan oleh entri Lang di kamus Katalog dokumen.
Semua konten tekstual dalam file yang berbeda dari bahasa default harus ditunjukkan dengan menggunakan properti `Lang` yang dilampirkan ke urutan konten yang ditandai, atau dengan entri Lang dalam kamus elemen struktur ...
ISO-19005-2, 6.7.4
Selain itu untuk PDF/UA-1, spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Bahasa alami harus diumumkan… Perubahan dalam bahasa alami harus diumumkan.
ISO-14289-1, 7.2
Di blok ini, Anda dapat melihat contoh: bagaimana memastikan bahwa bahasa ditentukan dengan benar (perluas untuk melihat detailnya).
Pengguna harus memastikan bahwa bahasa ditentukan dengan benar di dokumen sumber Word:
Atau dokumen PDF keluaran:
Keterangan Gambar
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokumen Microsoft Word memungkinkan pengguna untuk menambahkan keterangan gambar.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Judul yang menyertai gambar harus ditandai dengan tag Caption.
ISO-14289-1, 7.3
Saat ini Aspose.Words tidak dapat mengekspor teks dengan tag Caption, sehingga harus ditandai di PDF keluaran.
Di blok ini, Anda dapat melihat contoh: cara menyisipkan keterangan (perluas untuk melihat detail).
Di Microsoft Word, keterangan dapat disisipkan melalui menu konteks:
Di Acrobat, keterangannya dapat ditambahkan atau diubah melalui dialog Properti `Object`:
Deskripsi Alternatif
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokumen Microsoft Word memungkinkan pengguna menambahkan teks alternatif ke gambar, bentuk, dan tabel. Aspose.Words mengekspor teks alternatif tersebut ke PDF keluaran.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Semua elemen struktur yang isinya tidak memiliki analogi tekstual alami yang telah ditentukan sebelumnya, misalnya gambar, rumus, dll., harus menyediakan deskripsi teks alternatif menggunakan entri Alt dalam kamus elemen struktur...
CATATAN Deskripsi alternatif memberikan deskripsi tekstual yang membantu interpretasi yang tepat terhadap konten non-tekstual yang tidak jelas.
ISO-19005-2, 6.7.5
Di blok ini, Anda dapat melihat contoh: cara memastikan bahwa semua elemen memiliki teks alternatif (perluas untuk melihat detailnya).
Pengguna harus memastikan bahwa semua elemen memiliki teks alternatif di dokumen Word sumber:
Atau dokumen PDF keluaran:
Deskripsi Alternatif untuk Hyperlink
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Selain poin sebelumnya, dokumen Microsoft Word juga memungkinkan pengguna menambahkan teks alternatif ke hyperlink. Aspose.Words mengekspor teks alternatif tersebut ke PDF keluaran.
Sayangnya, tidak semua aplikasi mengizinkan Anda mengatur deskripsi alternatif. Misalnya, Adobe Acrobat saat ini tidak memungkinkan pengaturan deskripsi hyperlink seperti itu. Namun di Microsoft Word, Anda dapat melakukannya sebagai berikut:
Terkadang ada masalah yang tidak memungkinkan untuk menyetel teks alternatif untuk hyperlink yang dibuat secara otomatis di daftar isi (TOC) melalui Microsoft Word GUI. Aspose.Words dapat memperbarui kolom tersebut dan membuat tautannya sendiri.
Ikuti contoh kode untuk memperbarui kolom TOC
menggunakan Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Header Tabel
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabel dalam dokumen PDF/UA-1 harus memiliki header – kolom, baris, atau keduanya. PDF/A hanya memerlukan markup tabel standar, yang tidak memiliki batasan tambahan. Perhatikan bahwa Aspose.Words menghasilkan markup tabel standar secara otomatis.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Tabel harus menyertakan header… Tabel dapat berisi header kolom, header baris, atau keduanya.
ISO-14289-1, 7.5
Di blok ini, Anda dapat melihat contoh: cara mengatur header tabel (perluas untuk melihat detail).
Header tabel dapat diatur baik dari dokumen Microsoft Word sumber:
Atau PDF keluaran:
Teks Pengganti
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Spesifikasinya memberi tahu kita hal berikut:
Semua elemen struktur tekstual yang direpresentasikan dengan cara non-standar, misalnya karakter khusus atau grafik sebaris, harus menyediakan teks pengganti menggunakan entri `ActualText` dalam kamus elemen struktur...
ISO-19005-2, 6.7.7
Dokumen Microsoft Word tidak mengizinkan pengguna mengatur teks pengganti. Jadi ini perlu diverifikasi dan diperbaiki dalam keluaran PDF:
Singkatan dan Perluasan Akronim
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Semua contoh singkatan dan akronim dalam konten tekstual harus ditempatkan dalam urutan konten yang ditandai dengan tag Span yang properti E-nya memberikan perluasan tekstual dari singkatan atau akronim...
ISO-19005-2, 6.7.8
Dokumen Microsoft Word tidak mengizinkan pengguna untuk mengatur singkatan dan perluasan akronim. Jadi ini perlu diverifikasi dan diperbaiki dalam keluaran PDF:
Judul dokumen
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokumen dalam PDF/UA-1 harus memiliki judul |
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Spesifikasinya memberi tahu kita hal berikut:
Aliran Metadata dalam kamus katalog dokumen harus berisi entri dc:title, dengan dc adalah awalan yang direkomendasikan untuk skema metadata Dublin Core…
ISO-14289-1, 7.1
Di blok ini, Anda dapat melihat contoh: cara mengatur judul dokumen (perluas untuk melihat detail).
Judul dokumen dapat diatur baik dari dokumen Microsoft Word sumber:
Atau PDF keluaran:
Persyaratan Font
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Ada juga sejumlah nuansa dalam bekerja dengan font saat mengonversi ke format PDF/A-1, PDF/A-2, PDF/A-4 atau PDF/UA-1 menggunakan Aspose.Words. Mereka harus diperhitungkan jika Anda ingin menghindari kemungkinan masalah dengan dokumen keluaran.
Bagian di bawah ini menjelaskan nuansa dan opsi untuk solusinya.
Persyaratan Hukum Font
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words tidak memverifikasi batasan hukum font yang digunakan – terserah pengguna. Dengan kata lain, pengguna tidak boleh memberikan font yang tidak sesuai untuk konversi PDF menggunakan Aspose.Words.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Hanya program font yang secara hukum dapat tertanam dalam file untuk rendering universal tanpa batas yang boleh digunakan.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (persis tanda kutip yang sama dalam dua spesifikasi)
.notdef Glyph
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Penggunaan .notdef
glyph dilarang. .notdef
glyph akan muncul jika dokumen berisi karakter yang tidak ada dalam font yang dipilih dan juga tidak dapat diselesaikan melalui mekanisme Font Fallback.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Dokumen yang sesuai tidak boleh berisi referensi ke .notdef glyph dari operator yang menampilkan teks mana pun, apa pun mode rendering teksnya, dalam aliran konten apa pun.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (persis tanda kutip yang sama dalam dua spesifikasi)
Di blok ini, Anda dapat melihat contoh: cara menghapus atau mengganti karakter ini (perluas untuk melihat detailnya).
Pengguna harus menghapus atau mengganti karakter berikut di dokumen Word sumber:
Atau dokumen PDF keluaran menggunakan alat "Edit PDF":
Area Penggunaan Pribadi (PUA)
Tingkat kepatuhan standar PDF dalam Aspose.Words | Kehadiran persyaratan |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Karakter Area Penggunaan Pribadi (PUA) sebagian besar muncul untuk font simbolis Windows seperti “Simbol”, “Wingdings”, “Webdings”, dan lainnya. Format Microsoft Word tidak menyediakan opsi untuk menyimpan teks sebenarnya untuk karakter.
Spesifikasinya memberi tahu kita hal berikut (perluas untuk melihat detailnya):
Hanya untuk kesesuaian Level A, untuk karakter apa pun ... yang dipetakan ke kode atau kode-kode di Unicode Private Use Area (PUA), entri ActualText ... harus ada untuk karakter ini atau rangkaian karakter yang seperti itu karakter adalah bagian.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” adalah font Windows Unicode yang dapat digunakan sebagai alternatif font simbolik.
Di blok ini, Anda dapat melihat contoh: apa yang harus dilakukan pengguna untuk menyelesaikan masalah dengan font simbolik (perluas untuk melihat detailnya).
Ganti font simbolis dengan font Unicode di dokumen Word sumber:
Atau tambahkan entri ActualText ke karakter bermasalah di dokumen PDF keluaran: