การทำงานกับ PDF/A หรือ PDF/UA

รูปแบบ PDF/A และ PDF/UA กำหนดข้อกำหนดหลายประการที่เกี่ยวข้องกับเนื้อหาเอกสารที่ไม่สามารถทำได้ในระหว่างการแปลงอัตโนมัติจากเอกสารในรูปแบบ Word เป็น PDF ข้อกำหนดเหล่านี้ควรได้รับการตรวจสอบและแก้ไขในเอกสาร Word ก่อนการแปลงหรือในเอกสาร PDF หลังการแปลง เพื่อสร้างเอกสารที่สอดคล้องกับมาตรฐาน PDF/A และ PDF/UA อย่างสมบูรณ์

ข้อกำหนดพื้นฐานสำหรับโครงสร้างหรือแบบอักษรของเอกสาร PDF/A และ PDF/UA ซึ่งเราจะพิจารณาในส่วนต่อไปนี้

ข้อกำหนดโครงสร้างเอกสาร

ข้อกำหนดปัจจุบันมีไว้สำหรับรูปแบบ PDF/A-1a, PDF/A-2a, PDF/A-4 และ PDF/UA-1

มีความแตกต่างบางประการเกี่ยวกับวิธีการทำงานของ Aspose.Words เมื่อแปลงเป็นรูปแบบ PDF มาตรฐานต่างๆ จะต้องนำมาพิจารณาหากคุณต้องการได้รับผลลัพธ์ที่คาดหวัง

ส่วนย่อยด้านล่างอธิบายความแตกต่างของวิธีการทำงานของ Aspose.Words เมื่อแปลงเป็นรูปแบบ PDF มาตรฐานต่างๆ และตัวเลือกสำหรับโซลูชัน

ประเภทโครงสร้าง

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

เอกสาร PDF คือลำดับของบล็อกต่างๆ เช่น หัวเรื่อง ย่อหน้า ตาราง และอื่นๆ บล็อกเหล่านี้ก่อให้เกิดโครงสร้างเอกสาร - รุนแรงหรืออ่อนแอ

โครงสร้างทั้งที่แข็งแกร่งและอ่อนแอนั้นใช้ได้กับ PDF/A เอกสาร Microsoft Word มีโครงสร้างที่ไม่รัดกุมตามการออกแบบ และ Aspose.Words จะสร้าง PDF ที่มีโครงสร้างที่ไม่รัดกุมตามลำดับ และยังสร้างส่วนหัวตามระดับเค้าร่างของย่อหน้าในเอกสารต้นฉบับอีกด้วย

สำหรับเอกสาร PDF/UA-1 ที่มีโครงสร้างที่ไม่รัดกุม จำเป็นต้องเพิ่มเติมหมายเลขหัวข้อตามลำดับโดยไม่มีช่องว่าง

เพื่อให้แน่ใจว่าผลลัพธ์ถูกต้อง ผู้ใช้ต้องแน่ใจว่าเนื้อหาเอกสารต้นฉบับได้รับการจัดระเบียบอย่างเหมาะสมและมีการระบุระดับเค้าร่างสำหรับย่อหน้าอย่างถูกต้อง มิฉะนั้น ผู้ใช้ควรตรวจสอบและแก้ไขโครงสร้างของเอกสาร PDF เอาท์พุต

การทำเครื่องหมายเนื้อหาว่าเป็นสิ่งประดิษฐ์

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

ในขณะนี้ Aspose.Words ทำเครื่องหมายส่วนหัวและส่วนท้ายของหน้า ตัวคั่นบันทึกย่อ เซลล์ส่วนหัวของตารางที่ทำซ้ำ และรูปภาพตกแต่งเป็นสิ่งประดิษฐ์ โปรดทราบว่ารายการนี้อาจมีการอัปเดตในอนาคต

หากเอกสารมีเนื้อหาอื่นใดที่ควรทำเครื่องหมายว่าเป็นอาร์ติแฟกต์ หรือหากเนื้อหาอาร์ติแฟกต์เป็นเนื้อหาจริง ลูกค้าควรแก้ไขสิ่งนั้นในเอาต์พุต PDF

ข้อกำหนดภาษาธรรมชาติ

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

ภาษาของข้อความระบุไว้ในเอกสาร Microsoft Word Aspose.Words ส่งออกภาษาที่ระบุไปยังเอาต์พุต PDF โดยมีแอตทริบิวต์ Lang ที่แนบมากับลำดับเนื้อหาที่ทำเครื่องหมายไว้หรือแท็ก Span ซึ่งควบคุมโดยคุณสมบัติ ExportLanguageToSpanTag โดยทั่วไปจะไม่มีปัญหาด้านภาษาเมื่อผู้ใช้ป้อนข้อความผ่าน Microsoft Word แต่มีความเป็นไปได้ที่ภาษาอาจไม่ถูกต้องหากข้อความถูกสร้างขึ้นโดยอัตโนมัติ

คำบรรยายรูป

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

เอกสาร Microsoft Word อนุญาตให้ผู้ใช้เพิ่มคำบรรยายภาพ

ปัจจุบัน Aspose.Words ไม่สามารถส่งออกคำบรรยายด้วยแท็กคำบรรยายได้ ดังนั้นจึงต้องทำเครื่องหมายในเอาต์พุต PDF

คำอธิบายสำรอง

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

เอกสาร Microsoft Word อนุญาตให้ผู้ใช้เพิ่มข้อความแสดงแทนให้กับรูปภาพ รูปร่าง และตารางได้ Aspose.Words ส่งออกข้อความสำรองดังกล่าวไปยังเอาต์พุต PDF

คำอธิบายสำรองสำหรับไฮเปอร์ลิงก์

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

นอกเหนือจากประเด็นก่อนหน้า เอกสาร Microsoft Word ยังอนุญาตให้ผู้ใช้เพิ่มข้อความอื่นลงในไฮเปอร์ลิงก์ได้ Aspose.Words ส่งออกข้อความสำรองดังกล่าวไปยังเอาต์พุต PDF

ขออภัย ไม่ใช่ทุกแอปพลิเคชันจะอนุญาตให้คุณตั้งค่าคำอธิบายสำรองได้ ตัวอย่างเช่น ปัจจุบัน Adobe Acrobat ยังไม่เปิดใช้งานการตั้งค่าคำอธิบายสำหรับไฮเปอร์ลิงก์ แต่ใน Microsoft Word คุณสามารถทำได้ดังนี้:

คำอธิบายทางเลือก-ไฮเปอร์ลิงก์-mw

บางครั้งมีปัญหาที่ไม่สามารถตั้งค่าข้อความแสดงแทนสำหรับไฮเปอร์ลิงก์ที่สร้างอัตโนมัติในสารบัญ (TOC) ผ่าน Microsoft Word GUI Aspose.Words สามารถอัปเดตฟิลด์ดังกล่าวและสร้างลิงก์ได้ด้วยตัวเอง

ทำตามตัวอย่างโค้ดเพื่ออัปเดตช่อง TOC โดยใช้ Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

ส่วนหัวของตาราง

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

ตารางในเอกสาร PDF/UA-1 ต้องมีส่วนหัว ได้แก่ คอลัมน์ แถว หรือทั้งสองอย่าง PDF/A ต้องการเพียงมาร์กอัปตารางมาตรฐานเท่านั้น ซึ่งไม่มีข้อจำกัดเพิ่มเติม โปรดทราบว่า Aspose.Words จะสร้างมาร์กอัปตารางมาตรฐานโดยอัตโนมัติ

ข้อความแทนที่

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

เอกสาร Microsoft Word ไม่อนุญาตให้ผู้ใช้ตั้งค่าข้อความทดแทน ดังนั้นสิ่งนี้จะต้องได้รับการตรวจสอบและแก้ไขในเอาต์พุต PDF:

Acrobatข้อความทดแทน

คำย่อและการขยายคำย่อ

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

เอกสาร Microsoft Word ไม่อนุญาตให้ผู้ใช้ตั้งค่าตัวย่อและการขยายตัวย่อ ดังนั้นสิ่งนี้จะต้องได้รับการตรวจสอบและแก้ไขในเอาต์พุต PDF:

AcrobatSplitAddExpansionText

ชื่อเอกสาร

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
เอกสารในรูปแบบ PDF/UA-1 ควรมีชื่อเรื่อง

ข้อกำหนดแบบอักษร

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

นอกจากนี้ยังมีความแตกต่างหลายประการในการทำงานกับแบบอักษรเมื่อแปลงเป็นรูปแบบ PDF/A-1, PDF/A-2, PDF/A-4 หรือ PDF/UA-1 โดยใช้ Aspose.Words ต้องคำนึงถึงสิ่งเหล่านี้หากคุณต้องการหลีกเลี่ยงปัญหาที่อาจเกิดขึ้นกับเอกสารเอาต์พุต

หัวข้อด้านล่างนี้อธิบายความแตกต่างและตัวเลือกสำหรับการแก้ปัญหา

ข้อกำหนดทางกฎหมายของแบบอักษร

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words ไม่ได้ตรวจสอบข้อจำกัดทางกฎหมายของแบบอักษรที่ใช้ – ขึ้นอยู่กับผู้ใช้ กล่าวอีกนัยหนึ่ง ผู้ใช้ไม่ควรจัดเตรียมแบบอักษรที่ไม่เหมาะสมสำหรับการแปลง PDF โดยใช้ Aspose.Words

.notdef Glyph

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

ห้ามใช้ .notdef glyph .notdef glyph จะปรากฏขึ้นหากเอกสารมีอักขระที่ไม่ปรากฏในแบบอักษรที่เลือก และไม่สามารถแก้ไขได้ผ่านกลไกทางเลือกแบบอักษร

พื้นที่ใช้งานส่วนตัว (PUA)

ระดับการปฏิบัติตามมาตรฐาน PDF ภายใน Aspose.Words การปรากฏตัวของความต้องการ
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

อักขระ Private Use Area (PUA) ส่วนใหญ่จะปรากฏสำหรับแบบอักษรสัญลักษณ์ Windows เช่น “Symbol”, “Wingdings”, “Webdings” และอื่นๆ รูปแบบ Microsoft Word ไม่มีตัวเลือกในการจัดเก็บข้อความจริงสำหรับอักขระ

“Segoe UI Symbol” เป็นแบบอักษร Windows Unicode ซึ่งสามารถใช้เป็นทางเลือกแทนแบบอักษรสัญลักษณ์ได้