کار با PDF/A یا PDF/UA
فرمت PDF/A و PDF/UA الزامات متعددی را در رابطه با محتوای سند تحمیل می کند که در طی تبدیل خودکار از یک سند با فرمت Word به PDF قابل انجام نیست. این الزامات باید در یک سند Word قبل از تبدیل یا در یک سند PDF پس از تبدیل تأیید و تصحیح شود تا یک سند کاملاً سازگار با PDF/A و PDF/UA تولید شود.
الزامات اساسی برای ساختار یا فونت های یک سند PDF/A و PDF/UA است که در بخش های بعدی به بررسی آن ها خواهیم پرداخت.
الزامات ساختار سند
الزامات فعلی برای فرمت های PDF/A-1a، PDF/A-2a، PDF/A-4 و PDF/UA-1 هستند.
نکات ظریفی در مورد نحوه عملکرد Aspose.Words هنگام تبدیل به استانداردهای مختلف فرمت PDF وجود دارد. اگر می خواهید به نتیجه مورد انتظار برسید باید آنها را در نظر گرفت.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
برای نویسندگان توصیه نمی شود که اطلاعات ساختاری یا معنایی را با استفاده از فرآیندهای خودکار و بدون تأیید مناسب تولید کنند.
ISO 19005-2، 6.7.1
بخشهای فرعی زیر تفاوتهای ظریف نحوه عملکرد Aspose.Words را هنگام تبدیل به استانداردهای مختلف فرمت PDF و گزینههایی برای راهحل آنها شرح میدهند.
نوع ساختار
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
یک سند PDF دنباله ای از بلوک ها مانند سرفصل ها، پاراگراف ها، جداول و موارد دیگر است. این بلوک ها یک ساختار سند را تشکیل می دهند - قوی یا ضعیف.
هر دو ساختار قوی و ضعیف برای PDF/A معتبر هستند. اسناد Microsoft Word از نظر طراحی ساختار ضعیفی دارند و Aspose.Words به ترتیب PDF با ساختار ضعیف ایجاد می کند و همچنین عناوین را با توجه به سطوح کلی پاراگراف ها در سند منبع ایجاد می کند.
برای یک سند PDF/UA-1 با ساختار ضعیف، علاوه بر این لازم است که اعداد عنوان بدون شکاف به ترتیب باشند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
ساختار سطح بلوک ممکن است یکی از دو پارادایم اصلی را دنبال کند:
ISO-32000-1، 14.8.4.3.5
برای اسناد PDF/UA-1، مشخصات شامل موارد اضافی مربوط به سطوح عنوان است (برای دیدن جزئیات، آن را گسترش دهید):
اگر معناشناسی سند به دنباله نزولی سرصفحه ها نیاز دارد، چنین دنباله ای باید به ترتیب عددی دقیق پیش برود و از سطح سرفصل میانی رد نشود. H1 H2 H3 جایز است، در حالی که H1 H3 جایز نیست.
ISO-14289-1، 7.4.2
برای اطمینان از خروجی صحیح، کاربران باید اطمینان حاصل کنند که محتوای سند منبع به درستی سازماندهی شده است و سطوح طرح کلی به درستی برای پاراگراف ها مشخص شده است. در غیر این صورت، کاربر باید ساختار سند PDF خروجی را بررسی و اصلاح کند.
در این بلوک، میتوانید مثالهایی را ببینید: نحوه تنظیم سطوح طرح کلی در Microsoft Word یا بررسی و اصلاح ساختار سند PDF خروجی (برای مشاهده جزئیات، آن را گسترش دهید).
در Microsoft Word می توان از سبک های پیش فرض "Heading X" برای تنظیم سطح طرح استفاده کرد:
علاوه بر این، سطح طرح کلی را می توان در پنجره "پاراگراف" بررسی یا تغییر داد:
در آکروبات، ساختار سند را می توان در قسمت "برچسب ها" بررسی یا تغییر داد:
علامت گذاری محتوا به عنوان یک مصنوع
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
در حال حاضر، Aspose.Words سرصفحهها و پاورقیهای صفحه، جداکنندههای یادداشت، سلولهای هدر جدول تکراری و تصاویر تزئینی را بهعنوان مصنوع علامتگذاری میکند. توجه داشته باشید که این لیست ممکن است در آینده به روز شود.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
اشیاء گرافیکی در یک سند را می توان به دو دسته تقسیم کرد:
ISO-32000-1، 14.8.2.2.1
اگر سندی حاوی محتوای دیگری است که باید بهعنوان مصنوع علامتگذاری شود، یا اگر هر یک از محتوای مصنوعی یک محتوای واقعی است، مشتریان باید آن را در PDF خروجی برطرف کنند.
در این بلوک، میتوانید نمونههایی را ببینید: نحوه علامتگذاری اشکال بهعنوان تزئینی در Microsoft Word یا علامتگذاری شکل بهعنوان مصنوع در سند PDF خروجی (برای مشاهده جزئیات، آن را باز کنید).
به عنوان مثال، اشکال را می توان به عنوان تزئینی در Microsoft Word علامت گذاری کرد، بنابراین آنها به عنوان یک مصنوع به PDF صادر می شوند:
می توانید شکل را به عنوان یک مصنوع در PDF خروجی علامت گذاری کنید:
همچنین، میتوانید متن را در هدر از مصنوع به محتوای واقعی در PDF خروجی تغییر دهید:
مشخصات زبان طبیعی
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
زبان متن در اسناد Microsoft Word مشخص شده است. Aspose.Words زبان مشخص شده را به یک PDF خروجی با ویژگی Lang متصل به یک توالی محتوای علامتگذاری شده یا یک تگ Span صادر میکند - توسط ویژگی ExportLanguageToSpanTag کنترل میشود. معمولاً هنگام وارد کردن متن توسط کاربر از طریق Microsoft Word هیچ مشکلی در زبان وجود ندارد. اما این احتمال وجود دارد که اگر متن به صورت خودکار تولید شود، زبان ممکن است نادرست باشد.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
زبان طبیعی پیشفرض برای تمام متنهای یک فایل باید با ورودی Lang در فرهنگ لغت کاتالوگ سند مشخص شود.
تمام محتوای متنی درون یک فایل که با زبان پیشفرض متفاوت است، باید با استفاده از ویژگی `Lang` متصل به دنباله محتوای علامتگذاریشده، یا با ورودی Lang در فرهنگ لغت عنصر ساختار نشان داده شود.
ISO-19005-2، 6.7.4
علاوه بر این برای PDF/UA-1، مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
زبان طبیعی باید اعلام شود... تغییرات در زبان طبیعی باید اعلام شود.
ISO-14289-1، 7.2
در این بلوک، میتوانید نمونههایی را مشاهده کنید: نحوه اطمینان از اینکه زبان به درستی مشخص شده است (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید اطمینان حاصل کنند که زبان به درستی در سند منبع Word مشخص شده است:
یا سند PDF خروجی:
شرح تصویر
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
اسناد Microsoft Word به کاربران این امکان را می دهد که شرح شکل را اضافه کنند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
عنوانی که یک شکل را همراهی می کند باید با برچسب عنوان برچسب گذاری شود.
ISO-14289-1، 7.3
در حال حاضر Aspose.Words نمیتواند زیرنویسها را با برچسب Caption صادر کند، بنابراین باید در PDF خروجی پرچمگذاری شوند.
در این بلوک میتوانید نمونههایی را مشاهده کنید: نحوه درج عنوان (برای مشاهده جزئیات، آن را گسترش دهید).
در Microsoft Word، عنوان را می توان از طریق منوی زمینه درج کرد:
در Acrobat می توان عنوان را از طریق گفتگوی ویژگی های `Object` اضافه یا تغییر داد:
توضیحات جایگزین
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
اسناد Microsoft Word به کاربران این امکان را می دهد که متن جایگزینی را به تصاویر، اشکال و جداول اضافه کنند. Aspose.Words چنین متن جایگزینی را به PDF خروجی صادر می کند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
همه عناصر ساختاری که محتوای آنها دارای آنالوگ متنی از پیش تعیین شده طبیعی نیست، به عنوان مثال، تصاویر، فرمولها و غیره، باید با استفاده از ورودی Alt در فرهنگ لغت عناصر ساختار، توضیحات متنی جایگزین ارائه کنند...
توجه: توضیحات جایگزین، توضیحات متنی را ارائه میکنند که به تفسیر مناسب محتوای غیرمتن غیرشفاف کمک میکند.
ISO-19005-2، 6.7.5
در این بلوک، میتوانید مثالهایی را ببینید: چگونه میتوان مطمئن شد که همه عناصر دارای یک متن جایگزین هستند (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید اطمینان حاصل کنند که همه عناصر دارای یک متن جایگزین در سند منبع Word هستند:
یا سند PDF خروجی:
توضیحات جایگزین برای هایپرلینک ها
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
علاوه بر نکته قبلی، اسناد Microsoft Word همچنین به کاربران اجازه می دهد تا متن جایگزین را به لینک ها اضافه کنند. Aspose.Words چنین متن جایگزینی را به PDF خروجی صادر می کند.
متأسفانه، هر برنامه ای به شما اجازه نمی دهد که یک توضیح جایگزین تنظیم کنید. به عنوان مثال، Adobe Acrobat در حال حاضر تنظیم چنین توصیفی را برای لینک ها فعال نمی کند. اما در Microsoft Word می توانید این کار را به صورت زیر انجام دهید:
گاهی اوقات مشکلی وجود دارد که امکان تنظیم متن جایگزین برای لینکهای خودکار تولید شده در فهرست مطالب (TOC) از طریق رابط کاربری گرافیکی Microsoft Word وجود ندارد. Aspose.Words می تواند چنین فیلدهایی را به روز کند و پیوندها را به تنهایی ایجاد کند.
برای به روز رسانی فیلدهای TOC
با استفاده از Aspose.Words Document Object Model (DOM) مثال کد را دنبال کنید:
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
سربرگ های جدول
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
جداول در اسناد PDF/UA-1 باید دارای سرصفحه – ستون، ردیف یا هر دو باشند. PDF/A فقط به نشانه گذاری جدول استاندارد نیاز دارد که هیچ محدودیت اضافی ندارد. توجه داشته باشید که Aspose.Words نشانه گذاری جدول استاندارد را به طور خودکار ایجاد می کند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
جداول باید شامل سرصفحه باشند... جداول می توانند شامل سرصفحه ستون، سرصفحه ردیف یا هر دو باشند.
ISO-14289-1، 7.5
در این بلوک میتوانید مثالهایی را مشاهده کنید: نحوه تنظیم هدر جدول (برای دیدن جزئیات، آن را گسترش دهید).
سرصفحه جدول را می توان با سند منبع Microsoft Word تنظیم کرد:
یا پی دی اف خروجی:
متن جایگزین
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
مشخصات موارد زیر را به ما می گوید:
تمام عناصر ساختار متنی که به صورت غیر استاندارد نشان داده می شوند، به عنوان مثال، کاراکترهای سفارشی یا گرافیک های درون خطی، باید متن جایگزین را با استفاده از ورودی `ActualText` در فرهنگ لغت عناصر ساختار ارائه دهند...
ISO-19005-2، 6.7.7
سند Microsoft Word به کاربران اجازه تنظیم متن جایگزین را نمی دهد. بنابراین این باید در PDF خروجی تأیید و رفع شود:
اختصارات و کلمات اختصاری بسط
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
تمام نمونههای اختصارات و کلمات اختصاری در محتوای متنی باید در یک دنباله محتوای مشخص شده با یک تگ Span قرار گیرند که خاصیت E آن بسط متنی مخفف یا مخفف را ارائه میدهد...
ISO-19005-2، 6.7.8
سند Microsoft Word به کاربران اجازه نمی دهد اختصارات و بسط های اختصاری را تنظیم کنند. بنابراین این باید در PDF خروجی تأیید و رفع شود:
عنوان سند
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
سند PDF/UA-1 باید دارای عنوان باشد |
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
مشخصات موارد زیر را به ما می گوید:
جریان فراداده در فرهنگ لغت کاتالوگ سند باید حاوی یک ورودی dc:title باشد که در آن dc پیشوند توصیه شده برای طرح ابرداده هسته دوبلین است…
ISO-14289-1، 7.1
در این بلوک، می توانید مثال هایی را مشاهده کنید: نحوه تنظیم عنوان سند (برای مشاهده جزئیات، آن را گسترش دهید).
عنوان سند را می توان با سند منبع Microsoft Word تنظیم کرد:
یا پی دی اف خروجی:
مورد نیاز فونت
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
همچنین هنگام تبدیل به فرمتهای PDF/A-1، PDF/A-2، PDF/A-4 یا PDF/UA-1 با استفاده از Aspose.Words، تفاوتهای ظریف کار با فونتها وجود دارد. اگر می خواهید از مشکلات احتمالی سند خروجی جلوگیری کنید، باید آنها را در نظر گرفت.
بخش های زیر چنین تفاوت های ظریف و گزینه هایی را برای حل آنها شرح می دهد.
الزامات قانونی فونت
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words محدودیت های قانونی فونت های استفاده شده را تأیید نمی کند - این به عهده کاربران است. به عبارت دیگر، کاربر نباید فونت های نامناسبی را برای تبدیل PDF با استفاده از Aspose.Words ارائه کند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
فقط برنامه های فونتی که به طور قانونی در یک فایل برای رندر نامحدود و جهانی قابل جاسازی هستند باید استفاده شوند.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1، 7.21.4.1 (دقیقاً همان نقل قول ها در دو مشخصات)
notdef Glyph
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
استفاده از .notdef
glyph ممنوع است. اگر سندی حاوی کاراکترهایی باشد که در فونت انتخاب شده وجود ندارند و همچنین نمی توان آنها را از طریق مکانیسم Font Fallback حل کرد، .notdef
glyph ظاهر می شود.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
یک سند منطبق نباید حاوی ارجاع به .notdef glyph از هیچ یک از متنی که اپراتورها را نشان می دهد، صرف نظر از حالت رندر متن، در جریان محتوا باشد.
ISO-19005-2, 6.2.11.8; ISO-14289-1، 7.21.8 (دقیقاً همان نقل قول ها در دو مشخصات)
در این بلوک، می توانید مثال هایی را مشاهده کنید: نحوه حذف یا جایگزینی این کاراکترها (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید این کاراکترها را در سند منبع Word حذف یا جایگزین کنند:
یا سند PDF خروجی با استفاده از ابزار "Edit PDF":
منطقه کاربری خصوصی (PUA)
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
نویسههای منطقه استفاده خصوصی (PUA) بیشتر برای فونتهای نمادین Windows مانند “Symbol”، “Wingdings”، “Webdings” و موارد دیگر ظاهر میشوند. فرمت های Microsoft Word گزینه ای برای ذخیره متن واقعی برای کاراکترها ارائه نمی دهند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
فقط برای انطباق سطح A، برای هر کاراکتری ... که به کد یا کدهایی در منطقه استفاده خصوصی یونیکد (PUA) نگاشت شده است، یک ورودی ActualText ... باید برای این کاراکتر یا دنباله ای از کاراکترها وجود داشته باشد. یک شخصیت بخشی است
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” یک فونت Windows Unicode است که می تواند به عنوان جایگزینی برای فونت های نمادین استفاده شود.
در این بلوک میتوانید مثالهایی را مشاهده کنید: کاربر برای حل مشکل با فونتهای نمادین چه کاری باید انجام دهد (برای دیدن جزئیات باز کنید).
فونت نمادین را با یک یونیکد در سند منبع Word جایگزین کنید:
یا یک ورودی ActualText به کاراکترهای مشکل ساز در سند PDF خروجی اضافه کنید: