کار با PDF/A یا PDF/UA
فرمت PDF/A و PDF/UA الزامات متعددی را در رابطه با محتوای سند تحمیل می کند که در طی تبدیل خودکار از یک سند با فرمت Word به PDF قابل انجام نیست. این الزامات باید در یک سند Word قبل از تبدیل یا در یک سند PDF پس از تبدیل تأیید و تصحیح شود تا یک سند کاملاً سازگار با PDF/A و PDF/UA تولید شود.
الزامات اساسی برای ساختار یا فونت های یک سند PDF/A و PDF/UA است که در بخش های بعدی به بررسی آن ها خواهیم پرداخت.
الزامات ساختار سند
الزامات فعلی برای فرمت های PDF/A-1a، PDF/A-2a، PDF/A-4 و PDF/UA-1 هستند.
نکات ظریفی در مورد نحوه عملکرد Aspose.Words هنگام تبدیل به استانداردهای مختلف فرمت PDF وجود دارد. اگر می خواهید به نتیجه مورد انتظار برسید باید آنها را در نظر گرفت.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
برای نویسندگان توصیه نمی شود که اطلاعات ساختاری یا معنایی را با استفاده از فرآیندهای خودکار و بدون تأیید مناسب تولید کنند.
ISO 19005-2، 6.7.1
بخشهای فرعی زیر تفاوتهای ظریف نحوه عملکرد Aspose.Words را هنگام تبدیل به استانداردهای مختلف فرمت PDF و گزینههایی برای راهحل آنها شرح میدهند.
نوع ساختار
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
یک سند PDF دنباله ای از بلوک ها مانند سرفصل ها، پاراگراف ها، جداول و موارد دیگر است. این بلوک ها یک ساختار سند را تشکیل می دهند - قوی یا ضعیف.
هر دو ساختار قوی و ضعیف برای PDF/A معتبر هستند. اسناد Microsoft Word از نظر طراحی ساختار ضعیفی دارند و Aspose.Words به ترتیب PDF با ساختار ضعیف ایجاد می کند و همچنین عناوین را با توجه به سطوح کلی پاراگراف ها در سند منبع ایجاد می کند.
برای یک سند PDF/UA-1 با ساختار ضعیف، علاوه بر این لازم است که اعداد عنوان بدون شکاف به ترتیب باشند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
ساختار سطح بلوک ممکن است یکی از دو پارادایم اصلی را دنبال کند:
ISO-32000-1، 14.8.4.3.5
برای اسناد PDF/UA-1، مشخصات شامل موارد اضافی مربوط به سطوح عنوان است (برای دیدن جزئیات، آن را گسترش دهید):
اگر معناشناسی سند مستلزم یک دنباله نزولی از سرصفحه ها باشد، چنین دنباله ای باید به ترتیب عددی دقیق پیش برود و نباید از سطح سرفصل میانی رد شود. H1 H2 H3 جایز است، در حالی که H1 H3 جایز نیست.
ISO-14289-1، 7.4.2
برای اطمینان از خروجی صحیح، کاربران باید اطمینان حاصل کنند که محتوای سند منبع به درستی سازماندهی شده است و سطوح طرح کلی به درستی برای پاراگراف ها مشخص شده است. در غیر این صورت، کاربر باید ساختار سند PDF خروجی را بررسی و اصلاح کند.
در این بلوک، میتوانید مثالهایی را ببینید: نحوه تنظیم سطوح طرح کلی در Microsoft Word یا بررسی و اصلاح ساختار سند PDF خروجی (برای مشاهده جزئیات، آن را گسترش دهید).
در Microsoft Word می توان از سبک های پیش فرض "Heading X" برای تنظیم سطح طرح استفاده کرد:
علاوه بر این، سطح طرح کلی را می توان در پنجره "پاراگراف" بررسی یا تغییر داد:
در آکروبات، ساختار سند را می توان در قسمت "برچسب ها" بررسی یا تغییر داد:
علامت گذاری محتوا به عنوان یک مصنوع
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
در حال حاضر، Aspose.Words سرصفحهها و پاورقیهای صفحه، جداکنندههای یادداشت، سلولهای هدر جدول تکراری و تصاویر تزئینی را بهعنوان مصنوع علامتگذاری میکند. توجه داشته باشید که این لیست ممکن است در آینده به روز شود.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
اشیاء گرافیکی در یک سند را می توان به دو دسته تقسیم کرد:
ISO-32000-1، 14.8.2.2.1
اگر سندی حاوی محتوای دیگری است که باید بهعنوان مصنوع علامتگذاری شود، یا اگر هر یک از محتوای مصنوعی یک محتوای واقعی است، مشتریان باید آن را در PDF خروجی برطرف کنند.
در این بلوک، میتوانید نمونههایی را مشاهده کنید: نحوه علامتگذاری اشکال بهعنوان تزئینی در Microsoft Word یا علامتگذاری شکل بهعنوان مصنوع در سند PDF خروجی (برای مشاهده جزئیات، آن را باز کنید).
به عنوان مثال، اشکال را می توان به عنوان تزئینی در Microsoft Word علامت گذاری کرد، بنابراین آنها به عنوان یک مصنوع به PDF صادر می شوند:
می توانید شکل را به عنوان یک مصنوع در PDF خروجی علامت گذاری کنید:
همچنین، میتوانید متن را در هدر از مصنوع به محتوای واقعی در PDF خروجی تغییر دهید:
مشخصات زبان طبیعی
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
زبان متن در اسناد Microsoft Word مشخص شده است. Aspose.Words زبان مشخص شده را به یک PDF خروجی با ویژگی Lang متصل به یک توالی محتوای علامتگذاری شده یا یک تگ Span صادر میکند - توسط ویژگی export_language_to_span_tag کنترل میشود. معمولاً وقتی متن توسط کاربر از طریق Microsoft Word وارد می شود، مشکل زبانی وجود ندارد. اما این احتمال وجود دارد که اگر متن به صورت خودکار تولید شود، زبان ممکن است نادرست باشد.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
زبان طبیعی پیشفرض برای تمام متنهای یک فایل باید با ورودی Lang در فرهنگ لغت کاتالوگ سند مشخص شود.
تمام محتوای متنی درون یک فایل که با زبان پیشفرض متفاوت است، باید با استفاده از ویژگی `Lang` متصل به دنباله محتوای علامتگذاریشده، یا با ورودی Lang در فرهنگ لغت عنصر ساختار نشان داده شود.
ISO-19005-2، 6.7.4
علاوه بر این برای PDF/UA-1، مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
زبان طبیعی باید اعلام شود... تغییرات در زبان طبیعی باید اعلام شود.
ISO-14289-1، 7.2
در این بلوک، میتوانید نمونههایی را مشاهده کنید: نحوه اطمینان از اینکه زبان به درستی مشخص شده است (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید اطمینان حاصل کنند که زبان به درستی در سند منبع Word مشخص شده است:
یا سند PDF خروجی:
توضیحات جایگزین
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
اسناد Microsoft Word به کاربران این امکان را می دهد که متن جایگزینی را به تصاویر، اشکال و جداول اضافه کنند. Aspose.Words چنین متن جایگزینی را به PDF خروجی صادر می کند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
همه عناصر ساختاری که محتوای آنها دارای آنالوگ متنی از پیش تعیین شده طبیعی نیست، به عنوان مثال، تصاویر، فرمولها و غیره، باید با استفاده از ورودی Alt در فرهنگ لغت عناصر ساختار، توضیحات متنی جایگزین ارائه کنند...
توجه: توضیحات جایگزین، توضیحات متنی را ارائه میکنند که به تفسیر مناسب محتوای غیرمتن غیرشفاف کمک میکند.
ISO-19005-2، 6.7.5
در این بلوک، میتوانید مثالهایی را ببینید: چگونه میتوان مطمئن شد که همه عناصر دارای یک متن جایگزین هستند (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید اطمینان حاصل کنند که همه عناصر دارای یک متن جایگزین در سند منبع Word هستند:
یا سند PDF خروجی:
متن جایگزین
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
مشخصات موارد زیر را به ما می گوید:
تمام عناصر ساختار متنی که به صورت غیر استاندارد نشان داده می شوند، به عنوان مثال، کاراکترهای سفارشی یا گرافیک های درون خطی، باید متن جایگزین را با استفاده از ورودی `ActualText` در فرهنگ لغت عناصر ساختار ارائه دهند...
ISO-19005-2، 6.7.7
سند Microsoft Word به کاربران اجازه تنظیم متن جایگزین را نمی دهد. بنابراین این باید در PDF خروجی تأیید و رفع شود:
اختصارات و کلمات اختصاری بسط
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
تمام نمونههای اختصارات و کلمات اختصاری در محتوای متنی باید در یک دنباله محتوای مشخص شده با یک تگ Span قرار گیرند که خاصیت E آن بسط متنی مخفف یا مخفف را ارائه میدهد...
ISO-19005-2، 6.7.8
سند Microsoft Word به کاربران اجازه نمی دهد اختصارات و بسط های اختصاری را تنظیم کنند. بنابراین این باید در PDF خروجی تأیید و رفع شود:
مورد نیاز فونت
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
همچنین هنگام تبدیل به فرمتهای PDF/A-1، PDF/A-2، PDF/A-4 یا PDF/UA-1 با استفاده از Aspose.Words، تفاوتهای ظریف کار با فونتها وجود دارد. اگر می خواهید از مشکلات احتمالی سند خروجی جلوگیری کنید، باید آنها را در نظر گرفت.
بخش های زیر چنین تفاوت های ظریف و گزینه هایی را برای حل آنها شرح می دهد.
الزامات قانونی فونت
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words محدودیت های قانونی فونت های استفاده شده را تأیید نمی کند - این به عهده کاربران است. به عبارت دیگر، کاربر نباید فونت های نامناسبی را برای تبدیل PDF با استفاده از Aspose.Words ارائه کند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
فقط برنامه های فونتی که به طور قانونی در یک فایل برای رندر نامحدود و جهانی قابل جاسازی هستند باید استفاده شوند.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1، 7.21.4.1 (دقیقا همان نقل قول ها در دو مشخصات)
notdef Glyph
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
استفاده از .notdef
glyph ممنوع است. اگر سندی حاوی کاراکترهایی باشد که در فونت انتخاب شده وجود ندارند و همچنین نمی توان آنها را از طریق مکانیسم Font Fallback حل کرد، .notdef
glyph ظاهر می شود.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
یک سند منطبق نباید حاوی ارجاع به .notdef glyph از هیچ یک از متنی که اپراتورها را نشان می دهد، صرف نظر از حالت رندر متن، در جریان محتوا باشد.
ISO-19005-2, 6.2.11.8; ISO-14289-1، 7.21.8 (دقیقاً همان نقل قول ها در دو مشخصات)
در این بلوک، می توانید مثال هایی را مشاهده کنید: نحوه حذف یا جایگزینی این کاراکترها (برای دیدن جزئیات، آن را گسترش دهید).
کاربران باید این کاراکترها را در سند منبع Word حذف یا جایگزین کنند:
یا سند PDF خروجی با استفاده از ابزار "Edit PDF":
منطقه کاربری خصوصی (PUA)
سطوح انطباق استاندارد PDF در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
نویسههای منطقه استفاده خصوصی (PUA) بیشتر برای فونتهای نمادین Windows مانند “Symbol”، “Wingdings”، “Webdings” و دیگران ظاهر میشوند. فرمت های Microsoft Word گزینه ای برای ذخیره متن واقعی برای کاراکترها ارائه نمی دهند.
مشخصات موارد زیر را به ما می گوید (برای دیدن جزئیات، آن را گسترش دهید):
فقط برای انطباق سطح A، برای هر کاراکتری ... که به کد یا کدهایی در منطقه استفاده خصوصی یونیکد (PUA) نگاشت شده است، یک ورودی ActualText ... باید برای این کاراکتر یا دنباله ای از کاراکترها وجود داشته باشد. یک شخصیت بخشی است
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” یک فونت Windows Unicode است که می تواند به عنوان جایگزینی برای فونت های نمادین استفاده شود.
در این بلوک میتوانید مثالهایی را مشاهده کنید: کاربر برای حل مشکل با فونتهای نمادین چه کاری باید انجام دهد (برای دیدن جزئیات باز کنید).
فونت نمادین را با یک یونیکد در سند منبع Word جایگزین کنید:
یا یک ورودی ActualText به کاراکترهای مشکل ساز در سند PDF خروجی اضافه کنید: