کار با PDF/A یا PDF/UA
فرمت PDF/A و PDF/UA چندین الزامات مربوط به محتوای سند را تحمیل می کند که نمی تواند در طول تبدیل خودکار از یک سند در قالب Word به PDF برآورده شود. این الزامات باید در یک سند Word قبل از تبدیل یا در یک سند PDF پس از تبدیل تأیید و اصلاح شوند تا یک سند کاملا مطابق با PDF/A و PDF/UA تولید شود.
الزامات اساسی برای ساختار یا فونت های یک سند PDF/A و PDF/UA است که در بخش های زیر به آن خواهیم پرداخت.
الزامات ساختار سند
الزامات فعلی برای PDF/A-1a, PDF/A-2a, PDF/A-4, و PDF/UA-1 فرمت ها.
برخی از تفاوت های ظریف در نحوه کار Aspose.Words هنگام تبدیل به استانداردهای مختلف فرمت PDF وجود دارد. اگر می خواهید نتیجه مورد انتظار را بدست آورید، باید آنها را در نظر بگیرید.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
برای نویسندگان تولید اطلاعات ساختاری یا معنایی با استفاده از فرآیندهای خودکار بدون تأیید مناسب توصیه نمی شود.
ISO 19005-2, 6.7.1
زیربخش های زیر تفاوت های ظریف نحوه کار Aspose.Words را هنگام تبدیل به استانداردهای مختلف فرمت PDF و گزینه های راه حل آنها توصیف می کنند.
نوع ساختار
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
یک سند PDF یک دنباله از بلوک ها مانند عناوین، پاراگراف ها، جداول و دیگران است. این بلوک ها یک ساختار سند را تشکیل می دهند-قوی یا ضعیف.
هر دو ساختار قوی و ضعیف برای PDF/A معتبر هستند. Microsoft Word اسناد دارای ساختار ضعیف از نظر طراحی هستند و Aspose.Words PDF را با ساختار ضعیف ایجاد می کند و همچنین عناوین را با توجه به سطوح طرح پاراگراف ها در سند منبع تولید می کند.
برای یک سند PDF/UA-1 با ساختار ضعیف، علاوه بر این لازم است که شماره های عنوان بدون شکاف به ترتیب باشند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
ساختار سطح بلوک ممکن است یکی از دو پارادایم اصلی را دنبال کند:
ISO-32000-1, 14.8.4.3.5
برای اسناد PDF/UA-1، مشخصات شامل یک اضافه مربوط به سطوح عنوان (برای دیدن جزئیات گسترش دهید):
اگر معناشناسی سند نیاز به یک توالی نزولی از سرصفحه ها داشته باشد، چنین توالی باید به ترتیب عددی دقیق ادامه یابد و نباید از یک سطح سرصفحه مداخله کننده صرف نظر کند. H1 H2 H3 مجاز است، در حالی که H1 H3 مجاز نیست.
ISO-14289-1, 7.4.2
برای اطمینان از خروجی صحیح، کاربران باید اطمینان حاصل کنند که محتوای سند منبع به درستی سازماندهی شده و سطوح طرح به درستی برای پاراگراف ها مشخص شده است. در غیر این صورت، کاربر باید ساختار سند خروجی PDF را تأیید و اصلاح کند.
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه تنظیم سطوح outline در Microsoft Word یا بررسی و اصلاح ساختار سند خروجی PDF (برای دیدن جزئیات گسترش دهید).
در Microsoft Word سبک های پیش فرض "Heading X" می توانند برای تنظیم سطح طرح استفاده شوند:
علاوه بر این، سطح طرح می تواند در پنجره "پاراگراف" بررسی یا تغییر کند:
در آکروبات ساختار سند می تواند در صفحه "تگ ها" بررسی یا تغییر کند:
علامت گذاری محتوا به عنوان یک اثر هنری
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
در حال حاضر، Aspose.Words سرصفحه ها و پای صفحه، جداکننده های یادداشت، سلول های سرصفحه جدول تکراری و تصاویر تزئینی را به عنوان مصنوعات نشان می دهد. توجه داشته باشید که این لیست ممکن است در آینده به روز شود.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
اشیاء گرافیکی در یک سند را می توان به دو کلاس تقسیم کرد:
ISO-32000-1, 14.8.2.2.1
اگر یک سند حاوی هر محتوای دیگری باشد که باید به عنوان یک اثر هنری مشخص شود، یا اگر هر یک از محتوای مصنوعی یک محتوای واقعی باشد، مشتریان باید آن را در خروجی PDF اصلاح کنند.
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه علامت گذاری اشکال به عنوان تزئینی در Microsoft Word یا علامت گذاری شکل به عنوان یک اثر هنری در سند خروجی PDF (برای دیدن جزئیات گسترش دهید).
برای مثال، شکل ها می توانند به عنوان تزئینی در Microsoft Word مشخص شوند، بنابراین به عنوان یک اثر هنری به PDF صادر می شوند:
شما می توانید شکل را به عنوان یک اثر هنری در خروجی علامت گذاری کنید PDF:
همچنین، شما می توانید متن را در یک سرصفحه از مصنوع به محتوای واقعی در خروجی PDFتغییر دهید:
مشخصات زبان طبیعی
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
زبان متن در اسناد Microsoft Word مشخص شده است. Aspose.Words زبان مشخص شده را به یک خروجی PDF با ویژگی Lang متصل به یک توالی محتوای مشخص شده یا یک برچسب Span صادر می کند-توسط ویژگی ExportLanguageToSpanTag کنترل می شود. به طور کلی هیچ مشکلی در زبان وجود ندارد وقتی متن توسط کاربر از طریق Microsoft Word وارد می شود. اما احتمال وجود دارد که زبان ممکن است نادرست باشد اگر متن به طور خودکار تولید شود.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
زبان طبیعی پیش فرض برای تمام متن در یک فایل باید توسط ورودی Lang در فرهنگ لغت کاتالوگ سند مشخص شود.
تمام محتوای متنی در یک فایل که با زبان پیش فرض متفاوت است باید با استفاده از یک ویژگی `Lang` متصل به یک توالی محتوای مشخص شده یا با یک ورودی Lang در یک فرهنگ لغت عنصر ساختار نشان داده شود ...
ISO-19005-2, 6.7.4
علاوه بر این برای PDF/UA-1، مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
زبان طبیعی اعلام خواهد شد... تغییرات در زبان طبیعی اعلام خواهد شد.
ISO-14289-1, 7.2
در این بلوک می توانید نمونه هایی را مشاهده کنید: چگونه اطمینان حاصل کنیم که زبان به درستی مشخص شده است (برای دیدن جزئیات گسترش دهید).
کاربران باید اطمینان حاصل کنند که زبان در هر یک از اسناد Source Word به درستی مشخص شده است:
یا سند خروجی PDF:
عنوان تصویر
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word اسناد به کاربران اجازه می دهد تا عنوان شکل را اضافه کنند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
یک عنوان همراه با یک شکل باید با یک برچسب عنوان برچسب گذاری شود.
ISO-14289-1, 7.3
در حال حاضر Aspose.Words نمی تواند زیرنویس ها را با برچسب زیرنویس صادر کند، بنابراین باید در خروجی PDF علامت گذاری شوند.
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه وارد کردن عنوان (برای دیدن جزئیات گسترش دهید).
در Microsoft Word، عنوان می تواند از طریق منوی زمینه وارد شود:
در آکروبات، عنوان می تواند از طریق دایالوگ `Object` Properties اضافه یا تغییر کند:
توضیحات متناوب
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word اسناد به کاربران اجازه می دهد تا متن جایگزین را به تصاویر، اشکال و جداول اضافه کنند. Aspose.Words چنین متن جایگزین را به خروجی PDF صادر می کند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
تمام عناصر ساختاری که محتوای آنها دارای یک آنالوگ متنی طبیعی از پیش تعیین شده نیست، به عنوان مثال تصاویر، فرمول ها و غیره.، باید یک توصیف متن جایگزین با استفاده از ورودی Alt در فرهنگ لغت عنصر ساختار ارائه دهد...
NOTE توصیفات جایگزین توصیفات متنی را ارائه می دهند که به تفسیر صحیح محتوای غیر متنی مبهم کمک می کند.
ISO-19005-2, 6.7.5
در این بلوک می توانید نمونه هایی را مشاهده کنید: چگونه اطمینان حاصل کنیم که همه عناصر یک متن جایگزین دارند (برای دیدن جزئیات گسترش دهید).
کاربران باید اطمینان حاصل کنند که تمام عناصر یک متن جایگزین در هر یک از اسناد Source Word دارند:
یا سند خروجی PDF:
توضیحات متناوب برای پیوندها
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
علاوه بر نکته قبلی، اسناد Microsoft Word همچنین به کاربران اجازه می دهد تا متن جایگزین را به لینک های فرعی اضافه کنند. Aspose.Words چنین متن جایگزین را به خروجی PDF صادر می کند.
متأسفانه، هر برنامه به شما امکان نمی دهد توضیحات متناوب را تنظیم کنید. به عنوان مثال، Adobe Acrobat در حال حاضر امکان تنظیم چنین توصیفی برای پیوندها را ندارد. اما در Microsoft Word می توانید این کار را به صورت زیر انجام دهید:
گاهی اوقات مشکلی وجود دارد که امکان تنظیم متن alt برای لینک های خود تولید شده در جدول محتویات (TOC) از طریق Microsoft Word GUI وجود ندارد. Aspose.Words می تواند چنین زمینه هایی را به روز کند و لینک ها را به تنهایی تولید کند.
برای به روز رسانی فیلد های TOC
با استفاده از مدل Aspose.Words Document Object (DOM)از مثال کد پیروی کنید:
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
سرصفحه های جدول
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
جداول در اسناد PDF/UA-1 باید دارای سرصفحه باشند-ستون، ردیف یا هر دو. PDF/A فقط نیاز به علامت گذاری جدول استاندارد دارد که هیچ محدودیت اضافی ندارد. توجه داشته باشید که Aspose.Words علامت گذاری جدول استاندارد را به طور خودکار تولید می کند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
جداول باید شامل سرصفحه ها باشند... جداول می توانند شامل سرصفحه های ستون، سرصفحه های ردیف یا هر دو باشند.
ISO-14289-1, 7.5
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه تنظیم سرصفحه جدول (برای دیدن جزئیات گسترش دهید).
عنوان جدول را می توان در سند منبع Microsoft Word تنظیم کرد:
یا خروجی PDF:
متن جایگزین
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
مشخصات به ما این را می گوید:
تمام عناصر ساختار متنی که به شیوه ای غیر استاندارد نشان داده شده اند، به عنوان مثال، کاراکترهای سفارشی یا گرافیک خطی، باید متن جایگزین را با استفاده از ورودی `ActualText` در فرهنگ لغت عنصر ساختار ارائه دهند...
ISO-19005-2, 6.7.7
Microsoft Word document به کاربران اجازه نمی دهد متن جایگزین را تنظیم کنند. پس این باید در خروجی PDFتایید و اصلاح شود:
اختصارات و اختصارها گسترش
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
تمام نمونه های اختصارات و مخففات در محتوای متنی باید در یک توالی محتوای مشخص شده با یک برچسب Span قرار داده شوند که ویژگی E آن گسترش متنی مخفف یا مخفف را فراهم می کند...
ISO-19005-2, 6.7.8
Microsoft Word document به کاربران اجازه نمی دهد که اختصارات و اختصارها را گسترش دهند. پس این باید در خروجی PDFتایید و اصلاح شود:
عنوان سند
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
سند در PDF/UA-1 باید یک عنوان داشته باشد. |
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
مشخصات به ما این را می گوید:
جریان متا داده در فرهنگ لغت کاتالوگ سند باید شامل یک ورودی dc:title باشد، که در آن dc پیشوند توصیه شده برای طرح متا داده اصلی دوبلین است…
ISO-14289-1, 7.1
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه تنظیم عنوان سند (برای دیدن جزئیات گسترش دهید).
عنوان سند را می توان در سند منبع Microsoft Word تنظیم کرد:
یا خروجی PDF:
الزامات فونت
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
همچنین تعدادی از تفاوت های ظریف کار با فونت ها در هنگام تبدیل به PDF/A-1, PDF/A-2, PDF/A-4 یا فرمت های PDF/UA-1 با استفاده از Aspose.Words. اگر می خواهید از مشکلات احتمالی سند خروجی جلوگیری کنید، باید آنها را در نظر بگیرید.
بخش های زیر چنین تفاوت های ظریف و گزینه هایی را برای راه حل خود توصیف می کنند.
فونت الزامات قانونی
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words محدودیت های قانونی فونت های استفاده شده را تأیید نمی کند – این به کاربران بستگی دارد. به عبارت دیگر، کاربر نباید فونت های نامناسب برای تبدیل PDF با استفاده از Aspose.Words ارائه دهد.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
تنها برنامه های فونت که به طور قانونی در یک فایل برای ارائه نامحدود و جهانی قابل جاسازی هستند باید استفاده شوند.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (دقیقا همان نقل قول ها در دو مشخصات)
.notdef Glyph
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
استفاده از گلیف .notdef
ممنوع است. گلیف .notdef
ظاهر خواهد شد اگر یک سند شامل کاراکتر هایی باشد که در فونت انتخاب شده وجود ندارند و همچنین نمی توانند از طریق مکانیزم فونت فال بک حل شوند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
یک سند مطابق نباید شامل اشاره به.گلیف notdef از هر یک از متن نشان دهنده اپراتورها، صرف نظر از حالت رندر متن، در هر جریان محتوا.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (دقیقا همان نقل قول ها در دو مشخصات)
در این بلوک می توانید نمونه هایی را مشاهده کنید: نحوه حذف یا جایگزینی این کاراکترها (برای دیدن جزئیات گسترش دهید).
کاربران باید این کاراکترها را در هر یک از اسناد Source Word حذف یا جایگزین کنند:
یا سند خروجی PDF با استفاده از ابزار" Edit PDF":
منطقه استفاده خصوصی (PUA)
PDF سطح انطباق استاندارد در Aspose.Words | وجود نیاز |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
منطقه استفاده خصوصی (PUA) کاراکترها بیشتر برای فونت های نمادین Windows مانند “نماد”، “بال”، “وبینگ” و دیگران ظاهر می شوند. فرمت های Microsoft Word گزینه ای برای ذخیره متن واقعی برای کاراکترها ارائه نمی دهند.
مشخصات به ما می گوید (برای دیدن جزئیات گسترش دهید):
فقط برای سطح a، برای هر کاراکتر ... که به یک کد یا کد در منطقه استفاده خصوصی یونیکد (PUA)، یک ورودی ActualText نقشه برداری شده است ... باید برای این شخصیت یا دنباله ای از شخصیت هایی که چنین شخصیت بخشی از آن است، وجود داشته باشد.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” یک فونت یونیکد Windows است که می تواند به عنوان جایگزین فونت های نمادین استفاده شود.
در این بلوک می توانید نمونه هایی را مشاهده کنید: کاربر برای حل مشکل با فونت های نمادین چه کاری باید انجام دهد (برای دیدن جزئیات گسترش دهید).
فونت نمادین را با یک یونیکد در سند Word منبع جایگزین کنید:
یا یک ورودی ActualText به کاراکترهای مشکل ساز در سند PDF خروجی اضافه کنید: