עבודה עם PDF/A או PDF/UA
פורמט PDF/A ו- PDF/UA מחייב מספר דרישות הקשורות לתוכן המסמך שלא ניתן להשלים במהלך המרה אוטומטית של מסמך בפורמט Word ל- PDF. דרישות אלה יש לאמת ולתקן במסמך Word לפני המרה או במסמך PDF לאחר המרה על מנת לייצר מסמך PDF/A ו- PDF/UA.
דרישות בסיסיות הן למבנה או גופנים של מסמך PDF/A ו- PDF/UA, אשר נבחן בסעיפים הבאים.
דרישות מבנה
הדרישות הנוכחיות הן ל- PDF/A-1a, PDF/A-2a, PDF/A-4 ו- PDF/UA-1.
יש כמה ניואנסים של איך Aspose.Words עובד בעת המרת תקני פורמט PDF שונים. יש לקחת בחשבון אם אתה רוצה לקבל את התוצאה הצפויה.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
זה בלתי צפוי לכותבים לייצר מידע מבני או סמנטי באמצעות תהליכים אוטומטיים ללא אימות הולם.
ISO 19005-2, 6.7.1
הקטעים הבאים מתארים את הניואנסים של איך Aspose.Words עובד בעת המרת תקני פורמט PDF שונים ואפשרויות לפתרון שלהם.
מבנה סוג
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
מסמך PDF הוא רצף של בלוקים כגון כותרות, פסקאות, שולחנות ואחרים. בלוקים אלה יוצרים מבנה מסמך – חזק או חלש.
שני המבנים החזקים והחלשים תקפים ל- PDF/A. Microsoft Word למסמכים יש מבנה חלש על ידי עיצוב, Aspose.Words יוצר PDF עם המבנה החלש בהתאמה וגם יוצר כותרות על פי רמות המתאר של פסקאות במסמך המקור.
עבור מסמך PDF / UA-1 עם מבנה חלש, יש צורך נוסף כי מספרי הכותרת הולכים על מנת ללא פערים.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
המבנה ברמת בלוק עשוי לעקוב אחר אחת משתי פרדיגמות עיקריות:
ISO-32000-1, 14.8.4.3.5.
עבור מסמכי PDF/UA-1, המפרט מכיל תוספת הקשורה לרמות הכותרת (לבדוק פרטים):
אם מסמך Smantics דורש רצף יורד של ראשים, רצף כזה ימשיך בסדר מספרי קפדני ולא לדלג על רמת כותרת בין-מחדשת. H1 H2 H3 מותר, בעוד H1 H3 אינו.
ISO-14289-1, 7.4.2
כדי להבטיח את התפוקה הנכונה, משתמשים צריכים להבטיח כי התוכן של מסמך המקור מאורגן כראוי ואת רמות קווי המתאר מפורטים כראוי עבור פסקאות. אחרת, המשתמש צריך לאמת ולתקן את המבנה של מסמך PDF התפוקה.
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להגדיר רמות מתאר ב Microsoft Word או לבדוק ולתקן את המבנה של מסמך ה- PDF של הפלט (לבדוק פרטים).
In In In Microsoft Word סגנונות ברירת מחדל "Heading X" ניתן להשתמש כדי להגדיר את רמת המתאר:
בנוסף, ניתן לבדוק את רמת המתאר או לשנות בחלון "Paragraph":
ב- Acrobat ניתן לבדוק את מבנה המסמך או להשתנות בחלונית "Tags":
כתיבת התוכן כאמנות
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
כרגע, Aspose.Words סימני עמוד ראשי ורגליים, שים לב מפרידים, תאים חוזרים על השולחן, ותמונות דקורטיביות כמו חפצים. שימו לב כי רשימה זו עשויה להיות מעודכנת בעתיד.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
אובייקטים גרפיים במסמך ניתן לחלק לשתי כיתות:
ISO-32000-1, 14.8.2.2.1.
אם מסמך מכיל תוכן אחר שחייב להיות מסומן כחפץ, או אם כל אחד מהתכנים המוצפים הוא תוכן אמיתי, הלקוחות צריכים לתקן זאת בפלט PDF.
בלוק זה, אתה יכול לראות דוגמאות: איך לסמן צורות כמו דקורטיבי ב Microsoft Word או לסמן צורה כחפץ במסמך ה- PDF של הפלט (הסבר לראות פרטים).
לדוגמה, צורות יכול להיות מסומן כמו דקורטיבי ב Microsoft Word, כך ייצואו ל- PDF כחפץ:
אתה יכול לסמן צורה כחפץ בפלט PDF:
כמו כן, אתה יכול להעביר טקסט בראש מהחפץ לתוכן אמיתי בפלט PDF:
שפה טבעית
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
שפת טקסט מפורטת Microsoft Word מסמכים Aspose.Words מייצא את השפה המפורטת לפלט PDF עם Lang תכונה המצורפת לרצף תוכן מסומן או תג ספאן - הוא נשלט על ידי ExportLanguageToSpanTag רכוש. בדרך כלל אין בעיות שפה כאשר הטקסט נכנס על ידי המשתמש באמצעות Microsoft Word. אבל יש אפשרות שהשפה עשויה להיות לא מדויקת אם הטקסט נוצר באופן אוטומטי.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
שפה טבעית ברירת המחדל עבור כל הטקסט בקובץ צריך להיות מוגדר על ידי כניסה לנג במילון קטלוג של המסמך.
כל התוכן הטקסטואלי בתוך קובץ השונה משפת ברירת המחדל צריך להיות מסומן על ידי שימוש `Lang` רכוש המצורף לרצף תוכן מסומן, או על ידי כניסה לאנג במילון יסוד מבנה...
ISO19005-2, 6.7.4
בנוסף ל- PDF/UA-1, הסעיף מספר לנו את הפרטים הבאים (הסברים לראות פרטים):
שפה טבעית תכריז... שינויים בשפה הטבעית יוכרזו.
ISO-14289-1, 7.2
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להבטיח שהשפה מוגדרת כראוי (לבדוק פרטים).
משתמשים צריכים לוודא שהשפה מוגדרת כראוי במסמך Word המקור:
מסמך PDF:
איור Caption
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word מסמכים מאפשרים למשתמשים להוסיף כותרת.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
הכיתוב המלווה דמות יהיה מתוייג עם תג Caption.
ISO-14289-1, 7.3
כיום Aspose.Words לא יכול לייצא כתוביות עם תג Caption, אז הם חייבים להיות מלוטשים בפלט PDF.
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להוסיף את הכיתוב (לבדוק פרטים).
In In In Microsoft Word, ניתן להכניס את הכיתוב דרך תפריט ההקשר:
ב- Acrobat ניתן להוסיף או להשתנות באמצעות `Object` תגית:
תיאורים אלטרנטיביים
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word מסמכים מאפשרים למשתמשים להוסיף טקסט חלופי לתמונות, צורות וטבלאות. Aspose.Words ייצוא טקסט חלופי לפלט PDF.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
לכל רכיבי המבנה שתוכןם אין אנלוגיה טקסטאלית מוגדרת מראש, למשל תמונות, פורמולה וכו ', צריך לספק תיאור טקסט חלופי באמצעות כניסת אלט במילון האלמנט...
לא תיאורים אלטרנטיים מספקים תיאורים טקסטואליים המסייעים בפרשנות הנכונה של תוכן לא טקסטואלי אחר.
ISO19005-2, 6.7.5
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להבטיח שלכל האלמנטים יש טקסט חלופי (לבדוק פרטים).
משתמשים צריכים לוודא שלכל האלמנטים יש טקסט חלופי במסמך Word המקור:
מסמך PDF:
תיאורים של Hyperlinks
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
בנוסף לנקודה הקודמת, Microsoft Word מסמכים גם מאפשרים למשתמשים להוסיף טקסט חלופי להיפר קישורים. Aspose.Words ייצוא טקסט חלופי לפלט PDF.
למרבה הצער, לא כל יישום מאפשר לך להגדיר תיאור חלופי. לדוגמה, Adobe Acrobat כיום לא ניתן להגדיר תיאור כזה של Hyperlinks. אבל בפנים Microsoft Word, אתה יכול לעשות את זה כדלקמן:
לפעמים יש בעיה כי לא ניתן להגדיר טקסט alt עבור היפרlinks מהופנט בטבלה של תוכן (TOC) דרך Microsoft Word GUI Aspose.Words יכול לעדכן שדות כאלה וליצור את הקישורים בכוחות עצמו.
עקבו אחר הדוגמא לעדכון TOC
שדות באמצעות Aspose.Words Document Object Model ()DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
כותרות שולחן
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
שולחנות ב- PDF/UA-1 מסמכים חייבים להיות ראשיים - עמודה, שורה או שניהם. PDF/A דורש רק סימון שולחן סטנדרטי, שאין לו מגבלות נוספות. שימו לב Aspose.Words יוצר את הסימון שולחן סטנדרטי באופן אוטומטי.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
שולחנות צריכים לכלול ראשי... שולחנות יכולים להכיל כותרות עמודה, כותרות שורות או שניהם.
ISO-14289-1, 7.5
בבלוק זה, ניתן לראות דוגמאות: כיצד להגדיר את מנהל השולחן (לבדוק פרטים).
ראש השולחן יכול להיות להגדיר את המקור Microsoft Word מסמך:
הפלט PDF:
החלפת טקסט
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
הפרטים מספרים לנו את הדברים הבאים:
כל רכיבי המבנה הטקסטואלי המיוצגים באופן לא סטנדרטי, למשל, דמויות מותאמות אישית או גרפיקה פנימית, צריך לספק טקסט חלופי באמצעות טקסט חלופי. `ActualText` כניסה במילון היסוד של המבנה...
ISO19005-2, 6.7.7
Microsoft Word מסמך אינו מאפשר למשתמשים להגדיר טקסט חלופי. לכן יש לאמת ולקבוע את הפלט PDF:
Abbreviations ו- Acronyms
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
כל המקרים של abbreviations ו acronyms בתוכן טקסטאלי צריך להיות ממוקם ברצף תוכן מסומן עם תג ספאן אשר הנכס E מספק הרחבה טקסטואלית של קיצור או acronym...
ISO19005-2, 6.7.8
Microsoft Word מסמך אינו מאפשר למשתמשים להגדיר קיצורים ו-Acronyms. לכן יש לאמת ולקבוע את הפלט PDF:
מסמך
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
מסמך PDF/UA-1 צריך להיות בעל שם |
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
הפרטים מספרים לנו את הדברים הבאים:
זרם המטא-נתונים במילון הקטלוג של המסמך יכיל כניסה ל- dc:title, שבו dc הוא הקידומת המומלצת עבור schema metadata Core דבלין...
ISO-14289-1, 7.1
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להגדיר את הכותרת של המסמך (לבדוק פרטים).
ניתן להגדיר את שם המסמך או את המקור Microsoft Word מסמך:
הפלט PDF:
דרישות פונט
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
ישנם גם מספר ניואנסים של עבודה עם גופנים כאשר ממיר ל- PDF/A-1, PDF/A-2, PDF/A-4 או PDF/UA-1 פורמטים באמצעות PDF/UA-1. Aspose.Words. הם חייבים לקחת בחשבון אם אתה רוצה למנוע בעיות אפשריות עם מסמך הפלט.
הקטעים להלן מתארים ניואנסים ואפשרויות כאלה לפתרון שלהם.
דרישות משפטיות
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words לא לאמת את המגבלות החוקיות של הגופנים המשמשים - זה תלוי במשתמשים. במילים אחרות, המשתמש לא צריך לספק גופנים לא מתאימים להמרות PDF באמצעות שימוש Aspose.Words.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
רק תוכניות גופניות אשר מוטבעות באופן חוקי בקובץ עבור ביצוע בלתי מוגבל, אוניברסלי ישמש.
ISO19005-2, 6.2.11.4.1 ISO-14289-1, 7.21.4.1 (בדרך כלל באותן ציטוטים בשני היבטים)
.לא הגנה Glyph
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
השימוש .notdef
glyph אסור. The The The .notdef
glyph יופיע אם מסמך מכיל דמויות שאינן קיימות בגופן הנבחר, אשר גם לא ניתן לפתור באמצעות מנגנון פונטה Fallback.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
מסמך תואם לא יכלול התייחסות ל- .notdef glyph מכל אחד מהטקסט המציג מפעילי, ללא קשר למצב עריכת טקסט, בכל זרם תוכן.
ISO19005-2, 6.2.11.8 ISO-14289-1, 7.21.8 (בדרך כלל אותם ציטוטים בשני היבטים)
בבלוק זה, אתה יכול לראות דוגמאות: כיצד להסיר או להחליף את הדמויות האלה (לבדוק פרטים).
משתמשים צריכים להסיר או להחליף תווים אלה במסמך Word המקור:
או מסמך PDF הפלט באמצעות הכלי "עריכה PDF":
אזור שימוש פרטי (PUA)
תקן PDF Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
תווים לשימוש פרטי (PUA) מופיעים בעיקר עבור Windows גופנים סמליים כמו “Symbol”, “Wingdings”, “Webdings”, ואחרים. Microsoft Word פורמטים אינם מספקים אפשרות לאחסן טקסט בפועל עבור תווים.
הסעיף מספר לנו את הדברים הבאים (הסבר לראות פרטים):
לרמה התאמה בלבד, עבור כל דמות... אשר ממפה קוד או קודים באזור השימוש הפרטי של Unicode (PUA), כניסה אקטואליתText... תהיה נוכח עבור אופי זה או רצף של דמויות אשר אופי כזה הוא חלק.
ISO19005-2, 6.2.11.7.3
“Segoe UIסמל” הוא סמל Windows גופן Unicode שניתן להשתמש בו כאלטרנטיבה לגופנים סמליים.
בבלוק זה, אתה יכול לראות דוגמאות: מה המשתמש צריך לעשות כדי לפתור את הבעיה עם גופנים סימבוליים (לבדוק פרטים).
להחליף את הגופן הסמלי עם Unicode אחד במסמך Word המקור:
או להוסיף כניסה ActualText לדמויות הבעייתיות במסמך PDF הפלט: