עבודה עם PDF/A או PDF/UA
PDF/A ו PDF/UA פורמט מטיל מספר דרישות הקשורות לתוכן המסמך שלא ניתן למלא במהלך המרה אוטומטית ממסמך ב Word פורמט ל PDF. דרישות אלה צריכות להיות מאומתות ומתוקנות במסמך Word לפני ההמרה או במסמך PDF לאחר ההמרה כדי להפיק מסמך תואם לחלוטין PDF/A ו - PDF/UA.
הדרישות הבסיסיות הן למבנה או לגופנים של מסמך PDF/A ו - PDF/UA, אותם נשקול בסעיפים הבאים.
דרישות מבנה המסמך
הדרישות הנוכחיות הן עבור PDF/A-1a, PDF/A-2a, PDF/A-4, ו PDF/UA-1 פורמטים.
יש כמה ניואנסים של איך Aspose.Words עובד בעת המרה לסטנדרטים שונים של פורמט PDF. הם חייבים להילקח בחשבון אם אתה רוצה לקבל את התוצאה הצפויה.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
לא מומלץ לסופרים לייצר מידע מבני או סמנטי באמצעות תהליכים אוטומטיים ללא אימות מתאים.
ISO 19005-2, 6.7.1
הפרקים הקטנים להלן מתארים ניואנסים של איך Aspose.Words עובד בעת המרה לסטנדרטים שונים של פורמט PDF ואפשרויות לפתרון שלהם.
סוג מבנה
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
מסמך PDF הוא רצף של בלוקים כגון כותרות, פסקאות, טבלאות ואחרים. בלוקים אלה יוצרים מבנה מסמך-חזק או חלש.
שני המבנים החזקים והחלשים תקפים עבור PDF/A. Microsoft Word למסמכים יש מבנה חלש לפי עיצוב, ו Aspose.Words יוצר PDF עם המבנה החלש בהתאמה וגם מייצר כותרות בהתאם לרמות המתאר של פסקאות במסמך המקור.
עבור מסמך PDF/UA-1 עם מבנה חלש, נדרש בנוסף שמספרי הכותרת יסתדרו ללא פערים.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
מבנה רמת הבלוק עשוי לעקוב אחר אחת משתי פרדיגמות עיקריות:
ISO-32000-1, 14.8.4.3.5
עבור מסמכים PDF/UA-1, המפרט מכיל תוספת הקשורה לרמות הכותרת (הרחב כדי לראות פרטים):
אם סמנטיקה של מסמכים דורשת רצף יורד של כותרות, רצף כזה ימשיך בסדר מספרי קפדני ולא ידלג על רמת כותרת מתערבת. H1 H2 H3 מותר, בעוד H1 H3 לא.
ISO-14289-1, 7.4.2
כדי להבטיח פלט נכון, על המשתמשים לוודא שתוכן מסמך המקור מאורגן כראוי ורמות המתאר מוגדרות כהלכה לפסקאות. אחרת, על המשתמש לאמת ולתקן את מבנה הפלט PDF מסמך.
בבלוק זה תוכלו לראות דוגמאות: כיצד להגדיר רמות מתאר ב Microsoft Word או לבדוק ולתקן את מבנה הפלט PDF מסמך (הרחב כדי לראות פרטים).
ב Microsoft Word ברירת מחדל" כותרת איקס " ניתן להשתמש בסגנונות להגדרת רמת המתאר:
בנוסף, ניתן לבדוק או לשנות את רמת המתאר בחלון " פסקה:
באקרובט ניתן לבדוק או לשנות את מבנה המסמך בחלונית " תגים:
סימון התוכן כחפץ
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
כרגע, Aspose.Words מסמן כותרות עליונות ותחתונות של עמודים, מפרידי הערות, תאי כותרת טבלה חוזרים ותמונות דקורטיביות כממצאים. שים לב שרשימה זו עשויה להתעדכן בעתיד.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
ניתן לחלק את האובייקטים הגרפיים במסמך לשתי מחלקות:
ISO-32000-1, 14.8.2.2.1
אם מסמך מכיל תוכן אחר שיש לסמן כחפץ, או אם כל התוכן המלאכותי הוא תוכן אמיתי, על הלקוחות לתקן זאת בפלט PDF.
בבלוק זה תוכלו לראות דוגמאות: כיצד לסמן צורות כדקורטיביות ב Microsoft Word או לסמן צורה כחפץ בפלט PDF מסמך (הרחב כדי לראות פרטים).
לדוגמה, צורות יכולות להיות מסומנות כדקורטיביות ב Microsoft Word, כך שהן ייצאו ל PDF כחפץ:
ניתן לסמן צורה כחפץ בפלט PDF:
כמו כן, ניתן להחליף טקסט בכותרת מהחפץ לתוכן אמיתי בפלט PDF:
מפרט שפה טבעית
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
שפת הטקסט מוגדרת במסמכים Microsoft Word. Aspose.Words מייצא את השפה שצוינה לפלט PDF עם התכונה Lang המצורפת לרצף תוכן מסומן או לתג טווח-היא נשלטת על ידי המאפיין ExportLanguageToSpanTag. בדרך כלל אין בעיות שפה כאשר המשתמש מזין טקסט באמצעות Microsoft Word. אך קיימת אפשרות שהשפה עשויה להיות לא מדויקת אם הטקסט נוצר באופן אוטומטי.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
יש לציין את השפה הטבעית המוגדרת כברירת מחדל עבור כל הטקסט בקובץ על ידי ערך לאנג במילון הקטלוג של המסמך.
יש לציין את כל התוכן הטקסטואלי בתוך קובץ השונה משפת ברירת המחדל על ידי שימוש במאפיין `Lang` המצורף לרצף תוכן מסומן, או על ידי ערך לאנג במילון רכיבי מבנה ...
ISO-19005-2, 6.7.4
בנוסף עבור PDF/UA-1, המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
שפה טבעית תוכרז ... שינויים בשפה טבעית יוכרזו.
ISO-14289-1, 7.2
בבלוק זה תוכלו לראות דוגמאות: כיצד להבטיח שהשפה מוגדרת כהלכה (הרחב כדי לראות פרטים).
על המשתמשים לוודא שהשפה מוגדרת כהלכה במסמך המקור Word:
או הפלט PDF מסמך:
כיתוב איור
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word מסמכים מאפשרים למשתמשים להוסיף כיתוב איור.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
כיתוב המלווה דמות יתויג בתג כיתוב.
ISO-14289-1, 7.3
נכון לעכשיו Aspose.Words לא ניתן לייצא כיתובים עם תג הכיתוב, ולכן יש לסמן אותם בפלט PDF.
בבלוק זה תוכלו לראות דוגמאות: כיצד להכניס את הכיתוב (הרחב כדי לראות פרטים).
ב Microsoft Word, ניתן להוסיף את הכיתוב דרך תפריט ההקשר:
באקרובט ניתן להוסיף או לשנות את הכיתוב באמצעות תיבת הדו-שיח `Object` מאפיינים:
תיאורים חלופיים
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word מסמכים מאפשרים למשתמשים להוסיף טקסט חלופי לתמונות, צורות וטבלאות. Aspose.Words מייצא טקסט חלופי כזה לפלט PDF.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
כל האלמנטים המבניים שלתוכן שלהם אין אנלוג טקסט טבעי קבוע מראש, למשל תמונות, נוסחאות, וכו'., צריך לספק תיאור טקסט חלופי באמצעות הכניסה האלט במילון אלמנטים מבנה...
NOTE תיאורים חלופיים מספקים תיאורים טקסטואליים המסייעים בפרשנות נכונה של תוכן שאינו טקסטואלי אטום אחרת.
ISO-19005-2, 6.7.5
בבלוק זה תוכלו לראות דוגמאות: כיצד להבטיח שלכל האלמנטים יש טקסט חלופי (הרחב כדי לראות פרטים).
על המשתמשים לוודא שלכל האלמנטים יש טקסט חלופי במסמך המקור Word:
או הפלט PDF מסמך:
תיאורים חלופיים עבור קישורים
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
בנוסף לנקודה הקודמת, Microsoft Word מסמכים מאפשרים למשתמשים להוסיף טקסט חלופי להיפר-קישורים. Aspose.Words מייצא טקסט חלופי כזה לפלט PDF.
למרבה הצער, לא כל יישום מאפשר לך להגדיר תיאור חלופי. לדוגמה, Adobe Acrobat כרגע אינו מאפשר להגדיר תיאור כזה עבור היפר-קישורים. אבל ב Microsoft Word, אתה יכול לעשות זאת באופן הבא:
לפעמים יש בעיה שלא ניתן להגדיר טקסט חלופי עבור היפר-קישורים שנוצרו אוטומטית בתוכן העניינים (TOC) דרך Microsoft Word GUI. Aspose.Words יכול לעדכן שדות כאלה וליצור את הקישורים בכוחות עצמו.
עקוב אחר דוגמת הקוד כדי לעדכן שדות TOC
באמצעות מודל אובייקט המסמך Aspose.Words (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
כותרות טבלה
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
בטבלאות ב PDF/UA-1 המסמכים חייבים להיות כותרות-עמודה, שורה או שניהם. PDF/A דורש רק סימון טבלה רגיל, שאין לו מגבלות נוספות. שים לב ש Aspose.Words מייצר את סימון הטבלה הסטנדרטי באופן אוטומטי.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
טבלאות יכולות להכיל כותרות עמודות, כותרות שורות או שניהם.
ISO-14289-1, 7.5
בבלוק זה תוכלו לראות דוגמאות: כיצד להגדיר את כותרת הטבלה (הרחב כדי לראות פרטים).
ניתן להגדיר את כותרת הטבלה או את המקור Microsoft Word מסמך:
או הפלט PDF:
החלפת טקסט
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
המפרט אומר לנו את הדברים הבאים:
כל רכיבי המבנה הטקסטואלי המיוצגים באופן לא סטנדרטי, למשל, תווים מותאמים אישית או גרפיקה מוטבעת, צריכים לספק טקסט חלופי באמצעות הערך `ActualText` במילון רכיבי המבנה...
ISO-19005-2, 6.7.7
Microsoft Word המסמך אינו מאפשר למשתמשים להגדיר טקסט חלופי. אז זה צריך להיות מאומת קבוע בפלט PDF:
קיצורים וראשי תיבות הרחבות
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
יש למקם את כל המופעים של קיצורים וראשי תיבות בתוכן טקסטואלי ברצף תוכן מסומן עם תג טווח שמאפיין זה מספק הרחבה טקסטואלית של הקיצור או ראשי התיבות...
ISO-19005-2, 6.7.8
Microsoft Word המסמך אינו מאפשר למשתמשים להגדיר קיצורים וראשי תיבות הרחבות. אז זה צריך להיות מאומת קבוע בפלט PDF:
כותרת המסמך
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
מסמך ב PDF/UA-1 צריך להיות בעל כותרת. |
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
המפרט אומר לנו את הדברים הבאים:
זרם המטא נתונים במילון הקטלוג של המסמך יכיל ערך די. סי:כותרת, כאשר די. סי הוא הקידומת המומלצת לסכימת המטא נתונים הליבה של דבלין…
ISO-14289-1, 7.1
בבלוק זה תוכלו לראות דוגמאות: כיצד להגדיר את כותרת המסמך (הרחב כדי לראות פרטים).
ניתן להגדיר את כותרת המסמך או את המקור Microsoft Word מסמך:
או הפלט PDF:
דרישות גופן
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
ישנם גם מספר ניואנסים של עבודה עם גופנים בעת המרה ל PDF/A-1, PDF/A-2, PDF/A-4 או PDF/UA-1 פורמטים באמצעות Aspose.Words. הם חייבים להילקח בחשבון אם אתה רוצה למנוע בעיות אפשריות עם מסמך הפלט.
הסעיפים שלהלן מתארים ניואנסים ואפשרויות כאלה לפתרונם.
דרישות משפטיות גופן
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words אינו מאמת את ההגבלות החוקיות של הגופנים המשומשים-זה תלוי במשתמשים. במילים אחרות, משתמש לא צריך לספק גופנים לא הולמים להמרה PDF באמצעות Aspose.Words.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
יש להשתמש רק בתוכניות גופן הניתנות להטמעה חוקית בקובץ לצורך עיבוד אוניברסלי ללא הגבלה.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (בדיוק אותם ציטוטים בשני מפרט)
.נוטדף Glyph
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
השימוש בגליף .notdef
אסור. הגליף .notdef
יופיע אם מסמך מכיל תווים שאינם קיימים בגופן שנבחר ואשר גם לא ניתן לפתור אותם באמצעות מנגנון החזרה של הגופן.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
מסמך תואם לא יכיל התייחסות ל .נוטדף גליף מכל אחד מהטקסט המציג אופרטורים, ללא קשר למצב עיבוד טקסט, בכל זרם תוכן.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (בדיוק אותם ציטוטים בשני מפרט)
בבלוק זה תוכלו לראות דוגמאות: כיצד להסיר או להחליף תווים אלה (הרחב כדי לראות פרטים).
על המשתמשים להסיר או להחליף תווים אלה במסמך המקור Word:
או הפלט PDF מסמך באמצעות הכלי " ערוך PDF:
אזור שימוש פרטי (PUA)
PDF רמות תאימות סטנדרטיות בתוך Aspose.Words | נוכחות של דרישה |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
תווים של אזור שימוש פרטי (PUA) מופיעים בעיקר עבור Windows גופן סמלי כמו “סמל”, “כנפיים”, “רשתות” ואחרים. Microsoft Word פורמטים אינם מספקים אפשרות לאחסן טקסט בפועל עבור תווים.
המפרט אומר לנו את הדברים הבאים (הרחב כדי לראות פרטים):
עבור רמת התאמה בלבד, עבור כל תו ... זה ממופה לקוד או לקודים באזור השימוש הפרטי של יוניקוד (PUA), ערך ActualText... יהיה נוכח עבור אופי זה או רצף של תווים אשר אופי כזה הוא חלק.
ISO-19005-2, 6.2.11.7.3
“סמל סגו UI” הוא גופן יוניקוד Windows שיכול לשמש כחלופה לגופנים סמליים.
בבלוק זה תוכלו לראות דוגמאות: מה המשתמש צריך לעשות כדי לפתור את הבעיה בגופנים סמליים (הרחב כדי לראות פרטים).
החלף את הגופן הסמלי בגופן יוניקוד במסמך המקור Word:
או להוסיף ערך ActualText לתווים הבעייתיים בפלט PDF מסמך: