Praca z PDF / A lub PDF / UA
Format PDF / A i PDF / UA nakłada kilka wymogów związanych z treścią dokumentu, których nie można spełnić podczas automatycznej konwersji z dokumentu w formacie Word do PDF. Wymogi te powinny zostać zweryfikowane i poprawione w dokumencie Word przed konwersją lub w dokumencie PDF po konwersji w celu sporządzenia dokumentu w pełni zgodnego z PDF / A i PDF / UA.
Podstawowe wymagania dotyczą struktury lub czcionek dokumentu PDF / A i PDF / UA, które rozważamy w poniższych sekcjach.
Wymogi dotyczące struktury dokumentów
Obecne wymagania dotyczą formatów PDF / A- 1a, PDF / A- 2a, PDF / A- 4 oraz PDF / UA-1.
Są pewne niuanse jak Aspose.Words działa podczas konwersji na różne standardy formatu PDF. Muszą być brane pod uwagę, jeśli chcesz uzyskać oczekiwany wynik.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Nie zaleca się autorom generowania informacji strukturalnych lub semantycznych przy użyciu zautomatyzowanych procesów bez odpowiedniej weryfikacji.
ISO 19005-2, 6.7.1
Poniższe podsekcje opisują niuanse w jaki sposób Aspose.Words działa przy konwersji do różnych standardów formatu PDF i opcji dla ich rozwiązania.
Rodzaj struktury
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Dokument PDF jest sekwencją bloków, takich jak nagłówki, paragrafy, tabele i inne. Bloki te tworzą strukturę dokumentów - silnie lub słabo.
Zarówno silne jak i słabe struktury są ważne dla PDF / A. Microsoft Word dokumenty mają słabą strukturę z punktu widzenia projektu, oraz Aspose.Words tworzy PDF ze słabą strukturą odpowiednio, a także generuje nagłówki zgodnie z poziomami zarysu akapitów w dokumencie źródłowym.
W przypadku dokumentu PDF / UA-1 ze słabą strukturą wymagane jest dodatkowo, aby numery nagłówków były uporządkowane bez luk.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Struktura poziomu blokady może być zgodna z jednym z dwóch głównych paradygmatów:
ISO-32000-1, 14.8.4.3.5
W przypadku dokumentów PDF / UA-1 specyfikacja zawiera dodatek związany z poziomami nagłówków (rozszerzenie, aby zobaczyć szczegóły):
Jeżeli semantyka dokumentów wymaga malejącej sekwencji nagłówków, sekwencja taka postępuje w ścisłym porządku numerycznym i nie może pomijać interweniującego poziomu nagłówka. H1 H2 H3 jest dopuszczalne, natomiast H1 H3 nie.
ISO- 14289-1, 7.4.2
Aby zapewnić prawidłowe wyjście, użytkownicy muszą zapewnić, że zawartość dokumentu źródłowego jest prawidłowo zorganizowana i poziomy zarysu są poprawnie określone dla akapitów. W przeciwnym razie użytkownik powinien zweryfikować i naprawić strukturę wyjściowego dokumentu PDF.
W tym bloku można zobaczyć przykłady: jak ustawić poziomy zarysu w Microsoft Word lub sprawdzić i naprawić strukturę wyjściowego dokumentu PDF (rozszerzyć, aby zobaczyć szczegóły).
W Microsoft Word domyślny styl "Nagłówek X" może być użyty do ustawienia poziomu zarysu:
Ponadto poziom zarysu można sprawdzić lub zmienić w oknie "Paragraf":
W Acrobat struktura dokumentu może być sprawdzona lub zmieniona w panelu "Tags":
Oznaczanie treści jako artefaktu
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
W tej chwili, Aspose.Words oznacza nagłówki stron i stopki, separatory nut, powtarzające się komórki nagłówka tabeli i obrazy dekoracyjne jako artefakty. Należy pamiętać, że lista ta może być uaktualniona w przyszłości.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Obiekty graficzne w dokumencie można podzielić na dwie klasy:
ISO-32000-1, 14.8.2.2.1
Jeśli dokument zawiera jakąkolwiek inną zawartość, która powinna być oznaczona jako artefakt, lub jeśli jakakolwiek z treści artefaktowanych jest rzeczywistą zawartością, klienci powinni to naprawić w formacie PDF.
W tym bloku można zobaczyć przykłady: jak oznaczyć kształty jako dekoracyjne w Microsoft Word lub oznaczyć kształt jako artefakt w dokumencie wyjścia PDF (rozszerzyć, aby zobaczyć szczegóły).
Na przykład, kształty mogą być oznaczone jako dekoracyjne w Microsoft Word, więc będą eksportowane do PDF jako artefakt:
Możesz oznaczyć kształt jako artefakt w wyjściu PDF:
Ponadto, można przełączyć tekst w nagłówku z artefaktu na rzeczywistą zawartość w wyjściu PDF:
Specyfikacja języka naturalnego
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Język tekstowy jest określony w Microsoft Word dokumenty. Aspose.Words eksport określonego języka do wyjścia PDF z Lang atrybut dołączony do sekwencji zawartości lub znacznika Span - jest kontrolowany przez ExportLanguageToSpanTag nieruchomości. Ogólnie nie ma problemów językowych, gdy tekst jest wprowadzany przez użytkownika poprzez Microsoft Word. Ale istnieje możliwość, że język może być niedokładny, jeśli tekst jest generowany automatycznie.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Domyślny język naturalny dla całego tekstu w pliku powinien być określony przez wpis Lang w słowniku katalogu dokumentu.
Wszystkie treści tekstowe w pliku, które różnią się od domyślnego języka powinny być wskazywane za pomocą `Lang` właściwość dołączona do sekwencji znakowanej zawartości lub przez wpis Lang w słowniku elementów struktury...
ISO-19005-2, 6.7.4
Dodatkowo dla PDF / UA-1, specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Język naturalny jest deklarowany... Zgłosza się zmiany w języku naturalnym.
ISO- 14289-1, 7.2
W tym bloku można zobaczyć przykłady: jak upewnić się, że język jest podany poprawnie (rozszerzyć, aby zobaczyć szczegóły).
Użytkownicy powinni zapewnić prawidłowe określenie języka w dokumencie źródłowym Word:
Albo wyjściowy dokument PDF:
Rysunek
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Microsoft Word dokumenty pozwalają użytkownikom dodawać podpisy figurowe.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Podpis towarzyszący cyfrze jest oznaczany tagiem.
ISO- 14289-1, 7.3
Obecnie Aspose.Words nie może eksportować podpisy z tagiem Caption, więc muszą być oznaczone w formacie PDF wyjścia.
W tym bloku można zobaczyć przykłady: jak umieścić podpisy (rozszerzyć, aby zobaczyć szczegóły).
W Microsoft Word, podpisy można umieścić w menu kontekstowym:
W Acrobat napisy można dodać lub zmienić poprzez `Object` Okno właściwości:
Opisy zastępcze
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Microsoft Word dokumenty umożliwiają użytkownikom dodawanie tekstu alternatywnego do obrazów, kształtów i tabel. Aspose.Words eksportuj taki alternatywny tekst do wyjścia PDF.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Wszystkie elementy struktury, których zawartość nie posiada naturalnego, wcześniej określonego analogu tekstowego, np. obrazy, wzory itp., powinny dostarczyć alternatywnego opisu tekstu przy użyciu pozycji Alt w słowniku elementów struktury...
UWAGA Alternatywne opisy zawierają opisy tekstowe, które pomagają w prawidłowej interpretacji nieprzejrzystych treści nietekstowych w innych przypadkach.
ISO-19005-2, 6.7.5
W tym bloku można zobaczyć przykłady: jak zapewnić, że wszystkie elementy mają alternatywny tekst (rozszerzyć, aby zobaczyć szczegóły).
Użytkownicy powinni zapewnić, aby wszystkie elementy miały zastępczy tekst w dokumencie źródłowym Word:
Albo wyjściowy dokument PDF:
Alternatywne opisy dla Hyperlinks
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Oprócz poprzedniego punktu, Microsoft Word dokumenty umożliwiają również użytkownikom dodawanie do hiperlinków innego tekstu. Aspose.Words eksportuj taki alternatywny tekst do wyjścia PDF.
Niestety, nie każda aplikacja pozwala na ustawienie alternatywnego opisu. Na przykład: Adobe Acrobat obecnie nie umożliwia skonfigurowania takiego opisu dla hiperłączy. Ale w Microsoft Word, można to zrobić w następujący sposób:
Czasami istnieje problem, że nie jest możliwe ustawienie alt tekstu dla autogenerowanych hiperlinków w tabeli treści (TOC) poprzez Microsoft Word GUI. Aspose.Words może aktualizować takie pola i tworzyć linki samodzielnie.
Podążaj za przykładem kodu do aktualizacji TOC
pola za pomocą Aspose.Words Document Object Model (DOM):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Nagłówki tabeli
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Tabele w dokumentach PDF / UA-1 muszą mieć nagłówki - kolumnę, wiersz, lub oba. PDF / A wymaga tylko standardowego znacznika tabeli, który nie ma dodatkowych ograniczeń. Zauważ, że Aspose.Words automatycznie generuje standardowy znacznik tabeli.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Tabele powinny zawierać nagłówki... Tabele mogą zawierać nagłówki kolumn, nagłówki wierszy lub oba.
ISO- 14289-1, 7,5
W tym bloku można zobaczyć przykłady: jak ustawić nagłówek tabeli (rozszerzenie, aby zobaczyć szczegóły).
Nagłówek tabeli można ustawić albo źródło Microsoft Word dokument:
Lub wyjście PDF:
Tekst zamiany
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Specyfikacja mówi nam co następuje:
Wszystkie elementy struktury tekstowej, które są reprezentowane w sposób niestandardowy, np. znaki niestandardowe lub grafika inline, powinny dostarczyć zastępczy tekst za pomocą `ActualText` wpis w słowniku elementów struktury...
ISO-19005-2, 6.7.7
Microsoft Word dokument nie pozwala użytkownikom ustawić tekstu zastępczego. To musi być zweryfikowane i naprawione w formacie PDF:
Skróty i rozszerzenia akronimów
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / UA-1 |
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Wszystkie przykłady skrótów i akronimów w treści tekstowej powinny być umieszczone w sekwencji znakowanej zawartości z znacznikiem Span, którego właściwość E zapewnia tekstowe rozszerzenie skrótu lub akronimu...
ISO-19005-2, 6.7.8
Microsoft Word dokument nie pozwala użytkownikom ustawiać skrótów i rozszerzeń akronimów. To musi być zweryfikowane i naprawione w formacie PDF:
Tytuł dokumentu
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 2a | |
PDF / A- 4 | |
PDF / UA-1 |
Dokument w formacie PDF / UA-1 powinien mieć tytuł |
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Specyfikacja mówi nam co następuje:
Strumień metadanych w słowniku katalogowym dokumentu zawiera wpis dc: tytuł, gdzie dc jest zalecanym przedrostkiem dla schematu diametadanych rdzeń dublińskich...
ISO- 14289-1, 7.1
W tym bloku można zobaczyć przykłady: jak ustawić tytuł dokumentu (rozszerzyć, aby zobaczyć szczegóły).
Tytuł dokumentu można utworzyć albo źródło Microsoft Word dokument:
Lub wyjście PDF:
Wymagania dotyczące czcionki
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 1b | |
PDF / A- 2a | |
PDF / A- 2b | |
PDF / A- 4 | |
PDF / UA-1 |
Istnieje również wiele niuansów pracy z czcionkami przy konwersji do PDF / A-1, PDF / A-2, PDF / A-4 lub PDF / UA-1 za pomocą Aspose.Words. Muszą one być brane pod uwagę, jeśli chcesz uniknąć ewentualnych problemów z dokumentem wyjściowym.
Poniższe sekcje opisują takie niuanse i opcje ich rozwiązania.
Czcionka Wymagania prawne
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 1b | |
PDF / A- 2a | |
PDF / A- 2b | |
PDF / A- 4 | |
PDF / UA-1 |
Aspose.Words nie weryfikuje ograniczeń prawnych używanych czcionek - zależy to od użytkowników. Innymi słowy, użytkownik nie powinien dostarczać nieodpowiednich czcionek do konwersji PDF za pomocą Aspose.Words.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Używane są tylko programy czcionek, które są prawnie osadzone w pliku dla nieograniczonego, uniwersalnego renderowania.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (dokładnie te same cytaty w dwóch specyfikacjach)
.notdef Glyph
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 1b | |
PDF / A- 2a | |
PDF / A- 2b | |
PDF / A- 4 | |
PDF / UA-1 |
Stosowanie .notdef
glyph jest zabronione. W .notdef
glyph pojawi się, jeśli dokument zawiera znaki, które nie są obecne w wybranej czcionce i które również nie mogą być usunięte za pomocą mechanizmu Font Fallback.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Dokument zgodny nie może zawierać odniesienia do .notdef glyph z dowolnego tekstu pokazującego operatorów, niezależnie od trybu renderowania tekstu, w dowolnym strumieniu treści.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (dokładnie te same cytaty w dwóch specyfikacjach)
W tym bloku można zobaczyć przykłady: jak usunąć lub zastąpić te znaki (rozszerzyć, aby zobaczyć szczegóły).
Użytkownicy powinni usunąć lub zastąpić te znaki w dokumencie źródłowym Word:
Lub wyjściowy dokument PDF za pomocą narzędzia "Edytuj PDF":
Prywatny obszar użytkowania (PUA)
PDF standardowe poziomy zgodności wewnątrz Aspose.Words | Obecność wymogu |
---|---|
PDF / A- 1a | |
PDF / A- 1b | |
PDF / A- 2a | |
PDF / A- 2b | |
PDF / A- 4 | |
PDF / UA-1 |
Prywatne Use Area (PUA) znaki pojawiają się głównie dla Windows symboliczne czcionki takie jak “Symbol”, “Wingdings”, “Webdings” i inne. Microsoft Word formaty nie zapewniają opcji przechowywania rzeczywistego tekstu dla znaków.
Specyfikacja mówi nam, co następuje (rozszerzyć, aby zobaczyć szczegóły):
Dla poziomu W przypadku tego znaku lub sekwencji znaków, których taki znak jest częścią, występuje jedynie konformancja..., która jest przypisana do kodu lub kodów w Unicode Private Use Area (PUA).
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” jest Windows Czcionka unicode, która może być użyta jako alternatywa dla symbolicznych czcionek.
W tym bloku można zobaczyć przykłady: co użytkownik powinien zrobić, aby rozwiązać problem z symbolicznymi czcionkami (rozszerzyć, aby zobaczyć szczegóły).
Zastąp czcionkę symboliczną Unicode w dokumencie źródłowym Word:
Lub dodać wpis ActualText do problematycznych znaków w dokumencie wyjścia PDF: