Praca z PDF/A lub PDF/UA
Format PDF/A i PDF/UA nakłada kilka wymagań związanych z zawartością dokumentu, których nie można spełnić podczas automatycznej konwersji z dokumentu w formacie Word na PDF. Wymagania te należy zweryfikować i skorygować albo w dokumencie Word przed konwersją, albo w dokumencie PDF po konwersji, aby uzyskać w pełni zgodny dokument PDF/A i PDF/UA.
Podstawowe wymagania dotyczą struktury lub czcionek dokumentu PDF/A i PDF/UA, które rozważymy w kolejnych sekcjach.
Wymagania Dotyczące Struktury Dokumentu
Obecne wymagania dotyczą PDF/A-1a, PDF/A-2a, PDF/A-4, i PDF/UA-1 formatów.
Istnieją pewne niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF. Należy je wziąć pod uwagę, jeśli chcesz uzyskać oczekiwany rezultat.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Niewskazane jest, aby autorzy generowali informacje strukturalne lub semantyczne przy użyciu zautomatyzowanych procesów bez odpowiedniej weryfikacji.
ISO 19005-2, 6.7.1
Poniższe podsekcje opisują niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF i opcji ich rozwiązania.
Typ Struktury
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Dokument PDF to sekwencja bloków, takich jak nagłówki, akapity, tabele i inne. Bloki te tworzą strukturę dokumentu-silnie lub słabo.
Zarówno silne, jak i słabe struktury są ważne dla PDF/A. Microsoft Word dokumenty mają słabą strukturę z założenia i Aspose.Words tworzy PDF odpowiednio ze słabą strukturą, a także generuje nagłówki zgodnie z poziomami konturów akapitów w dokumencie źródłowym.
W przypadku dokumentu PDF/UA-1 o słabej strukturze wymagane jest dodatkowo, aby numery nagłówków były uporządkowane bez przerw.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Struktura na poziomie bloku może być zgodna z jednym z dwóch głównych paradygmatów:
ISO-32000-1, 14.8.4.3.5
Dla dokumentów PDF/UA-1 Specyfikacja zawiera dodatek związany z poziomami nagłówków (rozwiń, aby zobaczyć szczegóły):
Jeżeli semantyka dokumentu wymaga malejącej sekwencji nagłówków, taka sekwencja przebiega w ścisłej kolejności numerycznej i nie pomija poziomu nagłówka interweniującego. H1 H2 H3 jest dopuszczalne, podczas gdy H1 H3 nie jest.
ISO-14289-1, 7.4.2
Aby zapewnić prawidłowe wyniki, użytkownicy muszą upewnić się, że zawartość dokumentu źródłowego jest odpowiednio zorganizowana, a poziomy konspektu są poprawnie określone dla akapitów. W przeciwnym razie użytkownik powinien zweryfikować i naprawić strukturę dokumentu wyjściowego PDF.
W tym bloku możesz zobaczyć przykłady: jak ustawić poziomy konturu w Microsoft Word lub sprawdzić i naprawić strukturę dokumentu wyjściowego PDF (rozwiń, aby zobaczyć szczegóły).
W domyślnych stylach Microsoft Word "nagłówek X" można użyć do ustawienia poziomu konturu:
Ponadto poziom konturu można sprawdzić lub zmienić w oknie " akapit:
W programie Acrobat strukturę dokumentu można sprawdzić lub zmienić w okienku " Tagi:
Oznaczanie zawartości jako artefaktu
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
W tej chwili Aspose.Words oznacza nagłówki i stopki stron, separatory notatek, powtarzające się komórki nagłówka tabeli i dekoracyjne obrazy jako artefakty. Pamiętaj, że ta lista może zostać zaktualizowana w przyszłości.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Obiekty graficzne w dokumencie można podzielić na dwie klasy:
ISO-32000-1, 14.8.2.2.1
Jeśli dokument zawiera jakąkolwiek inną zawartość, która powinna być oznaczona jako artefakt lub jeśli którakolwiek z artifacted treści jest rzeczywistą treścią, klienci powinni naprawić to w wyniku PDF.
W tym bloku można zobaczyć przykłady: jak oznaczyć kształty jako dekoracyjne w Microsoft Word lub oznaczyć kształt jako artefakt w dokumencie wyjściowym PDF (rozwiń, aby zobaczyć szczegóły).
Na przykład kształty mogą być oznaczone jako dekoracyjne w Microsoft Word, więc zostaną wyeksportowane do PDF jako artefakt:
Możesz oznaczyć kształt jako artefakt na wyjściu PDF:
Możesz także przełączyć tekst w nagłówku z artefaktu na rzeczywistą zawartość na wyjściu PDF:
Specyfikacja Języka Naturalnego
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Język tekstu jest określony w dokumentach Microsoft Word. Aspose.Words eksportuje określony język do pliku wyjściowego PDF z atrybutem Lang dołączonym do oznaczonej sekwencji treści lub znacznika Span-jest on kontrolowany przez właściwość ExportLanguageToSpanTag. Generalnie nie ma problemów językowych, gdy tekst jest wprowadzany przez użytkownika za pośrednictwem Microsoft Word. Istnieje jednak możliwość, że język może być niedokładny, jeśli tekst zostanie wygenerowany automatycznie.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Domyślny język naturalny dla całego tekstu w pliku powinien być określony przez wpis Lang w słowniku katalogu dokumentu.
Cała zawartość tekstowa w pliku, która różni się od języka domyślnego, powinna być wskazana za pomocą właściwości `Lang` dołączonej do sekwencji oznaczonej treścią lub wpisu Lang w słowniku elementów struktury ...
ISO-19005-2, 6.7.4
Dodatkowo dla PDF/UA-1 Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Deklaruje się zmiany w języku naturalnym..
ISO-14289-1, 7.2
W tym bloku możesz zobaczyć przykłady: jak upewnić się, że język jest poprawnie określony (rozwiń, aby zobaczyć szczegóły).
Użytkownicy powinni upewnić się, że język jest poprawnie określony w dokumencie źródłowym Word:
Lub dokument wyjściowy PDF:
Rysunek Podpis
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umożliwiają użytkownikom dodawanie podpisów do rysunku.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Podpis dołączony do figury powinien być oznaczony tagiem podpisu.
ISO-14289-1, 7.3
Obecnie Aspose.Words nie można eksportować podpisów za pomocą tagu podpisu, więc muszą być oznaczone w wyniku PDF.
W tym bloku możesz zobaczyć przykłady: jak wstawić podpis (rozwiń, aby zobaczyć szczegóły).
W Microsoft Word podpis można wstawić za pomocą menu kontekstowego:
W programie Acrobat podpis można dodać lub zmienić za pomocą okna dialogowego właściwości `Object`:
Alternatywne Opisy
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word dokumenty umożliwiają użytkownikom dodawanie tekstu alternatywnego do obrazów, kształtów i tabel. Aspose.Words eksportuje taki alternatywny tekst do wyjścia PDF.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Wszystkie elementy struktury, których treść nie ma naturalnego z góry określonego analogu tekstowego, np. obrazy, wzory itp., powinien dostarczyć alternatywny opis tekstowy przy użyciu wpisu Alt w słowniku elementów struktury...
NOTE opisy alternatywne zawierają opisy tekstowe, które pomagają we właściwej interpretacji nieprzejrzystej treści nietekstowej.
ISO-19005-2, 6.7.5
W tym bloku możesz zobaczyć przykłady: jak upewnić się, że wszystkie elementy mają alternatywny tekst (rozwiń, aby zobaczyć szczegóły).
Użytkownicy powinni upewnić się, że wszystkie elementy mają alternatywny tekst w dokumencie źródłowym Word:
Lub dokument wyjściowy PDF:
Alternatywne opisy hiperłączy
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Oprócz poprzedniego punktu dokumenty Microsoft Word umożliwiają również użytkownikom dodawanie alternatywnego tekstu do hiperłączy. Aspose.Words eksportuje taki alternatywny tekst do wyjścia PDF.
Niestety nie każda aplikacja pozwala skonfigurować alternatywny opis. Na przykład Adobe Acrobat Obecnie nie umożliwia skonfigurowania takiego opisu dla hiperłączy. Ale w Microsoft Word możesz to zrobić w następujący sposób:
Czasami pojawia się problem polegający na tym, że nie można ustawić tekstu alternatywnego dla automatycznie generowanych hiperłączy w spisie treści (TOC) przez Microsoft Word GUI. Aspose.Words może aktualizować takie pola i samodzielnie generować łącza.
Postępuj zgodnie z przykładem kodu, aby zaktualizować pola TOC
przy użyciu Aspose.Words Document Object Model (DOM):
auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->
LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });
for (const auto& link : tocHyperLinks)
link->set_ScreenTip(link->get_DisplayResult());
auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);
auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);
Nagłówki Tabel
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Tabele w dokumentach PDF/UA-1 muszą mieć nagłówki – kolumnę, wiersz lub oba. PDF/A wymaga tylko standardowego znacznika tabeli, który nie ma dodatkowych ograniczeń. Zauważ, że Aspose.Words automatycznie generuje standardowe znaczniki tabeli.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Tabele powinny zawierać nagłówki ... tabele mogą zawierać nagłówki kolumn, nagłówki wierszy lub oba.
ISO-14289-1, 7.5
W tym bloku możesz zobaczyć przykłady: jak ustawić nagłówek tabeli (rozwiń, aby zobaczyć szczegóły).
Nagłówek tabeli może być skonfigurowany jako dokument źródłowy Microsoft Word:
Lub wyjście PDF:
Tekst Zastępczy
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Specyfikacja mówi nam, co następuje:
Wszystkie tekstowe elementy struktury, które są reprezentowane w niestandardowy sposób, np. znaki niestandardowe lub grafika liniowa, powinny dostarczać tekst zastępczy przy użyciu `ActualText` wpis w słowniku elementów struktury...
ISO-19005-2, 6.7.7
Microsoft Word dokument nie pozwala użytkownikom na ustawienie tekstu zastępczego. Więc to musi zostać zweryfikowane i naprawione w wyniku PDF:
Skróty i akronimy rozszerzenia
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Wszystkie wystąpienia skrótów i akronimów w treści tekstowej powinny być umieszczone w sekwencji oznaczonej treścią ze znacznikiem Span, którego właściwość E zapewnia tekstową ekspansję skrótu lub akronimu...
ISO-19005-2, 6.7.8
Microsoft Word dokument nie pozwala użytkownikom na ustawianie skrótów i rozszerzeń akronimów. Więc to musi zostać zweryfikowane i naprawione w wyniku PDF:
Tytuł Dokumentu
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Dokument w PDF/UA-1 powinien mieć tytuł. |
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Specyfikacja mówi nam, co następuje:
Strumień metadanych w słowniku katalogu dokumentu zawiera wpis dc: title, gdzie dc jest zalecanym prefiksem schematu metadanych Dublin Core…
ISO-14289-1, 7.1
W tym bloku możesz zobaczyć przykłady: jak ustawić tytuł dokumentu (rozwiń, aby zobaczyć szczegóły).
Tytuł dokumentu można skonfigurować jako dokument źródłowy Microsoft Word:
Lub wyjście PDF:
Wymagania Dotyczące Czcionek
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Istnieje również wiele niuansów pracy z czcionkami podczas konwersji na PDF/A-1, PDF/A-2, PDF/A-4 lub PDF/UA-1 formaty za pomocą Aspose.Words. Należy je wziąć pod uwagę, jeśli chcesz uniknąć ewentualnych problemów z dokumentem wyjściowym.
Poniższe sekcje opisują takie niuanse i opcje ich rozwiązania.
Wymagania Prawne Dotyczące Czcionek
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words nie weryfikuje ograniczeń prawnych używanych czcionek-to zależy od użytkowników. Innymi słowy, użytkownik nie powinien udostępniać nieodpowiednich czcionek do Konwersji PDF przy użyciu Aspose.Words.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Należy używać tylko programów czcionek, które można legalnie osadzić w pliku w celu nieograniczonego, uniwersalnego renderowania.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (dokładnie te same cytaty w dwóch specyfikacjach)
.notdef Glyph
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Używanie glifu .notdef
jest zabronione. Glif .notdef
pojawi się, jeśli dokument zawiera znaki, których nie ma w wybranej czcionce i których również nie można rozwiązać za pomocą mechanizmu rezerwowego czcionki.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Dokument zgodny nie zawiera odniesienia do.notdef glif z dowolnego tekstu pokazującego operatorów, niezależnie od trybu renderowania tekstu, w dowolnym strumieniu treści.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (dokładnie te same cytaty w dwóch specyfikacjach)
W tym bloku możesz zobaczyć przykłady: jak usunąć lub zastąpić te znaki (rozwiń, aby zobaczyć szczegóły).
Użytkownicy powinni usunąć lub zastąpić te znaki w dokumencie źródłowym Word:
Lub dokument wyjściowy PDF za pomocą narzędzia " Edytuj PDF":
Obszar Do Użytku Prywatnego (PUA)
PDF standardowe poziomy zgodności w obrębie Aspose.Words | Obecność wymogu |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Znaki obszaru użytku prywatnego (PUA) pojawiają się głównie dla czcionek symbolicznych Windows, takich jak “Symbol”, “Wingdings”, “Webdings” i inne. Microsoft Word formaty nie zapewniają opcji przechowywania rzeczywistego tekstu dla znaków.
Specyfikacja mówi nam, co następuje (rozwiń, aby zobaczyć szczegóły):
Tylko dla zgodności poziomu a, dla dowolnej postaci ... jest to mapowane na kod lub kody w obszarze użytku prywatnego Unicode (PUA), wpis ActualText... musi być obecny dla tego znaku lub sekwencji znaków, których taki znak jest częścią.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Symbol” to Windows czcionka Unicode, która może być używana jako alternatywa dla czcionek symbolicznych.
W tym bloku możesz zobaczyć przykłady: co użytkownik powinien zrobić, aby rozwiązać problem z czcionkami symbolicznymi (rozwiń, aby zobaczyć szczegóły).
Zastąp czcionkę symboliczną czcionką Unicode w źródłowym dokumencie Word:
Lub dodaj wpis ActualText do problematycznych znaków w dokumencie wyjściowym PDF: