Praca z PDF/A lub PDF/UA

Format PDF/A i PDF/UA nakłada kilka wymagań związanych z zawartością dokumentu, których nie można spełnić podczas automatycznej konwersji z dokumentu w formacie Word na PDF. Wymagania te należy zweryfikować i skorygować albo w dokumencie Word przed konwersją, albo w dokumencie PDF po konwersji, aby uzyskać w pełni zgodny dokument PDF/A i PDF/UA.

Podstawowe wymagania dotyczą struktury lub czcionek dokumentu PDF/A i PDF/UA, które rozważymy w kolejnych sekcjach.

Wymagania Dotyczące Struktury Dokumentu

Obecne wymagania dotyczą PDF/A-1a, PDF/A-2a, PDF/A-4, i PDF/UA-1 formatów.

Istnieją pewne niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF. Należy je wziąć pod uwagę, jeśli chcesz uzyskać oczekiwany rezultat.

Poniższe podsekcje opisują niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF i opcji ich rozwiązania.

Typ Struktury

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Dokument PDF to sekwencja bloków, takich jak nagłówki, akapity, tabele i inne. Bloki te tworzą strukturę dokumentu-silnie lub słabo.

Zarówno silne, jak i słabe struktury są ważne dla PDF/A. Microsoft Word dokumenty mają słabą strukturę z założenia i Aspose.Words tworzy PDF odpowiednio ze słabą strukturą, a także generuje nagłówki zgodnie z poziomami konturów akapitów w dokumencie źródłowym.

W przypadku dokumentu PDF/UA-1 o słabej strukturze wymagane jest dodatkowo, aby numery nagłówków były uporządkowane bez przerw.

Aby zapewnić prawidłowe wyniki, użytkownicy muszą upewnić się, że zawartość dokumentu źródłowego jest odpowiednio zorganizowana, a poziomy konspektu są poprawnie określone dla akapitów. W przeciwnym razie użytkownik powinien zweryfikować i naprawić strukturę dokumentu wyjściowego PDF.

Oznaczanie zawartości jako artefaktu

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

W tej chwili Aspose.Words oznacza nagłówki i stopki stron, separatory notatek, powtarzające się komórki nagłówka tabeli i dekoracyjne obrazy jako artefakty. Pamiętaj, że ta lista może zostać zaktualizowana w przyszłości.

Jeśli dokument zawiera jakąkolwiek inną zawartość, która powinna być oznaczona jako artefakt lub jeśli którakolwiek z artifacted treści jest rzeczywistą treścią, klienci powinni naprawić to w wyniku PDF.

Specyfikacja Języka Naturalnego

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Język tekstu jest określony w dokumentach Microsoft Word. Aspose.Words eksportuje określony język do pliku wyjściowego PDF z atrybutem Lang dołączonym do oznaczonej sekwencji treści lub znacznika Span-jest on kontrolowany przez właściwość ExportLanguageToSpanTag. Generalnie nie ma problemów językowych, gdy tekst jest wprowadzany przez użytkownika za pośrednictwem Microsoft Word. Istnieje jednak możliwość, że język może być niedokładny, jeśli tekst zostanie wygenerowany automatycznie.

Rysunek Podpis

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Microsoft Word dokumenty umożliwiają użytkownikom dodawanie podpisów do rysunku.

Obecnie Aspose.Words nie można eksportować podpisów za pomocą tagu podpisu, więc muszą być oznaczone w wyniku PDF.

Alternatywne Opisy

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Microsoft Word dokumenty umożliwiają użytkownikom dodawanie tekstu alternatywnego do obrazów, kształtów i tabel. Aspose.Words eksportuje taki alternatywny tekst do wyjścia PDF.

Alternatywne opisy hiperłączy

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Oprócz poprzedniego punktu dokumenty Microsoft Word umożliwiają również użytkownikom dodawanie alternatywnego tekstu do hiperłączy. Aspose.Words eksportuje taki alternatywny tekst do wyjścia PDF.

Niestety nie każda aplikacja pozwala skonfigurować alternatywny opis. Na przykład Adobe Acrobat Obecnie nie umożliwia skonfigurowania takiego opisu dla hiperłączy. Ale w Microsoft Word możesz to zrobić w następujący sposób:

alternate-descriptions-hyperlinks-mw

Czasami pojawia się problem polegający na tym, że nie można ustawić tekstu alternatywnego dla automatycznie generowanych hiperłączy w spisie treści (TOC) przez Microsoft Word GUI. Aspose.Words może aktualizować takie pola i samodzielnie generować łącza.

Postępuj zgodnie z przykładem kodu, aby zaktualizować pola TOC przy użyciu Aspose.Words Document Object Model (DOM):

auto doc = MakeObject<Document>(filename);
auto tocHyperLinks = doc->get_Range()->get_Fields()->
    LINQ_Where([](SharedPtr<Field> f) {return f->get_Type() == FieldType::FieldHyperlink; })->            
    LINQ_Where([](SharedPtr<FieldHyperlink> f) { return f->get_DisplayResult().StartsWith(u"#_Toc"); });

for (const auto& link : tocHyperLinks)
    link->set_ScreenTip(link->get_DisplayResult());

auto opt = MakeObject<PdfSaveOptions>();
opt->set_Compliance(PdfCompliance::PdfUa1);
opt->set_DisplayDocTitle(true);
opt->set_ExportDocumentStructure(true);
opt->get_OutlineOptions()->set_HeadingsOutlineLevels(3);
opt->get_OutlineOptions()->set_CreateMissingOutlineLevels(true);

auto outFile = filename.substr(0, filename.find_last_of('.')) + "_aw.pdf";
doc->Save(outFile, opt);

Nagłówki Tabel

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabele w dokumentach PDF/UA-1 muszą mieć nagłówki – kolumnę, wiersz lub oba. PDF/A wymaga tylko standardowego znacznika tabeli, który nie ma dodatkowych ograniczeń. Zauważ, że Aspose.Words automatycznie generuje standardowe znaczniki tabeli.

Tekst Zastępczy

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument nie pozwala użytkownikom na ustawienie tekstu zastępczego. Więc to musi zostać zweryfikowane i naprawione w wyniku PDF:

AcrobatReplacementText

Skróty i akronimy rozszerzenia

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Microsoft Word dokument nie pozwala użytkownikom na ustawianie skrótów i rozszerzeń akronimów. Więc to musi zostać zweryfikowane i naprawione w wyniku PDF:

AcrobatSplitAddExpansionText

Tytuł Dokumentu

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument w PDF/UA-1 powinien mieć tytuł.

Wymagania Dotyczące Czcionek

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Istnieje również wiele niuansów pracy z czcionkami podczas konwersji na PDF/A-1, PDF/A-2, PDF/A-4 lub PDF/UA-1 formaty za pomocą Aspose.Words. Należy je wziąć pod uwagę, jeśli chcesz uniknąć ewentualnych problemów z dokumentem wyjściowym.

Poniższe sekcje opisują takie niuanse i opcje ich rozwiązania.

Wymagania Prawne Dotyczące Czcionek

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words nie weryfikuje ograniczeń prawnych używanych czcionek-to zależy od użytkowników. Innymi słowy, użytkownik nie powinien udostępniać nieodpowiednich czcionek do Konwersji PDF przy użyciu Aspose.Words.

.notdef Glyph

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1 tick

Używanie glifu .notdef jest zabronione. Glif .notdef pojawi się, jeśli dokument zawiera znaki, których nie ma w wybranej czcionce i których również nie można rozwiązać za pomocą mechanizmu rezerwowego czcionki.

Obszar Do Użytku Prywatnego (PUA)

PDF standardowe poziomy zgodności w obrębie Aspose.Words Obecność wymogu
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2b tick
PDF/A-4 tick
PDF/UA-1

Znaki obszaru użytku prywatnego (PUA) pojawiają się głównie dla czcionek symbolicznych Windows, takich jak “Symbol”, “Wingdings”, “Webdings” i inne. Microsoft Word formaty nie zapewniają opcji przechowywania rzeczywistego tekstu dla znaków.

“Segoe UI Symbol” to Windows czcionka Unicode, która może być używana jako alternatywa dla czcionek symbolicznych.