Praca z PDF/A lub PDF/UA

Formaty PDF/A i PDF/UA nakładają szereg wymagań związanych z zawartością dokumentu, których nie da się spełnić podczas automatycznej konwersji dokumentu w formacie Word do formatu PDF. Wymagania te należy zweryfikować i poprawić w dokumencie Word przed konwersją lub w dokumencie PDF po konwersji, aby powstał dokument w pełni zgodny z formatami PDF/A i PDF/UA.

Podstawowe wymagania dotyczą struktury lub czcionek dokumentu PDF/A i PDF/UA, które rozważymy w kolejnych sekcjach.

Wymagania dotyczące struktury dokumentu

Obecne wymagania dotyczą formatów PDF/A-1a, PDF/A-2a, PDF/A-4 i PDF/UA-1.

Istnieją pewne niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF. Należy je wziąć pod uwagę, jeśli chcesz uzyskać oczekiwany efekt.

W poniższych podsekcjach opisano niuanse działania Aspose.Words podczas konwersji do różnych standardów formatu PDF oraz opcje ich rozwiązania.

Typ struktury

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Dokument PDF to sekwencja bloków, takich jak nagłówki, akapity, tabele i inne. Bloki te tworzą strukturę dokumentu – silną lub słabą.

W formacie PDF/A obowiązują zarówno mocne, jak i słabe struktury. Dokumenty Microsoft Word mają z założenia słabą strukturę, a Aspose.Words tworzy plik PDF odpowiednio o słabej strukturze, a także generuje nagłówki zgodnie z poziomami konspektu akapitów w dokumencie źródłowym.

W przypadku dokumentu PDF/UA-1 o słabej strukturze dodatkowo wymagane jest, aby numeracja nagłówków przebiegała w kolejności bez przerw.

Aby zapewnić prawidłowe wyniki, użytkownicy muszą upewnić się, że treść dokumentu źródłowego jest odpowiednio zorganizowana i że poziomy konspektu są prawidłowo określone dla akapitów. W przeciwnym razie użytkownik powinien sprawdzić i naprawić strukturę wyjściowego dokumentu PDF.

Oznaczanie treści jako artefaktu

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

W tej chwili Aspose.Words oznacza nagłówki i stopki stron, separatory notatek, powtarzające się komórki nagłówków tabeli i obrazy dekoracyjne jako artefakty. Należy pamiętać, że lista ta może być aktualizowana w przyszłości.

Jeśli dokument zawiera jakąkolwiek inną treść, którą należy oznaczyć jako artefakt, lub jeśli którakolwiek ze zniekształconych treści jest treścią prawdziwą, klienci powinni to poprawić w wyjściowym pliku PDF.

Specyfikacja języka naturalnego

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Język tekstu jest określony w dokumentach Microsoft Word. Aspose.Words eksportuje określony język do wyjściowego pliku PDF z atrybutem Lang dołączonym do sekwencji oznaczonej treści lub znacznikiem Span – jest to kontrolowane przez właściwość ExportLanguageToSpanTag. Ogólnie rzecz biorąc, nie ma problemów językowych, gdy użytkownik wprowadza tekst za pośrednictwem Microsoft Word. Istnieje jednak możliwość, że język będzie niedokładny, jeśli tekst zostanie wygenerowany automatycznie.

Podpis rysunku

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Dokumenty Microsoft Word umożliwiają użytkownikom dodawanie podpisów pod rysunkami.

Obecnie Aspose.Words nie może eksportować podpisów ze znacznikiem Caption, dlatego należy je oznaczyć w wyjściowym pliku PDF.

Alternatywne opisy

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1 tick

Dokumenty Microsoft Word umożliwiają użytkownikom dodawanie alternatywnego tekstu do obrazów, kształtów i tabel. Aspose.Words eksportuje taki alternatywny tekst do wyjściowego pliku PDF.

Alternatywne opisy hiperłączy

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Oprócz poprzedniego punktu dokumenty Microsoft Word umożliwiają także dodawanie tekstu alternatywnego do hiperłączy. Aspose.Words eksportuje taki alternatywny tekst do wyjściowego pliku PDF.

Niestety nie każda aplikacja pozwala na ustawienie alternatywnego opisu. Przykładowo Adobe Acrobat obecnie nie umożliwia ustawienia takiego opisu dla hiperłączy. Ale w Microsoft Word możesz to zrobić w następujący sposób:

udostępnij opis-hiperłącza-mw

Czasami występuje problem polegający na tym, że nie można ustawić tekstu alternatywnego dla automatycznie generowanych hiperłączy w spisie treści (TOC) za pośrednictwem GUI Microsoft Word. Aspose.Words mógłby samodzielnie aktualizować takie pola i generować linki.

Postępuj zgodnie z przykładem kodu, aby zaktualizować pola TOC przy użyciu formatu Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);

	var tocHyperLinks = doc.Range.Fields
		.Where(f => f.Type == FieldType.FieldHyperlink)
		.Cast<FieldHyperlink>()
		.Where(f => f.HRef.StartsWith("#_Toc"));
	
	foreach (FieldHyperlink link in tocHyperLinks)
		link.ScreenTip = link.DisplayResult;
	
	PdfSaveOptions opt = new PdfSaveOptions()
	{
		Compliance = PdfCompliance.PdfUa1,
		DisplayDocTitle = true,
		ExportDocumentStructure = true,
	};
	opt.OutlineOptions.HeadingsOutlineLevels = 3;
	opt.OutlineOptions.CreateMissingOutlineLevels = true;
	
	var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
	doc.Save(outFile, opt);

Nagłówki tabeli

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-2a
PDF/UA-1 tick

Tabele w dokumentach PDF/UA-1 muszą mieć nagłówki – kolumnę, wiersz lub oba. PDF/A wymaga jedynie standardowych znaczników tabeli, które nie mają żadnych dodatkowych ograniczeń. Należy pamiętać, że Aspose.Words automatycznie generuje standardowe znaczniki tabeli.

Tekst zastępczy

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Dokument Microsoft Word nie pozwala użytkownikom ustawić tekstu zastępczego. Należy to zatem zweryfikować i naprawić w wyjściowym pliku PDF:

Tekst zastępczy programu Acrobat

Skróty i akronimy. Rozszerzenia

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-2a tick
PDF/UA-1

Dokument Microsoft Word nie pozwala użytkownikom na ustawianie skrótów i rozwinięć akronimów. Należy to zatem zweryfikować i naprawić w wyjściowym pliku PDF:

AcrobatSplitAddExpansionText

Tytuł dokumentu

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-2a
PDF/A-4
PDF/UA-1 tick
Dokument w formacie PDF/UA-1 powinien mieć tytuł

Wymagania dotyczące czcionki

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Istnieje również wiele niuansów pracy z czcionkami podczas konwersji do formatów PDF/A-1, PDF/A-2, PDF/A-4 lub PDF/UA-1 przy użyciu Aspose.Words. Należy je wziąć pod uwagę, jeśli chcesz uniknąć ewentualnych problemów z dokumentem wyjściowym.

W poniższych sekcjach opisano takie niuanse i opcje ich rozwiązania.

Wymagania prawne dotyczące czcionek

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a tick
PDF/A-1b tick
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Aspose.Words nie weryfikuje ograniczeń prawnych stosowanych czcionek – jest to w gestii użytkowników. Innymi słowy, użytkownik nie powinien udostępniać nieodpowiednich czcionek do konwersji plików PDF za pomocą Aspose.Words.

.notdef Glyph

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1 tick

Korzystanie z .notdef glyph jest zabronione. .notdef glyph pojawi się, jeśli dokument zawiera znaki, których nie ma w wybranej czcionce i których również nie można rozpoznać za pomocą mechanizmu zastępczego czcionki.

Obszar użytku prywatnego (PUA)

Poziomy zgodności ze standardami PDF w Aspose.Words Obecność wymagania
PDF/A-1a
PDF/A-1b
PDF/A-2a tick
PDF/A-2u tick
PDF/A-4 tick
PDF/UA-1

Znaki z obszaru użytku prywatnego (PUA) pojawiają się głównie w przypadku czcionek symbolicznych Windows, takich jak “Symbol”, “Wingdings”, “Webdings” i innych. Formaty Microsoft Word nie zapewniają opcji przechowywania rzeczywistego tekstu w postaci znaków.

“Segoe UI Symbol” to czcionka Unicode Windows, której można używać jako alternatywy dla czcionek symbolicznych.