Praca z PDF / A lub PDF / UA

Format PDF / A i PDF / UA nakłada kilka wymogów związanych z treścią dokumentu, których nie można spełnić podczas automatycznej konwersji z dokumentu w formacie Word do PDF. Wymogi te powinny zostać zweryfikowane i poprawione w dokumencie Word przed konwersją lub w dokumencie PDF po konwersji w celu sporządzenia dokumentu w pełni zgodnego z PDF / A i PDF / UA.

Podstawowe wymagania dotyczą struktury lub czcionek dokumentu PDF / A i PDF / UA, które rozważamy w poniższych sekcjach.

Wymogi dotyczące struktury dokumentów

Obecne wymagania dotyczą formatów PDF / A- 1a, PDF / A- 2a, PDF / A- 4 oraz PDF / UA-1.

Są pewne niuanse jak Aspose.Words działa podczas konwersji na różne standardy formatu PDF. Muszą być brane pod uwagę, jeśli chcesz uzyskać oczekiwany wynik.

Poniższe podsekcje opisują niuanse w jaki sposób Aspose.Words działa przy konwersji do różnych standardów formatu PDF i opcji dla ich rozwiązania.

Rodzaj struktury

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1 tick

Dokument PDF jest sekwencją bloków, takich jak nagłówki, paragrafy, tabele i inne. Bloki te tworzą strukturę dokumentów - silnie lub słabo.

Zarówno silne jak i słabe struktury są ważne dla PDF / A. Microsoft Word dokumenty mają słabą strukturę z punktu widzenia projektu, oraz Aspose.Words tworzy PDF ze słabą strukturą odpowiednio, a także generuje nagłówki zgodnie z poziomami zarysu akapitów w dokumencie źródłowym.

W przypadku dokumentu PDF / UA-1 ze słabą strukturą wymagane jest dodatkowo, aby numery nagłówków były uporządkowane bez luk.

Aby zapewnić prawidłowe wyjście, użytkownicy muszą zapewnić, że zawartość dokumentu źródłowego jest prawidłowo zorganizowana i poziomy zarysu są poprawnie określone dla akapitów. W przeciwnym razie użytkownik powinien zweryfikować i naprawić strukturę wyjściowego dokumentu PDF.

Oznaczanie treści jako artefaktu

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1 tick

W tej chwili, Aspose.Words oznacza nagłówki stron i stopki, separatory nut, powtarzające się komórki nagłówka tabeli i obrazy dekoracyjne jako artefakty. Należy pamiętać, że lista ta może być uaktualniona w przyszłości.

Jeśli dokument zawiera jakąkolwiek inną zawartość, która powinna być oznaczona jako artefakt, lub jeśli jakakolwiek z treści artefaktowanych jest rzeczywistą zawartością, klienci powinni to naprawić w formacie PDF.

Specyfikacja języka naturalnego

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1 tick

Język tekstowy jest określony w Microsoft Word dokumenty. Aspose.Words eksport określonego języka do wyjścia PDF z Lang atrybut dołączony do sekwencji zawartości lub znacznika Span - jest kontrolowany przez ExportLanguageToSpanTag nieruchomości. Ogólnie nie ma problemów językowych, gdy tekst jest wprowadzany przez użytkownika poprzez Microsoft Word. Ale istnieje możliwość, że język może być niedokładny, jeśli tekst jest generowany automatycznie.

Rysunek

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 2a
PDF / UA-1 tick

Microsoft Word dokumenty pozwalają użytkownikom dodawać podpisy figurowe.

Obecnie Aspose.Words nie może eksportować podpisy z tagiem Caption, więc muszą być oznaczone w formacie PDF wyjścia.

Opisy zastępcze

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1 tick

Microsoft Word dokumenty umożliwiają użytkownikom dodawanie tekstu alternatywnego do obrazów, kształtów i tabel. Aspose.Words eksportuj taki alternatywny tekst do wyjścia PDF.

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 2a
PDF / UA-1 tick

Oprócz poprzedniego punktu, Microsoft Word dokumenty umożliwiają również użytkownikom dodawanie do hiperlinków innego tekstu. Aspose.Words eksportuj taki alternatywny tekst do wyjścia PDF.

Niestety, nie każda aplikacja pozwala na ustawienie alternatywnego opisu. Na przykład: Adobe Acrobat obecnie nie umożliwia skonfigurowania takiego opisu dla hiperłączy. Ale w Microsoft Word, można to zrobić w następujący sposób:

alternate-descriptions-hyperlinks-mw

Czasami istnieje problem, że nie jest możliwe ustawienie alt tekstu dla autogenerowanych hiperlinków w tabeli treści (TOC) poprzez Microsoft Word GUI. Aspose.Words może aktualizować takie pola i tworzyć linki samodzielnie.

Podążaj za przykładem kodu do aktualizacji TOC pola za pomocą Aspose.Words Document Object Model (DOM):

Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();

for (Field field : doc.getRange().getFields()) {
    if (field.getType() == FieldType.FIELD_HYPERLINK) {
        FieldHyperlink hyperlink = (FieldHyperlink) field;
        if (hyperlink.getFieldCode().startsWith("#_Toc")) {
            tocHyperLinks.add(hyperlink);
        }
    }
}

for (FieldHyperlink link : tocHyperLinks)
    link.setScreenTip(link.getDisplayResult());

PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);

String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);

Nagłówki tabeli

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 2a
PDF / UA-1 tick

Tabele w dokumentach PDF / UA-1 muszą mieć nagłówki - kolumnę, wiersz, lub oba. PDF / A wymaga tylko standardowego znacznika tabeli, który nie ma dodatkowych ograniczeń. Zauważ, że Aspose.Words automatycznie generuje standardowy znacznik tabeli.

Tekst zamiany

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1

Microsoft Word dokument nie pozwala użytkownikom ustawić tekstu zastępczego. To musi być zweryfikowane i naprawione w formacie PDF:

AcrobatReplacementText

Skróty i rozszerzenia akronimów

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 2a tick
PDF / UA-1

Microsoft Word dokument nie pozwala użytkownikom ustawiać skrótów i rozszerzeń akronimów. To musi być zweryfikowane i naprawione w formacie PDF:

AcrobatSplitAddExpansionText

Tytuł dokumentu

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 2a
PDF / A- 4
PDF / UA-1 tick
Dokument w formacie PDF / UA-1 powinien mieć tytuł

Wymagania dotyczące czcionki

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 1b tick
PDF / A- 2a tick
PDF / A- 2b tick
PDF / A- 4 tick
PDF / UA-1 tick

Istnieje również wiele niuansów pracy z czcionkami przy konwersji do PDF / A-1, PDF / A-2, PDF / A-4 lub PDF / UA-1 za pomocą Aspose.Words. Muszą one być brane pod uwagę, jeśli chcesz uniknąć ewentualnych problemów z dokumentem wyjściowym.

Poniższe sekcje opisują takie niuanse i opcje ich rozwiązania.

Czcionka Wymagania prawne

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a tick
PDF / A- 1b tick
PDF / A- 2a tick
PDF / A- 2b tick
PDF / A- 4 tick
PDF / UA-1 tick

Aspose.Words nie weryfikuje ograniczeń prawnych używanych czcionek - zależy to od użytkowników. Innymi słowy, użytkownik nie powinien dostarczać nieodpowiednich czcionek do konwersji PDF za pomocą Aspose.Words.

.notdef Glyph

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 1b
PDF / A- 2a tick
PDF / A- 2b tick
PDF / A- 4 tick
PDF / UA-1 tick

Stosowanie .notdef glyph jest zabronione. W .notdef glyph pojawi się, jeśli dokument zawiera znaki, które nie są obecne w wybranej czcionce i które również nie mogą być usunięte za pomocą mechanizmu Font Fallback.

Prywatny obszar użytkowania (PUA)

PDF standardowe poziomy zgodności wewnątrz Aspose.Words Obecność wymogu
PDF / A- 1a
PDF / A- 1b
PDF / A- 2a tick
PDF / A- 2b tick
PDF / A- 4 tick
PDF / UA-1

Prywatne Use Area (PUA) znaki pojawiają się głównie dla Windows symboliczne czcionki takie jak “Symbol”, “Wingdings”, “Webdings” i inne. Microsoft Word formaty nie zapewniają opcji przechowywania rzeczywistego tekstu dla znaków.

“Segoe UI Symbol” jest Windows Czcionka unicode, która może być użyta jako alternatywa dla symbolicznych czcionek.