PDF/A veya PDF/UA ile çalışmak
PDF/A ve PDF/UA formatı, otomatik olarak Word formatındaki bir belgeden PDF’ye dönüştürme sırasında yerine getirilemeyen belge içeriğine ilişkin birkaç gereksinim emreder. Bu gereksinimler, dönüştürmeden önce bir kelime belgesinde doğrulanmalı ve düzeltilmeli veya dönüştürükten sonra bir PDF belgesinde üretilmesi tam olarak PDF / A ve PDF / UA uyumlu bir belge için yapılmalıdır.
Temel gereksinimler bir PDF / A ve PDF / UA belgesi için yapıya veya yazı tiplerine ilişkin gereksinimlerdir, bunları aşağıdaki bölümler ele alacaktır.
Belge Yapısı Gereksinimleri
Geçerli gereksinimler, PDF/A-1a, PDF/A-2a, PDF/A-4 ve PDF/UA-1 biçimleri için gereklidir.
Çeşitli PDF biçim standartlarına dönüştürürken Aspose.Words’ın nasıl çalıştığına dair bazı nüanslar var. Onların hesap edilmesi istenen sonucu almak istiyorsan göz önünde bulundurulması gerekir.
Yazarların uygun bir doğrulama olmadan otomatik süreçler kullanarak yapısal veya anlamsal bilgi oluşturmaları önerilmez.
ISO 19005-2, 6.7.1
Aşağıdaki alt bölümler, Aspose.Words çeşitli PDF biçim standartlarına dönüştürüldüğünde nasıl çalıştığına dair nüansları ve bunların çözümleri için seçenekleri açıklar.
Yapı Türü
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Bir PDF belgesi başlıklar, paragraflar, tablolar ve diğerleri gibi blokların bir dizisidir. Bu bloklar bir belge yapısı oluşturur - güçlü veya zayıf.
Hem güçlü hem de zayıf yapılar PDF/A için geçerlidir. Microsoft Word belgeleri tasarım olarak zayıf bir yapıya sahiptir ve Aspose.Words kaynak belge içindeki paragrafların alt düzeylerine uygun başlıkları oluşturmak üzere zayıf bir yapıya sahip bir PDF oluşturur.
Zayıf bir yapısına sahip bir PDF/UA-1 belgesi için başlık numaralarının boşluklar olmadan sırayla gitmesi ek olarak gereklidir.
Blok düzeyli yapı iki ana paradigmadan birini takip edebilir:
ISO - 32000-1, 14.8.4.3.5
Belge semantiği bir başlık dizisinin aşağı doğru sıralamasını gerektiriyorsa, bu dizi sıkı bir sayısal sırada ilerlemeli ve bir ara başlık seviyesini atlamamalıdır. H1 H2 H3 kabul edilemez, H1 H3 değildir
ISO -14289 -1, 7.4.2
Doğru çıktıyı sağlamak için kullanıcıların kaynak belge içeriğinin düzgün bir şekilde organize edildiğini ve paragraflar için çıkış düzeylerinin doğru belirtildiğini sağlamaları gerekir. Aksi takdirde, kullanıcının çıktı PDF belgesinin yapısını doğrulaması ve onarması gerekir.
Bu blokta örnekler görebilirsiniz: Microsoft Word'da taslak seviyelerini ayarlama veya çıktının PDF belgesinin yapısını kontrol edip düzeltme (detayları görmek için genişletme)
In Microsoft Word varsayılan "Başlık X" stilleri, kenarlık seviyesini ayarlamak için kullanılabilir:
Ayrıca, başlık seviyesi "Paragraf" penceresinde kontrol edilebilir veya değiştirilebilir:
Acrobat'ta belge yapısı kontrol edilebilir veya "Etiketler" panelinde değiştirilebilir
:İçeriği Bir Artifak olarak İşaretleme
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Şu anda Aspose.Words sayfa başlıkları ve alt yazılarına, not ayırıcılarına, tekrar eden tablo başlık hücresine ve süsleme resimleri olarak işaretler. Bu listenin gelecekte güncellenebileceğini not edin.
Bir belge içindeki grafik nesneleri iki sınıfa ayrılabilir:
ISO-32000-1, 14.8.2.2.1
Eğer bir belge herhangi bir diğer içeriği, bir hazine olarak işaretlenmelidir ya da herhangi bir hazine içeriği gerçek içerik ise, müşteriler çıktıda bunu düzeltmelidir.
Bu blokta aşağıdaki örnekleri görebilirsiniz: Microsoft Word'de şekilleri dekoratif olarak işaretlemek veya çıktı PDF belgesinde bir şekil işaretleyici olarak işaretlemek (ayrıntıları göstermek için genişletmek)
Örneğin, şekillerin dekoratif olarak işaretlenebileceği Microsoft Word gibi, bir yapay harabe olarak dışarıya aktarılacakları:
Çıkışta bir artefak olarak şekil işaretleyebilirsiniz:
Ayrıca, başlık metnini gerçek içeriğe geçiş yapabilirsiniz çıktı PDF'nin yapıtından:
Doğal Dil Spesifikasyonu
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Metin dili belirtilen Microsoft Word belgede yer alır. Aspose.Words belirtilen dili bir çıktı PDF’ye ekle ve belirtilen dil özniteliği bir işaretli içerik dizisine veya bir Span etiketi ile birlikte Lang etiketine bağlanır - bu, ExportLanguageToSpanTag özelliğine kontrol edilir. Genel olarak, metin kullanıcı tarafından girildiğinde dil sorunları yoktur Microsoft Word. Ancak otomatik metin oluşturulması durumunda dilin yanlış olması ihtimali var.
Yürütme spesifikasyonu bize şu (ayrıntıları görmek için genişlet) bildirir:
Bir dosyanın tüm metinleri için varsayılan doğal dil, bir belge sözlüğündeki Lang girişi ile belirtilmelidir.
Bir dosyadaki metin içeriği varsayılan dilden farklıysa bir `Lang` özelliğini işaretlemek için bir işaretli içerik dizisi veya bir Yapı elemanının sözlüğü içindeki bir Lang girişi kullanarak belirtilmelidir...
ISO-19005-2, 6.7.4
Ek olarak PDF/UA-1 için, belirtim bize şu detayları anlatır (detayları görmek için genişletin):
Doğal dil ilan edilecek... Doğal dildeki değişiklikler bildirilecek.
ISO-14289-1, 7.2
Bu blok içinde örnekleri görebilirsiniz: dilin doğru şekilde belirtildiğinden emin olmak (ayrıntıları görmek için genişletme)
Kullanıcılar, kaynak Word belgesinde dilin doğru bir şekilde belirtildiğinden emin olmalıdır:
Ya çıktıyı PDF belgesi:
Şekil Açıklaması
PDF standart uyum düzeyleri içinde Aspose.Words | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word belgeleri kullanıcıların bir figür başlığı eklemesine imkan tanır.
Şekil ile birlikte bir başlık etiketlenecek.
ISO-14289-1, 7.3
Şu anda Aspose.Words altyazıları Caption etiketiyle dışa aktaramaz, bu yüzden bunları çıktı PDF’sinde işaretlemek zorundadır.
In Microsoft Word başlık bağlam menüsü aracılığıyla eklenebilir:
Adobe Acrobat'te, başlık `Object` özellik iletişim kutusu aracılığıyla eklenebilir veya değiştirilebilir:
Alternatif Açıklamalar
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word belgeleri kullanıcıların alternatif metinleri resimlere, şekillere ve tablolara eklemesine izin verir. Aspose.Words bu alternatif metni çıktı PDF’ine dışarı aktarır.
İçeriği doğal olarak önceden belirlenmiş metin analoguna sahip olmayan tüm yapı elemanları, örneğin resimler, formüller vb., Yapı Elemanı Sözlüğü'ndeki Alt girişini kullanarak alternatif bir metin açıklaması sağlamalıdır.
Not: Alternatif açıklamalar, aksi takdirde opak olmayan metin dışı içeriğin doğru yorumlanmasına yardımcı olacak metin açıklamaları sağlar.
ISO-19005-2, 6.7.5
Bu blokta örnekler görebilirsiniz: tüm öğelerin alternatif bir metin olduğunu nasıl garanti edersiniz (detayları görmek için genişletin)
Kullanıcıların tüm öğelerin bir alternatif metne sahip olduğundan emin olmalarını sağlamaları gerekir ya da kaynak kelime belgesinde:
Ya çıktı pdf belgesi:
Hyperlinkler için Alternatif Tanımlar
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Önceki noktaya ek olarak Microsoft Word belgeleri kullanıcıların alternatif metni bağlantıya eklemesine izin verir. Aspose.Words böyle bir alternatif metni çıktı PDF’ine dışarı aktarır.
Ne yazık ki, her uygulama alternatif bir açıklama ayarlamanıza izin vermez. Örneğin, Adobe Acrobat şu anda böyle bir açıklamayı hiper bağlantılar için etkinleştirmemektedir. Fakat Microsoft Word’da bunu şu şekilde yapabilirsiniz:
Bazen bir sorun ortaya çıkıyor, otomatik olarak oluşturulan bağlantılar için alt metin ayarlamak mümkün değil Microsoft Word GUI aracılığıyla, İçindekiler (TOC) tablosu Aspose.Words bu alanları kendisi güncelleyebilir ve bağlantıları üretebilir.
TOC
alanlarını Aspose.Words Document Object Model kullanarak güncellemek için kod örneğini izleyin ( DOM ):
Document doc = new Document(fileName);
ArrayList<FieldHyperlink> tocHyperLinks = new ArrayList<>();
for (Field field : doc.getRange().getFields()) {
if (field.getType() == FieldType.FIELD_HYPERLINK) {
FieldHyperlink hyperlink = (FieldHyperlink) field;
if (hyperlink.getFieldCode().startsWith("#_Toc")) {
tocHyperLinks.add(hyperlink);
}
}
}
for (FieldHyperlink link : tocHyperLinks)
link.setScreenTip(link.getDisplayResult());
PdfSaveOptions opt = new PdfSaveOptions();
opt.setCompliance(PdfCompliance.PDF_UA_1);
opt.setDisplayDocTitle(true);
opt.setExportDocumentStructure(true);
opt.getOutlineOptions().setHeadingsOutlineLevels(3);
opt.getOutlineOptions().setCreateMissingOutlineLevels(true);
String outFile = fileName.substring(0,fileName.lastIndexOf('.')) + "_aw.pdf";
doc.save(outFile, opt);
Masa Başlıkları
PDF standart uyum seviyeleri içinde Aspose.Words | Gereksinim varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
PDF/UA-1 belgelerindeki tabloların başlıkları olmalı - sütun, satır veya her ikisi. PDF/A sadece standart tablo işaretlemesini gerektirir ki bu ek kısıtlamalar içermez. Not edin ki Aspose.Words standart tablo işaretlemesi otomatik olarak oluşturur.
Tablolar başlıkları içermeli... Tablolar sütun başlıkları, satır başlıkları veya her ikisini birden içerebilir.
ISO-14289-1, 7.5
Tablo başlığı ya Microsoft Word kaynak belgesi ile kurulabilir:
Veya çıktı PDF:
Değiştirme Metni
PDF standart uyum düzeyleri içinde Aspose.Words | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasyon bize şu şekilde der:
Özel karakterler veya satır içi grafikler gibi standart olmayan şekilde temsil edilen tüm metin yapısı öğeleri, yapı öğesi sözlüğündeki `ActualText` girişini kullanarak değiştirme metni sağlamalıdır ...
ISO-19005-2, 6.7.7
Microsoft Word belgesi kullanıcıları yedekleme metni ayarlamasına izin vermez. Bu nedenle bu, çıktı PDF’de doğrulanması ve düzeltilmesi gerekir:
Kısaltmalar ve Akronimler Genişlemeleri
PDF standart uyum düzeyleri içinde Aspose.Words | Gereksinim varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Belirtim bize şunu (ayrıntıları göstermek için genişlet) söylüyor:
Metinsel içerikteki tüm kısaltmalar ve akronimlerin yerine gelmesi bir işaretli içerik dizisi ile yapılmalıdır; Spantag'ın E özelliği, kısaltma veya akronimin metin genişlemesini sağlar...
ISO-19005-2, 6.7.8
Microsoft Word belgesi kullanıcıların kısaltma ve akronim genişlemeleri ayarlamasına izin vermez. Bu bu yüzden doğrulanmalı ve çıktı PDF’de düzeltilmeli:
Belge Başlığı
PDF standart uyum düzeyleri içinde Aspose.Words | İsteğin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
Belge PDF/UA-1 bir başlık içermelidir. |
Spesifikasyon bize şu şekilde der:
Belgenin kataloğunda bulunan Metadata akışının dc: title girişinde içermesi gerekir. dc, Dublin Core meta veri şeması için önerilen öneki ...
ISO-14289-1, 7.1
<ayrıntılar> <özet>Bu blokta, belgenin başlığını nasıl ayarlayacağını (ayrıntıları göstermek için genişleterek) görebilirsiniz.</özet>
Belge başlığı ya kaynak Microsoft Word belgesi olarak da kurulabilir.
Ya da çıktı PDF:
Font Gereksinimleri
PDF standart uyum düzeyleri içinde Aspose.Words | Gereksinim varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
PDF/A-1, PDF/A-2, PDF/A-4 veya PDF/UA-1 formatlarına dönüştürürken Aspose.Words’ı kullanarak yazı tipleri ile çalışırken bir dizi ince ayar da vardır. Bu belgenin olası sorunlarla karşılaşmamak için dikkate alınmalıdırlar.
Aşağıdaki bölümler bu nüansları ve bunların çözümleri için seçenekleri açıklar.
Tip Yasal Gereksinimleri
PDF standart uyum düzeyleri içinde Aspose.Words'' | Gereksinim varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words kullanılan yazı tiplerinin yasal kısıtlamalarını doğrulamaz – kullanıcılara kalmış. Başka bir deyişle, bir kullanıcı Aspose.Words’u kullanarak PDF dönüştürmesi için uygunsuz yazı tipleri sağlamamalı.
Sertifikasyon bize aşağıdakiları söyler (ayrıntıları görmek için genişletin):
Sadece yasal olarak bir dosyaya gömülebilir olan ve sınırsız, evrensel işleme izin veren yazı tipleri kullanılacaktır.
ISO-19005-2, 6.2.11.4.1 ; ISO-14289-1, 7.21.4.1 (iki taslakta tam olarak aynı alıntılar)
.notdef Glyph
PDF standart uyum düzeyleri içinde Aspose.Words | Gereksinim varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Kullanımın .notdef
glyph’i yasaklanmıştır. The .notdef
glyph’s will appear if a document contains characters that are not present in the selected font, and is unable to resolve them through the Font Fallback mechanism.
Spesifikasyon bize aşağıdaki (ayrıntıları göstermek için genişlet) (genişlet):
Uyumluluk gösteren bir belge .notdef glyph herhangi bir metin gösterme operatörlerine başvurmak içermemeli, hangi metin çizme modu olursa olsun, herhangi bir içerik akışında
ISO -19005 -2, 6.2.11.8 ; ISO -14289 -1, 7.21.8 ( tam aynı alıntılar iki spesifikasyonda)
Kullanıcılar, kaynak Word belgesine ya da her ikisine de bu karakterleri kaldırmalı veya değiştirmelidir:
Ya da "PDF Düzenle" aracını kullanarak çıktıyı PDF belgesi olarak kaydedin:
Özel Kullanım Alanı (PUA)
PDF standart uyum düzeyleri içinde Aspose.Words | İhtiyaç varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2b | |
PDF/A-4 | |
PDF/UA-1 |
Özel Kullanım Alanı (PUA) karakterleri çoğunlukla Windows sembolik yazı tipleri için görünür, örneğin “Sembol”, “Kanat Çıkartmaları”, “Webdings” ve diğerleri. Microsoft Word formatları karakterlerin gerçek metni depolamak için bir seçenek sağlamaz.
Sadece Seviye A uyum için, bir karakter ... her şey Unicode Özel Kullanım Alanı'nda (PUA) kod veya kodlara eşlendiğinde, bu karakterin veya bu karakterin bir parçası olan karakterlerin dizisinin bir parçası olduğu için ActualText girişi ... mevcut olmalıdır.
ISO-19005-2, 6.2.11.7.3
“Segoe UI sembolü” Windows sembolik fontlara alternatif olarak kullanılabilir Unicode font.
Kısayol yazı tipini kaynak Word belgesinde bir Unicode yazı tipi ile değiştirin:
Çıktı PDF belgesinde sorunlu karakterler için bir ActualText girişi ekleyin: