PDF/A veya PDF/UA ile çalışma
PDF/A ve PDF/UA formatı, Word formatındaki bir belgeden PDF’ye otomatik dönüştürme sırasında belge içeriğiyle ilgili olarak yerine getirilemeyen çeşitli gereksinimler getirir. Tamamen PDF/A ve PDF/UA uyumlu bir belge oluşturmak için bu gereksinimlerin dönüştürmeden önce bir Word belgesinde veya dönüştürme sonrasında bir PDF belgesinde doğrulanması ve düzeltilmesi gerekir.
Temel gereksinimler, aşağıdaki bölümlerde ele alacağımız PDF/A ve PDF/UA belgesinin yapısı veya yazı tipleri içindir.
Belge Yapısı Gereksinimleri
Mevcut gereksinimler PDF/A-1a, PDF/A-2a, PDF/A-4 ve PDF/UA-1 formatları içindir.
Aspose.Words’in çeşitli PDF formatı standartlarına dönüştürürken nasıl çalıştığına dair bazı nüanslar vardır. Beklenen sonucu elde etmek istiyorsanız bunların dikkate alınması gerekir.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Yazarların, uygun doğrulama olmadan otomatikleştirilmiş süreçleri kullanarak yapısal veya anlamsal bilgi üretmeleri tavsiye edilmez.
ISO 19005-2, 6.7.1
Aşağıdaki alt bölümlerde, Aspose.Words’in çeşitli PDF formatı standartlarına dönüştürme sırasında nasıl çalıştığına ilişkin incelikler ve bunların çözüm seçenekleri açıklanmaktadır.
Yapı Tipi
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Bir PDF belgesi, başlıklar, paragraflar, tablolar ve diğerleri gibi bir dizi bloktan oluşur. Bu bloklar güçlü veya zayıf bir belge yapısı oluşturur.
PDF/A için hem güçlü hem de zayıf yapılar geçerlidir. Microsoft Word belgeleri tasarım gereği zayıf bir yapıya sahiptir ve Aspose.Words sırasıyla zayıf yapıyla PDF oluşturur ve ayrıca kaynak belgedeki paragrafların anahat düzeylerine göre başlıklar oluşturur.
Yapısı zayıf olan bir PDF/UA-1 belgesi için ayrıca başlık numaralarının boşluksuz bir şekilde sıralanması gerekmektedir.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Blok düzeyindeki yapı iki temel paradigmadan birini takip edebilir:
ISO-32000-1, 14.8.4.3.5
PDF/UA-1 belgeleri için spesifikasyon, başlık düzeyleriyle ilgili bir ekleme içerir (ayrıntıları görmek için genişletin):
Belge anlambilimi, başlıkların azalan bir sırasını gerektiriyorsa, bu tür bir sıra, kesin sayısal sıraya göre ilerleyecek ve araya giren bir başlık düzeyini atlamayacaktır. H1 H2 H3'e izin verilirken H1 H3'e izin verilmez.
ISO-14289-1, 7.4.2
Doğru çıktıyı sağlamak için kullanıcıların kaynak belge içeriğinin düzgün bir şekilde organize edildiğinden ve paragraflar için anahat seviyelerinin doğru şekilde belirtildiğinden emin olması gerekir. Aksi takdirde kullanıcının çıktı PDF belgesinin yapısını doğrulaması ve düzeltmesi gerekir.
Bu blokta örnekleri görebilirsiniz: Microsoft Word'te anahat seviyelerinin nasıl ayarlanacağı veya çıktı PDF belgesinin yapısının kontrol edilip düzeltileceği (ayrıntıları görmek için genişletin).
Microsoft Word'te varsayılan "Başlık X" stilleri anahat düzeyini ayarlamak için kullanılabilir:
Ayrıca taslak düzeyi "Paragraf" penceresinden kontrol edilebilir veya değiştirilebilir:
Acrobat'ta belge yapısı "Etiketler" bölmesinden kontrol edilebilir veya değiştirilebilir:
İçeriği Yapı Olarak İşaretleme
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Şu anda Aspose.Words, sayfa üstbilgilerini ve altbilgilerini, not ayırıcılarını, yinelenen tablo üstbilgisi hücrelerini ve dekoratif görüntüleri yapay öğeler olarak işaretler. Bu listenin gelecekte güncellenebileceğini unutmayın.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Bir belgedeki grafik nesneleri iki sınıfa ayrılabilir:
ISO-32000-1, 14.8.2.2.1
Bir belgede yapay olarak işaretlenmesi gereken başka bir içerik varsa veya yapay içeriklerden herhangi biri gerçek bir içerikse, müşterilerin bunu çıktı PDF’sinde düzeltmesi gerekir.
Bu blokta örnekleri görebilirsiniz: Microsoft Word'te şekillerin dekoratif olarak nasıl işaretleneceği veya çıktı PDF belgesinde şeklin bir yapıt olarak nasıl işaretleneceği (ayrıntıları görmek için genişletin).
Örneğin, şekiller Microsoft Word'te dekoratif olarak işaretlenebilir, böylece bir yapıt olarak PDF'ye aktarılırlar:
Çıktı PDF'sinde şekli yapıt olarak işaretleyebilirsiniz:
Ayrıca, başlıktaki metni yapıttan çıktı PDF'sindeki gerçek içeriğe dönüştürebilirsiniz:
Doğal Dil Belirtimi
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word belgelerinde metin dili belirtilir. Aspose.Words, belirtilen dili, işaretli içerik dizisine veya Span etiketine eklenen Lang özniteliğiyle birlikte bir çıktı PDF’sine aktarır; ExportLanguageToSpanTag özelliği tarafından kontrol edilir. Kullanıcı tarafından Microsoft Word aracılığıyla metin girildiğinde genellikle dil sorunu yaşanmaz. Ancak metnin otomatik olarak oluşturulması durumunda dilin hatalı olma ihtimali vardır.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Bir dosyadaki tüm metinler için varsayılan doğal dil, belgenin Katalog sözlüğündeki Lang girişiyle belirtilmelidir.
Bir dosya içindeki varsayılan dilden farklı olan tüm metin içeriği, işaretli içerik dizisine eklenen bir `Lang` özelliği kullanılarak veya bir yapı elemanı sözlüğündeki bir Lang girişi ile belirtilmelidir ...
ISO-19005-2, 6.7.4
Ayrıca PDF/UA-1 için spesifikasyon bize aşağıdakileri anlatır (ayrıntıları görmek için genişletin):
Doğal dil ilan edilecek… Doğal dildeki değişiklikler ilan edilecek.
ISO-14289-1, 7.2
Bu blokta örnekleri görebilirsiniz: dilin doğru şekilde belirtildiğinden nasıl emin olunur (ayrıntıları görmek için genişletin).
Kullanıcılar dilin kaynak Word belgesinde doğru şekilde belirtildiğinden emin olmalıdır:
Veya çıktı PDF belgesi:
Şekil Başlığı
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word belgeleri, kullanıcıların şekil başlığı eklemesine olanak tanır.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Bir şekle eşlik eden başlık, Başlık etiketiyle etiketlenecektir.
ISO-14289-1, 7.3
Şu anda Aspose.Words, Altyazı etiketini içeren altyazıları dışa aktaramaz, bu nedenle bunların çıktı PDF’sinde işaretlenmesi gerekir.
Bu blokta örnekleri görebilirsiniz: başlık nasıl eklenir (ayrıntıları görmek için genişletin).
Microsoft Word'te başlık içerik menüsü aracılığıyla eklenebilir:
Acrobat'ta başlık, `Object` Özellikleri iletişim kutusu aracılığıyla eklenebilir veya değiştirilebilir:
Alternatif Açıklamalar
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Microsoft Word belgeleri, kullanıcıların resimlere, şekillere ve tablolara alternatif metin eklemesine olanak tanır. Aspose.Words böyle bir alternatif metni çıktı PDF’sine aktarır.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
İçeriği önceden belirlenmiş doğal bir metin analoğuna sahip olmayan tüm yapı elemanları, örneğin resimler, formüller, vb., yapı elemanı sözlüğündeki Alt girişini kullanarak alternatif bir metin açıklaması sağlamalıdır...
NOT Alternatif açıklamalar, aksi durumda anlaşılmaz olan metinsel olmayan içeriğin doğru şekilde yorumlanmasına yardımcı olan metinsel açıklamalar sağlar.
ISO-19005-2, 6.7.5
Bu blokta örnekleri görebilirsiniz: tüm öğelerin alternatif bir metne sahip olmasının nasıl sağlanacağı (ayrıntıları görmek için genişletin).
Kullanıcılar, kaynak Word belgesindeki tüm öğelerin alternatif bir metne sahip olmasını sağlamalıdır:
Veya çıktı PDF belgesi:
Köprüler için Alternatif Açıklamalar
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Önceki noktaya ek olarak Microsoft Word belgeleri, kullanıcıların köprülere alternatif metin eklemesine de olanak tanır. Aspose.Words böyle bir alternatif metni çıktı PDF’sine aktarır.
Ne yazık ki her uygulama alternatif bir açıklama oluşturmanıza izin vermez. Örneğin, Adobe Acrobat şu anda köprüler için böyle bir açıklamanın ayarlanmasına olanak sağlamamaktadır. Ancak Microsoft Word’de bunu şu şekilde yapabilirsiniz:
Bazen, içindekiler tablosunda (TOC) Microsoft Word GUI aracılığıyla otomatik olarak oluşturulan köprüler için alternatif metin ayarlamanın mümkün olmaması gibi bir sorun olabilir. Aspose.Words bu tür alanları güncelleyebilir ve bağlantıları kendi başına oluşturabilir.
Aspose.Words Document Object Model’i (DOM) kullanarak TOC
alanlarını güncellemek için kod örneğini izleyin:
Document doc = new Document(fileName);
var tocHyperLinks = doc.Range.Fields
.Where(f => f.Type == FieldType.FieldHyperlink)
.Cast<FieldHyperlink>()
.Where(f => f.HRef.StartsWith("#_Toc"));
foreach (FieldHyperlink link in tocHyperLinks)
link.ScreenTip = link.DisplayResult;
PdfSaveOptions opt = new PdfSaveOptions()
{
Compliance = PdfCompliance.PdfUa1,
DisplayDocTitle = true,
ExportDocumentStructure = true,
};
opt.OutlineOptions.HeadingsOutlineLevels = 3;
opt.OutlineOptions.CreateMissingOutlineLevels = true;
var outFile = Path.ChangeExtension(fileName, "_aw.pdf");
doc.Save(outFile, opt);
Tablo Başlıkları
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
PDF/UA-1 belgelerindeki tabloların başlıkları (sütun, satır veya her ikisi) bulunmalıdır. PDF/A yalnızca hiçbir ek kısıtlaması olmayan standart tablo işaretlemesini gerektirir. Aspose.Words’in standart tablo işaretlemesini otomatik olarak oluşturduğunu unutmayın.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Tablolar başlık içermelidir… Tablolar sütun başlıklarını, satır başlıklarını veya her ikisini birden içerebilir.
ISO-14289-1, 7.5
Bu blokta örnekleri görebilirsiniz: tablo başlığının nasıl ayarlanacağı (ayrıntıları görmek için genişletin).
Tablo başlığı kaynak Microsoft Word belgesinden herhangi biri üzerinden ayarlanabilir:
Veya çıktı PDF'si:
Yedek Metin
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Şartname bize şunları söylüyor:
Standart dışı bir şekilde temsil edilen tüm metinsel yapı elemanları, örneğin özel karakterler veya satır içi grafikler, yapı elemanı sözlüğündeki `ActualText` girişini kullanarak yedek metin sağlamalıdır...
ISO-19005-2, 6.7.7
Microsoft Word belgesi, kullanıcıların değiştirme metnini ayarlamasına izin vermez. Dolayısıyla bunun çıktı PDF’sinde doğrulanması ve düzeltilmesi gerekiyor:
Kısaltmalar ve Kısa Adlar Genişletmeler
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/UA-1 |
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Metin içeriğindeki tüm kısaltma ve kısaltma örnekleri, E özelliği kısaltmanın veya kısaltmanın metinsel genişlemesini sağlayan Span etiketiyle işaretli içerik sırasına yerleştirilmelidir...
ISO-19005-2, 6.7.8
Microsoft Word belgesi, kullanıcıların kısaltmalar ve kısaltma genişletmeleri ayarlamasına izin vermez. Dolayısıyla bunun çıktı PDF’sinde doğrulanması ve düzeltilmesi gerekiyor:
Belge başlığı
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-2a | |
PDF/A-4 | |
PDF/UA-1 |
PDF/UA-1’deki belgenin bir başlığı olmalıdır |
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Şartname bize şunları söylüyor:
Belgenin katalog sözlüğündeki Meta Veri akışı bir dc:title girişi içerecektir; burada dc, Dublin Core meta veri şeması için önerilen önektir…
ISO-14289-1, 7.1
Bu blokta örnekleri görebilirsiniz: belge başlığının nasıl ayarlanacağı (ayrıntıları görmek için genişletin).
Belge başlığı kaynak Microsoft Word belgesinden biri olarak ayarlanabilir:
Veya çıktı PDF'si:
Yazı Tipi Gereksinimleri
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words kullanarak PDF/A-1, PDF/A-2, PDF/A-4 veya PDF/UA-1 formatlarına dönüştürürken yazı tipleriyle çalışmanın da bazı incelikleri vardır. Çıktı belgesinde olası sorunlardan kaçınmak istiyorsanız bunların dikkate alınması gerekir.
Aşağıdaki bölümlerde bu tür nüanslar ve bunların çözümüne yönelik seçenekler açıklanmaktadır.
Yazı Tipi Yasal Gereksinimleri
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Aspose.Words, kullanılan yazı tiplerinin yasal kısıtlamalarını doğrulamaz; bu kullanıcılara bağlıdır. Başka bir deyişle, kullanıcı Aspose.Words kullanarak PDF dönüşümü için uygunsuz yazı tipleri sağlamamalıdır.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Yalnızca sınırsız, evrensel işleme için yasal olarak bir dosyaya eklenebilen yazı tipi programları kullanılacaktır.
ISO-19005-2, 6.2.11.4.1; ISO-14289-1, 7.21.4.1 (iki spesifikasyonda tamamen aynı alıntılar)
.notdef Glyph
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
.notdef
glyph’nin kullanımı yasaktır. Bir belge, seçilen yazı tipinde bulunmayan ve ayrıca Yazı Tipi Geri Dönüş mekanizması aracılığıyla çözümlenemeyen karakterler içeriyorsa .notdef
glyph görünecektir.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Uygun bir belge, herhangi bir içerik akışındaki metin oluşturma modundan bağımsız olarak operatörleri gösteren herhangi bir metinden .notdef glyph'e bir referans içermeyecektir.
ISO-19005-2, 6.2.11.8; ISO-14289-1, 7.21.8 (iki spesifikasyonda tamamen aynı alıntılar)
Bu blokta örnekleri görebilirsiniz: bu karakterlerin nasıl kaldırılacağı veya değiştirileceği (ayrıntıları görmek için genişletin).
Kullanıcılar kaynak Word belgesindeki şu karakterleri kaldırmalı veya değiştirmelidir:
Veya "PDF Düzenle" aracını kullanarak çıktı PDF belgesi:
Özel Kullanım Alanı (PUA)
Aspose.Words içindeki PDF standart uyumluluk düzeyleri | Gereksinimin varlığı |
---|---|
PDF/A-1a | |
PDF/A-1b | |
PDF/A-2a | |
PDF/A-2u | |
PDF/A-4 | |
PDF/UA-1 |
Özel Kullanım Alanı (PUA) karakterleri çoğunlukla “Symbol”, “Wingdings”, “Webdings” ve diğerleri gibi Windows sembolik yazı tipleri için görünür. Microsoft Word formatları, karakterler için gerçek metni saklama seçeneği sunmaz.
Spesifikasyon bize şunları söylüyor (ayrıntıları görmek için genişletin):
Yalnızca A Düzeyi uygunluğu için, Unicode Özel Kullanım Alanındaki (PUA) bir kod veya kodlarla eşlenen herhangi bir karakter için, bu karakter veya bu karakter dizisi için bir ActualText girişi mevcut olacaktır. karakter bir parçadır.
ISO-19005-2, 6.2.11.7.3
“Segoe UI Sembolü”, sembolik yazı tiplerine alternatif olarak kullanılabilecek bir Windows Unicode yazı tipidir.
Bu blokta örnekleri görebilirsiniz: sembolik yazı tipleriyle ilgili sorunu çözmek için kullanıcının ne yapması gerekir (ayrıntıları görmek için genişletin).
Sembolik yazı tipini kaynak Word belgesindeki Unicode yazı tipiyle değiştirin:
Veya çıktı PDF belgesindeki sorunlu karakterlere bir ActualText girişi ekleyin: