تحويل PDF إلى مستندات Microsoft Word باستخدام Python

نظرة عامة

توضح هذه المقالة كيفية تحويل PDF إلى مستندات Microsoft Word باستخدام Python. وتغطي هذه المواضيع.

صيغة: DOC

صيغة: DOCX

صيغة: Word

تحويل PDF إلى DOC و DOCX باستخدام Python

إحدى الميزات الأكثر شيوعًا هي تحويل PDF إلى مستند Microsoft Word DOC، مما يجعل إدارة المحتوى أسهل. Aspose.PDF for Python يتيح لك تحويل ملفات PDF ليس فقط إلى DOC ولكن أيضًا إلى تنسيق DOCX، بسهولة وكفاءة.

تحويل ملف PDF إلى DOC (Word 97-2003)

قم بتحويل ملف PDF إلى تنسيق DOC بسهولة وتحكم كامل. Aspose.PDF for Python مرن ويدعم مجموعة واسعة من التحويلات. تحويل الصفحات من مستندات PDF إلى صور، على سبيل المثال، هو ميزة شائعة جدًا.

تحويل يطلبه العديد من عملائنا هو PDF إلى DOC: تحويل ملف PDF إلى مستند Microsoft Word. العملاء يريدون هذا لأن ملفات PDF لا يمكن تحريرها بسهولة، بينما يمكن تحرير مستندات Word. بعض الشركات تريد أن يتمكن مستخدموها من التلاعب بالنصوص والجداول والصور في الملفات التي بدأت كـ PDF.

مواصلة تقليد جعل الأمور بسيطة ومفهومة، Aspose.PDF for Python يتيح لك تحويل ملف PDF المصدر إلى ملف DOC بسطرين من الشيفرة. لتحقيق هذه الميزة، قمنا بتقديم تعداد باسم SaveFormat وقيمته .Doc تسمح لك بحفظ الملف المصدر بصيغة Microsoft Word.

يوضح مقطع الشيفرة البرمجية التالي بلغة Python عملية تحويل ملف PDF إلى صيغة DOC.

الخطوات: تحويل PDF إلى DOC في Python

  1. قم بإنشاء مثيل لكائن Document مع مستند PDF المصدر.
  2. احفظه بصيغة SaveFormat.Doc عن طريق استدعاء طريقة Document.Save().

from asposepdf import Api

documentName = "testdata/Hello.pdf"
doc = Api.Document(documentName)
documentOutName = "testout/out.doc"
doc.save(documentOutName, Api.SaveFormat.Doc)

استخدام فئة DocSaveOptions

توفر فئة DocSaveOptions العديد من الخصائص التي تحسن عملية تحويل ملفات PDF إلى صيغة DOC. بين هذه الخصائص، تُمَكِّنك وضعية التعرف من تحديد وضع التعرف على محتوى PDF. يمكنك تحديد أي قيمة من تعداد RecognitionMode لهذه الخاصية. كل من هذه القيم لها فوائد وحدود محددة:


from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.doc"
# افتح مستند PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Doc
# عين وضعية التعرف كـ Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# عين القرب الأفقي كـ 2.5
save_options.relative_horizontal_proximity = 2.5
# فعّل القيمة للتعرف على النقاط أثناء عملية التحويل
save_options.recognize_bullets = True

# احفظ الملف في تنسيق مستند MS Word
document.save(output_pdf, save_options)

تحويل PDF إلى DOCX

تتيح لك Aspose.PDF لواجهة برمجة التطبيقات في بايثون قراءة وتحويل مستندات PDF إلى DOCX باستخدام بايثون عبر .NET. DOCX هو تنسيق معروف لمستندات Microsoft Word الذي تم تغيير هيكله من ثنائي بسيط إلى مجموعة من ملفات XML وثنائية. يمكن فتح ملفات Docx باستخدام Word 2007 والإصدارات الأحدث ولكن ليس مع الإصدارات السابقة من MS Word التي تدعم امتدادات ملفات DOC.

يظهر مقتطف الشيفرة البرمجية التالي في بايثون عملية تحويل ملف PDF إلى تنسيق DOCX.

الخطوات: تحويل PDF إلى DOCX في بايثون

  1. إنشاء مثيل لكائن Document مع مستند PDF المصدر.

  2. احفظه بتنسيق SaveFormat.DocX عن طريق استدعاء أسلوب Document.Save().



from asposepdf import Api

DIR_INPUT = "testdata/"
DIR_OUTPUT = "testout/"

input_pdf = DIR_INPUT + "Hello.pdf"
output_pdf = DIR_OUTPUT + "convert_pdf_to_doc_with_options.docx"
# افتح مستند PDF
document = Api.Document(input_pdf)

save_options = Api.DocSaveOptions()
save_options.format = Api.DocSaveOptions.DocFormat.Docx
# ضبط وضع التعرف كـ Flow
save_options.mode = Api.DocSaveOptions.RecognitionMode.Flow
# ضبط القرب الأفقي كـ 2.5
save_options.relative_horizontal_proximity = 2.5
# تمكين القيمة للتعرف على الرموز النقطية أثناء عملية التحويل
save_options.recognize_bullets = True

# احفظ الملف بتنسيق مستند MS Word
document.save(output_pdf, save_options)

تمتلك فئة DocSaveOptions خاصية اسمها Format التي توفر القدرة على تحديد تنسيق المستند الناتج، أي DOC أو DOCX. من أجل تحويل ملف PDF إلى تنسيق DOCX، يرجى تمرير قيمة Docx من تعداد DocSaveOptions.DocFormat.

انظر أيضًا

تغطي هذه المقالة أيضًا هذه المواضيع. الأكواد هي نفسها كما هو مذكور أعلاه.

التنسيق: Word

Format: DOCX