Chuyển đổi PDF sang các định dạng tài liệu khác

Aspose.Words có thể tải ngay cả định dạng phức tạp như PDF. Điều này mở ra những cơ hội mới: có thể chuyển đổi PDF sang Word hoặc các định dạng khác giúp người dùng tiến xa trong việc giải quyết nhiều bài toán ứng dụng.

Chuyển đổi PDF sang các định dạng khác

Chuyển đổi phổ biến nhất từ PDF là chuyển đổi sang các định dạng Microsoft Word như DOCX, DOC, cũng như các định dạng hình ảnh như JPG hoặc PNG. Như đã nói, việc chuyển đổi tài liệu từ định dạng này sang định dạng khác sẽ thực hiện theo cách quen thuộc.

Ví dụ mã sau đây cho biết cách chuyển đổi tài liệu từ PDF sang DOCX:

Chỉ định tùy chọn tải khi nhập PDF

Aspose.Words cung cấp cho bạn lớp PdfLoadOptions, cho phép kiểm soát chính xác hơn cách tải tài liệu PDF.

Hầu hết các thuộc tính đều kế thừa hoặc nạp chồng các thuộc tính đã tồn tại trong lớp LoadOptions. Ngoài chúng, một số thuộc tính được chỉ định cho định dạng PDF. Ví dụ: bạn có thể sử dụng thuộc tính page_countpage_index để xác định phạm vi trang sẽ được tải từ tài liệu PDF và thuộc tính skip_pdf_images để kiểm soát xem có nên bỏ qua hình ảnh khi tải PDF hay không. Một tham số được hỗ trợ khác là password, phải được cung cấp cho các tài liệu được bảo vệ bằng mật khẩu.

Nội dung PDF được hỗ trợ

Plugin PDF2Word hiện hỗ trợ các loại dữ liệu sau:

  • Đoạn văn bản
  • Hình ảnh
  • Những cái bàn
  • Danh sách
  • Đầu trang và chân trang
  • Chú thích cuối trang
  • Số trang
  • Văn bản từ phải sang trái (có một số hạn chế)
  • Các tệp PDF có thể tìm kiếm (hình ảnh phía trước sẽ bị xóa để thay thế cho văn bản nền)

Các tính năng được lên kế hoạch

Một số tính năng vẫn đang trong giai đoạn phát triển ban đầu hoặc được đưa vào lộ trình phát triển:

  • Mục lục
  • OCR cho các tệp PDF có thể tìm kiếm và không thể tìm kiếm
  • Báo cáo tiến trình
  • Văn bản nhiều cột
  • Công thức toán học
  • Nhiều trường tự động hơn (ngoài PAGE và NUMPAGES)

Ngoại lệ tải PDF

Trong quá trình chuyển đổi tài liệu PDF, một trong những trường hợp ngoại lệ sau có thể xảy ra:

Ngoại lệ Sự miêu tả
FileLoadException Không thể xử lý tệp PDF vì một số lý do.
DrmProtectedFileException Tệp PDF được bảo vệ bởi Adobe DRM và không thể được giải mã bằng Pdf2Word
PasswordProtectedFileException Mật khẩu chính xác phải được cung cấp cho tệp PDF được bảo vệ bằng mật khẩu