Làm việc với tài liệu văn bản
Trong bài viết này, chúng ta sẽ tìm hiểu những tùy chọn nào có thể hữu ích khi làm việc với tài liệu văn bản qua Aspose.Words. Xin lưu ý rằng đây không phải là danh sách đầy đủ các tùy chọn có sẵn mà chỉ là ví dụ về cách làm việc với một số tùy chọn trong số đó.
Thêm dấu hai chiều
Bạn có thể sử dụng thuộc tính add_bidi_marks để chỉ định xem có thêm dấu hai chiều trước mỗi lần chạy BiDi khi xuất ở định dạng văn bản thuần túy hay không. Aspose.Words chèn Ký tự Unicode ‘RIGHT-TO-LEFT MARK’ (U+200F) trước mỗi Run hai chiều trong văn bản. Tùy chọn này tương ứng với tùy chọn “Thêm dấu hai chiều” trong hộp thoại Chuyển đổi tệp MS Word khi bạn xuất sang định dạng Văn bản thuần túy. Lưu ý rằng nó chỉ xuất hiện trong đoạn hội thoại nếu bất kỳ ngôn ngữ chỉnh sửa tiếng Ả Rập hoặc tiếng Do Thái nào được thêm vào MS Word.
Ví dụ mã sau đây cho thấy cách sử dụng thuộc tính add_bidi_marks. Giá trị mặc định của thuộc tính này là False
:
Nhận dạng các mục danh sách trong khi tải TXT
Aspose.Words có thể nhập mục danh sách của tệp văn bản dưới dạng số danh sách hoặc văn bản thuần túy trong mô hình đối tượng tài liệu của nó. Thuộc tính detect_numbering_with_whitespaces cho phép chỉ định cách nhận dạng các mục danh sách được đánh số khi tài liệu được nhập từ định dạng văn bản thuần túy:
- Nếu tùy chọn này được đặt thành
True
, khoảng trắng cũng được sử dụng làm dấu phân cách số danh sách: thuật toán nhận dạng danh sách để đánh số kiểu Ả Rập (1., 1.1.2.) sử dụng cả khoảng trắng và ký hiệu dấu chấm ("."). - Nếu tùy chọn này được đặt thành
False
, thuật toán nhận dạng danh sách sẽ phát hiện các đoạn danh sách khi số danh sách kết thúc bằng dấu chấm, dấu ngoặc vuông hoặc ký hiệu dấu đầu dòng (chẳng hạn như “”, “*”, “-” hoặc “o”).
Ví dụ mã sau đây cho thấy cách sử dụng thuộc tính này:
Xử lý các khoảng trống ở đầu và cuối trong quá trình tải TXT
Bạn có thể kiểm soát cách xử lý khoảng trắng ở đầu và cuối trong khi tải tệp TXT. Các khoảng trống ở đầu có thể được cắt bớt, giữ nguyên hoặc chuyển thành các khoảng trống thụt lề và các khoảng trống ở cuối có thể được cắt bớt hoặc giữ nguyên.
Ví dụ về mã sau đây cho biết cách cắt bớt khoảng trắng ở đầu và cuối trong khi nhập tệp TXT:
Phát hiện hướng văn bản tài liệu
Aspose.Words cung cấp thuộc tính document_direction trong lớp TxtLoadOptions để phát hiện hướng văn bản (RTL/LTR) trong tài liệu. Thuộc tính này đặt hoặc nhận hướng dẫn văn bản tài liệu được cung cấp trong bảng liệt kê DocumentDirection. Giá trị mặc định là từ trái sang phải.
Ví dụ về mã sau đây cho biết cách phát hiện hướng văn bản của tài liệu trong khi nhập tệp TXT:
Xuất đầu trang và chân trang ở đầu ra TXT
Nếu bạn muốn xuất đầu trang và chân trang trong tài liệu TXT đầu ra, bạn có thể sử dụng thuộc tính export_headers_footers_mode. Thuộc tính này chỉ định cách xuất đầu trang và chân trang sang định dạng văn bản thuần túy.
Ví dụ mã sau đây cho thấy cách xuất đầu trang và chân trang sang định dạng văn bản thuần túy:
doc = aw.Document(docs_base.my_dir + "Document.docx")
options = aw.saving.TxtSaveOptions()
options.save_format = aw.SaveFormat.TEXT
# All headers and footers are placed at the very end of the output document.
options.export_headers_footers_mode = aw.saving.TxtExportHeadersFootersMode.ALL_AT_END
doc.save(docs_base.artifacts_dir + "WorkingWithTxtSaveOptions.export_headers_footers_mode_A.txt", options)
# Only primary headers and footers are exported at the beginning and end of each section.
options.export_headers_footers_mode = aw.saving.TxtExportHeadersFootersMode.PRIMARY_ONLY
doc.save(docs_base.artifacts_dir + "WorkingWithTxtSaveOptions.export_headers_footers_mode_B.txt", options)
# No headers and footers are exported.
options.export_headers_footers_mode = aw.saving.TxtExportHeadersFootersMode.NONE
doc.save(docs_base.artifacts_dir + "WorkingWithTxtSaveOptions.export_headers_footers_mode_C.txt", options)
Xuất danh sách thụt lề trong đầu ra TXT
Aspose.Words đã giới thiệu lớp TxtListIndentation cho phép chỉ định cách thụt lề các cấp danh sách trong khi xuất sang định dạng văn bản thuần túy. Trong khi làm việc với TxtSaveOption, thuộc tính list_indentation được cung cấp để chỉ định ký tự được sử dụng để thụt lề các cấp độ danh sách và đếm chỉ định số lượng ký tự được sử dụng làm thụt lề cho mỗi cấp độ danh sách. Giá trị mặc định cho thuộc tính ký tự là ‘\0’ cho biết không có thụt lề. Đối với thuộc tính count, giá trị mặc định là 0 nghĩa là không thụt lề.
Sử dụng ký tự tab
Ví dụ mã sau đây cho thấy cách xuất cấp danh sách bằng ký tự tab:
Sử dụng ký tự không gian
Ví dụ mã sau đây cho biết cách xuất các cấp độ danh sách bằng cách sử dụng ký tự khoảng trắng: