
有时需要在打开之前确定文档的格式,因为文件扩展名并不能保证文件的内容是适当的。例如,众所周知,Crystal Reports 通常以 RTF 格式输出文档,但赋予它们 .doc 扩展名。

Aspose.Words 提供了获取有关文件类型的信息的功能,以避免在您不确定文件的实际内容是什么时出现异常。


当您处理各种文件格式的多个文档时,您可能需要将 Aspose.Words 可以处理的文件与不能处理的文件分开。您可能还想知道为什么某些文档无法处理。

如果尝试将文件加载到 Document 对象中,而 Aspose.Words 无法识别该文件格式或不支持该格式,则 Aspose.Words 将引发异常。您可以捕获这些异常并对其进行分析,但是 Aspose.Words 还提供了 detect_file_format 方法,使我们能够快速确定文件格式,而无需加载可能存在异常的文档。此方法返回一个 FileFormatInfo 对象,其中包含检测到的有关文件类型的信息。



由于我们处理的是文件夹中的内容,因此我们需要做的第一件事是使用 操作系统 模块的 列表目录 方法获取该文件夹中所有文件的集合。


# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET
fileList = (file for file in os.listdir(docs_base.my_dir)
if (os.path.isfile(os.path.join(docs_base.my_dir, file)) and not file.endswith("Corrupted document.docx")))

当收集完所有文件后,剩下的工作由 detect_file_format 方法完成,该方法检查文件格式。


# For complete examples and data files, please go to https://github.com/aspose-words/Aspose.Words-for-Python-via-.NET
supported_dir = docs_base.artifacts_dir + "Supported"
unknown_dir = docs_base.artifacts_dir + "Unknown"
encrypted_dir = docs_base.artifacts_dir + "Encrypted"
pre97_dir = docs_base.artifacts_dir + "Pre97"
# Create the directories if they do not already exist.
if not os.path.exists(supported_dir):
if not os.path.exists(unknown_dir):
if not os.path.exists(encrypted_dir):
if not os.path.exists(pre97_dir):
fileList = (file for file in os.listdir(docs_base.my_dir)
if (os.path.isfile(os.path.join(docs_base.my_dir, file)) and not file.endswith("Corrupted document.docx")))
for fileName in fileList:
name_only = fileName
fileName = os.path.join(docs_base.my_dir, name_only)
info = aw.FileFormatUtil.detect_file_format(fileName)
lf = info.load_format
# Display the document type
if lf == aw.LoadFormat.DOC:
print("\tMicrosoft Word 97-2003 document.")
elif lf == aw.LoadFormat.DOT:
print("\tMicrosoft Word 97-2003 template.")
elif lf == aw.LoadFormat.DOCX:
print("\tOffice Open XML WordprocessingML Macro-Free Document.")
elif lf == aw.LoadFormat.DOCM:
print("\tOffice Open XML WordprocessingML Macro-Enabled Document.")
elif lf == aw.LoadFormat.DOTX:
print("\tOffice Open XML WordprocessingML Macro-Free Template.")
elif lf == aw.LoadFormat.DOTM:
print("\tOffice Open XML WordprocessingML Macro-Enabled Template.")
elif lf == aw.LoadFormat.FLAT_OPC:
print("\tFlat OPC document.")
elif lf == aw.LoadFormat.RTF:
print("\tRTF format.")
elif lf == aw.LoadFormat.WORD_ML:
print("\tMicrosoft Word 2003 WordprocessingML format.")
elif lf == aw.LoadFormat.HTML:
print("\tHTML format.")
elif lf == aw.LoadFormat.MHTML:
print("\tMHTML (Web archive) format.")
elif lf == aw.LoadFormat.ODT:
print("\tOpenDocument Text.")
elif lf == aw.LoadFormat.OTT:
print("\tOpenDocument Text Template.")
elif lf == aw.LoadFormat.DOC_PRE_WORD60:
print("\tMS Word 6 or Word 95 format.")
elif lf == aw.LoadFormat.UNKNOWN:
print("\tUnknown format.")
if info.is_encrypted:
print("\tAn encrypted document.")
shutil.copyfile(fileName, os.path.join(encrypted_dir, name_only))
if lf == aw.LoadFormat.DOC_PRE_WORD60:
shutil.copyfile(fileName, os.path.join(pre97_dir, name_only))
elif lf == aw.LoadFormat.UNKNOWN:
shutil.copyfile(fileName, os.path.join(unknown_dir, name_only))
shutil.copyfile(fileName, os.path.join(supported_dir, name_only))

使用 舒蒂尔 模块的 复制文件 方法将文件移动到适当的子文件夹中。


文件的 Group 输入文件 类型
支持的文件格式 测试文件(Doc).doc Microsoft Word 95/6.0 或 Microsoft Word 97 – 2003 文档。
测试文件 (Dot).dot Microsoft Word 95/6.0 或 Microsoft Word 97 – 2003 模板。
测试文件 (Docx).docx 不带宏的 Office Open XML WordprocessingML 文档。
测试文件(Docm).docm 带有宏的 Office Open XML WordprocessingML 文档。
测试文件 (Dotx).dotx Office Open XML WordprocessingML 模板。
测试文件 (Dotm).dotm 带有宏的 Office Open XML WordprocessingML 模板。
测试文件 (XML).xml FlatOPC OOXML 文档。
测试文件 (RTF).rtf 富文本格式文档。
测试文件 (WordML).xml Microsoft Word 2003 WordprocessingML 文档。
测试文件 (HTML).html HTML 文档。
测试文件 (MHTML).mhtml MHTML(网络存档)文档。
测试文件 (Odt).odt OpenDocument 文本(OpenOffice Writer)。
测试文件 (Ott).ott OpenDocument 文档模板。
测试文件 (DocPreWord60).doc Microsoft Word 2.0 文档。
加密文件 测试文件(Enc).doc 加密的 Microsoft Word 95/6.0 或 Microsoft Word 97 – 2003 文档。
测试文件 (Enc).docx 加密的 Office Open XML WordprocessingML 文档。
不支持的文件格式 测试文件 (JPG).jpg JPEG 图像文件。