通过 Java 将 DOC 转换为 CSV 或在线应用程序

无需使用 Microsoft® Word 或 Microsoft® Excel 即可将 DOC 转换为 CSV 的 On Premise Java API

 

通过 Aspose.Total for Java 将 DOC 转换为 CSV 是一个简单的两步过程。通过使用功能丰富的文档操作和转换 API Aspose.Words for Java ,您可以将 DOC 导出为 HTML。之后,通过使用 Aspose.Cells for Java ,您可以将 HTML 转换为 CSV。

将 DOC 转换为 CSV 的 Java API

  1. 使用 Document 类打开 DOC 文件
  2. 使用 [Save]( https://reference.aspose.com/words/java/com.aspose.words/Document#save(java.lang.String,com.aspose.words.SaveOptions) 将 DOC 转换为 HTML ) 方法
  3. 使用 Workbook 类加载 HTML 文档
  4. 使用 Save 将文档保存为 CSV 格式方法

转换要求

从您可以直接从基于 Maven 的项目轻松地使用 Aspose.Total for Java 并在您的 pom.xml 中包含库。

或者,您可以从 下载 获取 ZIP 文件。

免费的 DOC 到 CSV 在线转换器

通过 Java 从 DOC 文档中删除未使用的信息

在将 DOC 转换为 CSV 之前,您可以通过 Aspose.Words for Java 从 DOC 文档中删除未使用的信息。有时您可能需要删除未使用或重复的信息以减少输出文档的大小和处理时间。 CleanupOptions 类允许您指定文档清理的选项。要从文档中删除重复的样式或仅未使用的样式或列表,您可以使用 Cleanup 方法。您可以使用 UnusedStylesUnusedBuiltinStyles 属性来检测和删除标记为“未使用”的样式。

https://reference.aspose.com/cells/java/com.aspose.cells/workbook#save(java.io.OutputStream.%20com.aspose.cells.SaveOptions))

通过 Java 将 CSV 文件保存到流

将 DOC 转换为 CSV 后, Aspose.Cells for Java 使您能够将文档保存为流式传输。如果您需要将文件保存到 Stream 那么您应该创建一个 FileOutputStream 对象,然后 save 通过调用 Workbook 的 save 方法将文件保存到该 Stream 对象目的。

``` 将 **DOC** 转换为 **CSV(逗号分隔值)** 对于从Word文档中提取和结构化表格或文本数据为纯文本、逗号分隔的文件至关重要。此转换使数据能够无缝迁移到电子表格、数据库和分析工具中,确保跨平台的兼容性和共享的便利性。

主要用例

  • 从Word报告中批量提取数据以进行数据库导入
  • 将表格内容迁移到电子表格进行分析
  • 与数据分析和BI工具兼容
  • 以轻量级格式简化大型数据集的共享

自动化场景

  • 用于批量处理的DOC到CSV批量转换器
  • 基于脚本的文本解析以进行自定义数据提取
  • 用于实时更新的基于云的文档到数据工作流

使用Java 探索DOC转换选项

将DOC转换为DIF (数据交换格式)
将DOC转换为EXCEL (电子表格文件格式)
将DOC转换为FODS (OpenDocument 平面 XML 电子表格)
将DOC转换为ODS (OpenDocument电子表格)
将DOC转换为SXC (StarSuite Calc 电子表格)
将DOC转换为TSV (制表符分隔值)
将DOC转换为XLAM (Excel 启用宏的加载项)
将DOC转换为XLS (Microsoft Excel 二进制格式)
将DOC转换为XLSB (Excel 二进制工作簿)
将DOC转换为XLSM (启用宏的电子表格)
将DOC转换为XLSX (打开 XML 工作簿)
将DOC转换为XLT (Excel 97 - 2003 模板)
将DOC转换为XLTM (Excel 启用宏的模板)
将DOC转换为XLTX (Excel模板)
将DOC转换为JSON (JavaScript 对象表示法文件)
将DOC转换为ODP (OpenDocument 演示文稿格式)
将DOC转换为POT (Microsoft PowerPoint 模板文件)
将DOC转换为POTM (Microsoft PowerPoint 模板文件)
将DOC转换为POTX (Microsoft PowerPoint 模板演示)
将DOC转换为PPTX (打开 XML 表示格式)
将DOC转换为PPS (PowerPoint 幻灯片放映)
将DOC转换为PPSM (启用宏的幻灯片放映)
将DOC转换为PPSX (PowerPoint 幻灯片放映)
将DOC转换为PPT (PowerPoint演示文稿)
将DOC转换为PPTM (启用宏的演示文稿文件)
将DOC转换为PPTX (打开 XML 表示格式)