当前位置导航：炫浪网>>网络学院>>编程开发>>JAVA教程>>Java入门

怎样使用Java读取OpenOffice文档

　　由于项目的需要，我们需要在Java程序读取OpenOffice文档，并对数据进行处理。本文介绍了如何使用ODF Toolkit去读取OpenOffice SpreadSheet的内容。

　　1. OpenOffice Spreedsheet 文档

　　假设我们需要读取如下图所示的OpenOffice Spreedsheet 文档：

　　上面的文档也包含在本文的源代码中。

　　OpenOffice文档其实是以XML格式存储的，其中包含了文档内容和格式控制等。

　　如果使用unzip工具解压缩，你会发现解压缩后，一个OpenOffice文档其实包含如下的内容：

　　2. 下载 ODF4j

　　Odf4j 是用于读取OpenOffice 文档(ODF)的纯Java的工具包。目前虽然还没有正式发布，但是已经具备了处理OpenOffice文档的基本功能。

　　使用Odf4j，Java程序员可以非常容易地创建，修改OpenOffice 文档。

　　3. 使用 ODF4j 读取 OpenOffice 文档

　　使用ODF4j读取OpenOffice文档包括两个层次：Package Layer和Document Layer。

　　Package Layer

　　在Package Layer，OpenOffice文档里的各种资源是作为一个命名的资源来处理。在这个层次一般用于操作二进制文件，比如图片等。

　　Document Layer

　　在Document Layer，主要正对文档的内容进行操作。在这个层次，文档内容是作为层次结构被操作的，因为文档的内容是以XML文件方式保存，所以可以非常方便的以 DOM方式来操作。下面的示例中，将以Document Layer来读取一个OpenOffice Spreadsheet文档。

　　4. 读取 OpenOffice Spreadsheet 文档

import org.openoffice.odf.OdfPackage;
　　import org.openoffice.odf.OpenDocumentFactory;
　　import org.openoffice.odf.spreadsheet.SpreadsheetDocument;
　　import org.w3c.dom.Document;
　　import org.w3c.dom.Element;
　　import org.w3c.dom.NodeList;
　　......
　　OdfPackage odfPackage;
　　odfPackage = (SpreadsheetDocument) OpenDocumentFactory.load(path);
　　Document doc = odfPackage.getDocument(OdfPackage.STREAMNAME_CONTENT);
　　Element root = doc.getDocumentElement();
　　......

　　Source code

　　当获得root Element后，我们就可以像读取xml文件一样读取OpenOffice文档中的内容。

　　5. 程序运行结果

　　下载本文的源代码，进入NetBean Project的根目录，然后运行：ant run。运行结果如下图所示：

　　参考资料： Element

　　1. ODF4j: http://wiki.services.openoffice.org/wiki/Odf4j

　　2. 本文的Source code。

上一篇：Java开发平台中的生命周期管理下一篇：运用Java 6 API 分析源码