当前位置导航:炫浪网>>网络学院>>编程开发>>C++教程>>C++基础入门教程

利用Xerces C++正确处理XML文档中的中文

1. 背景介绍

Apache的Xerces C++是广大c/c++程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码,故深受广大c/c++程序员的欢迎。

Xerces C++可以到以下网站下载:
1) http://xml.apache.org/
2) http://www.vckbase.com/tools

2. 问题描述

根据软件开发的要求,作者开发了一个文件特征识别软件,该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces C++作为XML解析器。但发现出了一个严重的问题:被解析的XML文件中不能包含中文,否则中文将不能正确的解析。作者研究了Xerces C++提供的例子程序,发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces C++本身是支持中文的。
XML编码:

<pdf ext="pdf" description="pdf文档">

  <magic offset="0" type="string" value="\x25\x50\x44\x46" /> 

</pdf>
SAXPrint程序解析结果:
<pdf ext="pdf" description="pdf文档">

  <magic offset="0" type="string" value="\x25\x50\x44\x46"></magic>

</pdf>

为此,作者曾经在IBM的中文网站发现一篇文章《如何利用Xerces-C++解析包含中文字符的XML文档》并将其所描述的办法应用到程序中。但后来由于机器发生故障,硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子,而且由于当时捡现成的没有用心研究其实现方法,故不得不仔细分析Xerces C++提供的源代码,自己动手解决中文问题。为了今后广大C++程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。如果谁有更好的解决办法不要忘记告诉我。

3. 原因分析

上面的例子里,程序将“文档”两个中文字符解析成了乱码。但DOMPrint程序确能够正确解析。这表明Xerces C++对国际编码肯定是支持的。作者通过对DOMPrint和SAXPrint两个程序的比较跟踪发现问题的根本就是XMLFormatter设置的问题。由于SAX是基于事件的,大多数使用者只是简单的解析XML文档,XMLFormatter的使用比较麻烦。而DOMPrint也是通过标准的输出程序输出的屏幕上的,我们不能直接使用输出结果。
由于XML解析器解析的字符串都是XMLCh格式的,一个字符占用一个字节,而汉字字符确要占用两个字节。故若不做适当的转换,汉字的输出结果就变成乱码了。

共2页 首页 上一页 1 2 下一页 尾页 跳转到
相关内容
赞助商链接