C++如何使用MSXML库解析XML IXMLDOMDocument

C++中用MSXML解析XML需先CoInitializeEx初始化COM,再通过CoCreateInstance创建IXMLDOMDocument(推荐"MSXML2.DOMDocument.6.0"),加载XML后检查parseError和readyState,遍历节点时用get_documentElement、get_childNodes等,属性通过get_attributes获取,所有接口须调用Release()释放。

在C++中使用MSXML库解析XML,核心是通过IXMLDOMDocument接口加载并遍历XML文档。需注意版本兼容性(推荐MSXML 6.0)、COM初始化、接口安全释放及错误处理。

初始化COM并创建IXMLDOMDocument实例

MSXML基于COM,必须先调用CoInitializeEx;建议使用COINIT_APARTMENTTHREADED(单线程单元)。创建对象时指定MSXML版本(如"MSXML2.DOMDocument.6.0"),避免使用过时的"Microsoft.XMLDOM"

  • 包含头文件:#import "msxml6.dll" named_guids raw_interfaces_only(推荐)或手动声明接口
  • 调用CoCreateInstance获取IXMLDOMDocument指针
  • 务必检查返回的HRESULT,失败时不要继续操作

加载XML内容(字符串或文件)

IXMLDOMDocument::load用于加载文件(传入IStream*或URL),loadXML用于加载字符串。若用load加载本地文件,需传入VARIANT类型为VT_BSTR的文件路径;若用loadXML,字符串必须是UTF-16(BSTR)或正确编码的ANSI(依赖系统代码页)。

  • 推荐优先使用loadXML配合MultiByteToWideChar转换UTF-8源字符串
  • 加载后检查parseError->errorCode判断是否语法错误
  • 可调用get_readyState确认是否为4(completed)

遍历节点与提取数据

根节点通过get_documentElement获取,再用get_childNodesget_firstChildget_nextSibling等方法遍历。节点名用get_nodeName,文本内容用get_textget_nodeValue(对TEXT_NODE有效)。

  • get_nodeType区分元素、属性、文本等节点类型
  • 查找子元素可用selectSingleNodeselectNodes(支持XPath,如"//book/title"
  • 读取属性值:先用get_attributes获取IXMLDOMNamedNodeMap,再用getNamedItem

内存管理与清理

所有MSXML接口指针均为COM对象,必须显式调用Release();不能依赖智能指针(除非封装得当)。全局COM需在程序退出前调用CoUninitialize()

  • 使用ATL::CComPtr可自动管理引用计数(需引入atlbase.h)
  • 避免跨线程传递接口指针;若需,用CoMarshalInterThreadInterfaceInStream
  • 释放顺序无关紧要,但应在所有使用完成后统一释放,防止访问已释放内存