JavaScript如何将XML字符串转换为DOM对象

DOMParser是解析XML字符串最可靠方式,现代浏览器均支持;IE9–11需回退ActiveXObject;必须用"text/xml"参数并检查parsererror或parseError确保解析成功。

DOMParser 解析 XML 字符串是最可靠方式

现代浏览器都支持 DOMParser,它专为解析 XML/HTML 字符串设计,比老式 XMLHttpRequestActiveXObject 更简洁、更安全。注意:不能用 JSON.parse(),XML 不是 JSON;也不能直接用 innerHTML,会丢失命名空间和处理指令。

关键点:

  • DOMParserparseFromString() 第二个参数必须是 "text/xml"(不是 "application/xml" 或空字符串,否则在 Safari/Firefox 中可能失败)
  • 如果 XML 有语法错误,不会抛异常,而是返回一个含错误信息的文档(可通过检查 document.documentElement.tagName === "parsererror" 判断)
  • 解析后得到的是标准 DOM 对象,可直接用 querySelectorgetElementsByTagName 等操作
const xmlStr = `AB`;
const parser = new DOMParser();
const xmlDoc = parser.parseFromString(xmlStr, "text/xml");

// 检查是否解析失败
if (xmlDoc.querySelector("parsererror")) {
  console.error("XML 解析失败:", xmlDoc.querySelector("parsererror").textContent);
} else {
  const items = xmlDoc.getElementsByTagName("item");
  console.log(items.length); // 2
}

IE9–IE11 需要兼容 ActiveXObject

IE9–11 不支持 DOMParser 解析 XML(只支持 HTML),必须回退到 ActiveXObject("Microsoft.XMLDOM")。这不是“可选优化”,而是不加这段代码在 IE 下必然报错。

注意点:

  • async 必须设为 false,否则无法同步获取结果
  • validateOnParse 设为 false 可避免因 DTD 或外部实体导致的加载阻塞
  • 仍需检查 parseError.errorCode !== 0 来判断是否解析失败
function parseXML(xmlStr) {
  if (typeof DOMParser !== "undefined") {
    return new DOMParser().parseFromString(xmlStr, "text/xml");
  } else if (typeof ActiveXObject !== "undefined") {
    const doc = new ActiveXObject("Microsoft.XMLDOM");
    doc.async = false;
    doc.validateOnParse = false;
    doc.loadXML(xmlStr);
    if (doc.parseError.errorCode !== 0) {
      throw new Error(`XML 解析错误: ${doc.parseError.reason}`);
    }
    return doc;
  }
}

遇到 CDATA、命名空间或特殊字符时的处理

DOMParser 默认能正确处理 CDATA 块和 UTF-8 编码的中文,但若 XML 声明中指定了其他编码(如 encoding="gb2312"),而字符串实际是 UTF-8,就会乱码——此时应确保传入的字符串已是正确的 Unicode 字符串(浏览器环境通常已自动转义)。

命名空间支持有限:

  • 带前缀的元素(如 )会被保留前缀,但 getElementsByTagName("item") 查不到,得用 getElementsByTagNameNS("*", "item")
  • 属性中的命名空间(如 xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance")会被保留在 attributes 集合中,但不会自动映射到 JS 对象属性
  • CDATA 内容会作为 Text 节点子节点存在,可用 node.textContent 安全读取

别把 XML 当成 HTML 用 innerHTML 解析

有人尝试把 XML 字符串赋给 div.innerHTML 再取 div.children,这看似简单,但后果严重:

  • 所有自定义标签(如 )会被浏览器当作未知 HTML 标签,强制标准化(例如变成 且丢失子节点)
  • XML 属性如 xmlnsxsi:type 全部丢失
  • CDATA 和注释被剥离或破坏
  • 在严格模式下甚至可能触发控制台警告

哪怕只是临时调试,也请坚持用 DOMParser —— 它多敲不了几行字,但省掉后续三天排查时间。

真正容易被忽略的是错误检测逻辑。很多人只写 parseFromString 就完事,结果 XML 格式一错,后面 getElementsByTagName 返回空集合,程序静默失败。务必检查 parsererror 或 IE 的 parseError