XML文档对象模型(DOM)是什么 DOM树结构与节点操作详解

XML DOM是将XML解析为内存树状结构的编程接口,以document为根节点,包含Element、Text、Attribute等节点类型,支持遍历、查询、增删改操作,适用于中小型文档但需注意内存占用和手动序列化。

XML文档对象模型(DOM)是一种将XML文档解析为内存中树状结构的编程接口,让程序能以面向对象方式访问、修改和操作XML数据。它把整个XML文档看作由节点组成的层次化树,每个元素、属性、文本甚至注释都对应一个节点,开发者可通过标准API遍历、查询、增删或更新这些节点。

DOM树结构:从根到叶子的层级关系

XML DOM树以document对象为根节点,向下逐级展开。常见节点类型包括:

  • Element节点:对应XML中的标签,如,可拥有子节点和属性
  • Text节点:包裹元素内的纯文本内容,如Java编程中的“Java编程”
  • Attribute节点:属于Element节点的附属信息,如中的id="b001"
  • Document节点:整个XML文档的入口点,是所有其他节点的父节点
  • Comment、ProcessingInstruction等节点:分别对应等特殊内容

注意:空白换行和缩进在某些解析器中也会生成Text节点,处理时需用node.getNodeType() == Node.TEXT_NODE并配合trim()判断是否为空白。

核心节点操作:获取、创建与修改

DOM提供统一方法操作任意节点,不依赖具体标签名:

  • 查找节点:用getElementsByTagName("name")返回NodeList;getElementById("id")需文档含DTD或XML Schema声明ID类型属性
  • 访问关系:通过parentNodechildNodesfirstChildnextSibling等属性遍历树;推荐用getChildNodes()后过滤Node.ELEMENT_NODE类型,避开文本/空白节点干扰
  • 创建节点createElement("tag")createTextNode("text")createAttribute("attr"),再用appendChild()insertBefore()挂载到目标位置
  • 修改内容:Element节点调用setAttribute("k","v")设属性;Text节点改值用nodeValue = "new text"setTextContent("new")

注意事项与实用技巧

DOM适合中小型XML文档的随机访问,但有明显约束:

  • 整个文档必须一次性加载进内存,大文件易引发OutOfMemoryError
  • 节点对象长期持有引用可能导致内存泄漏,操作完及时置null(尤其在循环或长生命周期对象中)
  • 修改DOM不会自动同步回原始XML文件,需用Transformer类序列化输出
  • 不同语言实现略有差异——Java中常用W3C DOM标准,JavaScript中XML DOM与HTML DOM共享部分接口但行为更严格

基本上就这些。DOM本身不复杂,但节点类型多、关系细,实际用时盯住“节点类型判断”和“父子关系维护”两个关键点,就能稳住操作逻辑。