Python minidom怎么格式化输出XML toprettyxml方法

星降 2025-12-17 00:00:00 次阅读

minidom的toprettyxml()默认保留并美化原始空白节点，导致多余空行；应先调用再清理空白行，或改用ElementTree结合minidom处理。

用 minidom 的 toprettyxml() 方法确实能格式化 XML，但默认会多出空行、缩进不一致，甚至在某些版本里还会插入多余的换行——这不是 bug，是设计行为。关键是要理解它怎么工作，再针对性处理。

为什么 toprettyxml() 输出有空行？

因为 toprettyxml() 会把文本节点（比如换行符、空格）也当成独立节点来缩进，而原始 DOM 中的换行和空白会被保留并美化，结果就是标签之间冒出大量空行。

去掉多余空行的常用方法

最稳妥的做法是：先调用 toprettyxml()，再用正则或字符串处理把连续的换行压缩掉：

import xml.dom.minidom
假设 doc 是你的 Document 对象
rough_string = doc.toprettyxml(indent="  ", encoding=None)
去掉只含空白（含换行）的行，保留带标签的行
reparsed = '\n'.join([line for line in rough_string.split('\n') if line.strip()])

控制缩进和编码的实用参数

toprettyxml() 支持三个主要参数，用对了能省不少事：

indent：指定缩进字符串，默认是 " "（两个空格），可改成 "\t" 或 " "
newl：换行符，默认 "\n"，Windows 下可设为 "\r\n"
encoding：输出字节串时指定编码，如 "utf-8"；设为 None 则返回 Unicode 字符串（推荐）

更干净的替代方案（推荐）

如果对格式要求高，或者要频繁生成 XML，建议换用 xml.etree.ElementTree 配合 xml.dom.minidom 做最终美化，或直接用第三方库如 lxml：

# 简单又干净：ElementTree + minidom 衔接
import xml.etree.ElementTree as ET
from xml.dom import minidom
root = ET.fromstring(your_xml_string)
rough = ET.tostring(root, encoding="unicode")
reparsed = minidom.parseString(rough).toprettyxml(indent="  ")
reparsed = '\n'.join([s for s in reparsed.split('\n') if s.strip()])

基本上就这些。不用强求 toprettyxml() 一步到位，加一行清理逻辑，输出就干净多了。