如何自定义XML实体 XML外部实体引用与定义方法

XML实体分内部和外部两类,用于表示特殊字符、重复内容或外部资源;内部实体在DTD中直接定义值,外部实体通过SYSTEM或PUBLIC引用外部资源,但现代解析器默认禁用外部实体以防XXE攻击。

XML实体用于在文档中代表特殊字符、重复内容或外部资源,自定义实体分内部实体和外部实体两类。关键在于声明的位置与语法是否符合DTD规范,且需注意现代解析器默认禁用外部实体(XXE)以防范安全风险。

定义内部实体(不访问外部文件)

内部实体直接在DTD中定义值,常用于简化重复文本或插入特殊字符:

  • 在文档内部DTD中声明: ]>
  • 在XML文档中引用:©right; → 解析后显示为“© 2025 My Company”
  • 支持参数实体(仅在DTD内使用),用%name;引用,声明时加百分号:

声明外部实体(引用外部资源)

外部实体指向本地文件或URL,语法需指定SYSTEM或PUBLIC标识符:

  • 引用本地文件:,然后在文档中用&footer;
  • 引用远程内容(不推荐):
  • PUBLIC实体适合标准化资源:

注意:大多数现代XML解析器(如Java的DocumentBuilder、Python的xml.etree.ElementTree)默认禁用外部实体解析,启用需显式配置,否则会报错或静默忽略。

安全提醒:避免XXE攻击

外部实体若处理不当,可能被用于读取敏感文件(如/etc/passwd)、发起SSRF或拒绝服务攻击:

  • 禁止使用SYSTEM引用用户可控路径或URL
  • 解析XML前关闭外部实体加载:例如Java中设置setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)
  • 如必须用外部实体,应白名单校验系统标识符,或改用内部实体+预加载内容方式替代

实际可用的小技巧

即使禁用外部实体,仍可灵活使用内部实体提升可维护性:

  • 把长命名空间URI定义为实体:,再在元素中写xmlns:my="&ns;"
  • 用参数实体组织DTD模块: %coreElements;(需解析器支持并启用参数实体)
  • UTF-8文档中优先用字符引用()代替实体,减少DTD依赖

基本上就这些。实体不是必须的,但用对了能让XML更清晰、更易复用;用错了,轻则解析失败,重则引发安全问题。