标准且兼容性最好的方式是Base64编码,因XML仅支持Unicode文本,无法直接存储含控制字符或非法字节的二进制数据;Base64将其转为可打印ASCII字符并可用CDATA包裹确保安全。
在XML中嵌入二进制数据,标准且兼容性最好的方式是使用Base64编码,将原始字节序列转换为ASCII字符串后存入XML文本节点或属性中。
为什么必须用Base64编码
XML只支持Unicode文本(UTF-8/UTF-16等),不能直接存储任意二进制字节(如图片、PDF、音频的原始字节)。若强行写入,可能包含非法字符(如

如何正确编码与嵌入
编码过程需严格遵循RFC 4648;嵌入位置推荐使用元素内容(而非属性),避免长度和空白处理限制。
- 用标准库编码:Python用base64.b64encode(data).decode('ascii');Java用Base64.getEncoder().encodeToString(bytes);JavaScript用btoa(String.fromCharCode(...))(注意需先转为Latin-1字符串)
- 写入XML时,建议包裹在CDATA段内,防止XML解析器对
- 务必声明编码方式,例如通过encoding="base64"属性注明:
...
解析时的注意事项
解码前需清理空白字符(Base64允许换行和空格,但XML解析后可能残留),并验证填充符=数量是否合法(必须为0、1或2个,且只在末尾)。
- 去除所有换行符、制表符、空格后再解码,避免“Invalid character”错误
- 检查长度是否为4的倍数;不足则补=,但最多补两个
- 解码失败时优先排查是否混入了不可见Unicode空格(如U+200B零宽空格)
替代方案与不推荐做法
有人尝试用十六进制(hex)编码,虽可读性略高,但体积膨胀100%(2字符/字节),而Base64仅膨胀约33%,更节省空间。绝对不要用URL编码或自定义映射——缺乏通用性和工具支持。也不建议将二进制数据拆成多段拼接,易出错且无标准解析逻辑。








