如何用Python爬取XML网站数据

月夜之吻 2025-12-19 00:00:00 次阅读

Python爬取XML数据核心是获取内容并解析，需注意编码、命名空间和请求细节：用requests发带headers的请求，检查状态码和content-type，推荐ET.fromstring(res.content)解析，处理命名空间需传入字典，常见问题包括乱码、反爬和大文件内存溢出。

用Python爬取XML网站数据，核心是“获取XML内容 + 解析结构化数据”，不需渲染页面，比HTML简单，但要注意编码、命名空间和网络请求细节。

发送HTTP请求获取XML内容

多数XML数据通过URL直接提供（如RSS、API接口、Sitemap），用requests最稳妥：

设置headers模拟浏览器（部分站点会拒绝默认User-Agent）
检查响应状态码（res.status_code == 200）和res.headers.get('content-type')是否含xml
显式指定res.encoding = 'utf-8'或用res.content配合解析器自动检测编码（更可靠）

用xml.etree.ElementTree解析XML

Python标准库xml.etree.ElementTree（简称ET）轻量高效，适合大多数场景：

用ET.fromstring(res.content)解析字节流（推荐，避免编码错误）
用root.findall('.//item')按XPath查找元素；注意find()只返回第一个匹配项
访问文本用elem.text，属性用elem.get('attr_name')
若XML含命名空间（如xmlns:dc="http://purl.org/dc/elements/1.1/"），需传入命名空间字典：namespaces={'dc': 'http://purl.org/dc/elements/1.1/'}，再写.find('dc:creator', namespaces)

处理常见问题

实际中容易卡在几个地方：

编码乱码：优先用res.content而非res.text；若仍出错，可尝试res.content.decode('gbk', errors='ignore')（中文站点常见）
反爬拦截：加headers = {'User-Agent': 'Mozilla/5.0...'}；必要时加time.sleep(1)控制频率
大文件内存溢出：改用xml.etree.ElementTree.iterparse()边读边处理，适合解析超大XML（如百万级Sitemap）
SSL证书错误：临时加verify=False（仅调试），生产环境应更新证书或配置信任路径

简单示例：抓取RSS标题列表

以常见的博客RSS为例：

import requests
import xml.etree.ElementTree as ET

url = "https://example.com/feed.xml"
res = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'})
res.raise_for_status()

root = ET.fromstring(res.content)
for item in root.findall('.//item'):
    title = item.find('title')
    link = item.find('link')
    if title is not None and link is not None:
        print(title.text.strip(), '→', link.text.strip())