Ruby如何解析xml? Nokogiri库使用入门

Nokogiri是Ruby中解析XML最常用且功能强大的库,支持从字符串或文件加载XML,通过CSS选择器或XPath查询节点,获取属性和文本内容,并处理解析错误,使用简单且性能良好。

Ruby 中解析 XML 最常用且功能强大的库是 Nokogiri。它支持 XML 和 HTML 的解析、搜索和修改,使用简单且性能良好。下面带你快速入门 Nokogiri 如何解析 XML。

安装 Nokogiri

在使用前,需要先安装 Nokogiri gem:

gem install nokogiri

或者在 Gemfile 中添加:

gem 'nokogiri'

然后运行 bundle install

加载和解析 XML

你可以从字符串或文件中加载 XML 内容。以下是一个简单的 XML 示例:

    xml_content = <<-XML


Ruby 入门指南
张三


Rails 实战
李四


XML

使用 Nokogiri 解析这段 XML:

    require 'nokogiri'

doc = Nokogiri::XML(xml_content)
# 确保没有解析错误
puts doc.errors unless doc.errors.empty?

查询 XML 节点

Nokogiri 支持使用 CSS 选择器或 XPath 来查找节点。

CSS 选择器示例:

    # 获取所有 book 节点
books = doc.css('book')
books.each do |book|
puts "ID: #{book['id']}"
puts "标题: #{book.at_css('title').content}"
puts "作者: #{book.at_css('author').content}"
end

XPath 示例:

    # 使用 XPath 获取所有 book/title 文本
titles = doc.xpath('//book/title/text()')
titles.each { |title| puts title.to_s }

注意:css 返回节点集合,at_cssat_xpath 返回第一个匹配节点。

处理属性和文本内容

获取元素的属性用方括号,获取文本内容用 text 方法。

    book = doc.at('book')
id = book['id'] # 获取 id 属性值
title_text = book.at('title').text # 获取 title 的文本

也可以判断节点是否存在:

    if book.at('title')
puts "标题存在:#{book.at('title').text}"
else
puts "标题缺失"
end

基本上就这些。Nokogiri 上手快,语法清晰,是 Ruby 处理 XML 的首选工具。只要会写 CSS 或 XPath,就能高效提取所需数据。