什么是XPath? xml路径语言XPath语法入门教程

XPath是用于在XML文档中查找节点的查询语言,支持路径表达式、谓语过滤和轴导航。通过/选择根下子节点,//查找任意位置元素,@选取属性,结合谓语[ ]进行条件筛选,如//book[@category='fiction'];利用contains()、text()等函数提升灵活性,配合child::、parent::等轴定位上下文节点,掌握基本语法与常见用法即可高效解析XML/HTML结构。

XPath 是一门专门用于在 XML 文档中查找和定位节点的查询语言。它被广泛应用于 XML 数据解析、网页抓取(如 HTML 页面,因为 HTML 可视为类 XML 结构)、自动化测试以及 XSLT 转换等场景。简单来说,XPath 就像给 XML 或 HTML 文档中的元素“指路”,让你能精准地找到某个标签、属性或文本内容。

XPath 基本语法结构

XPath 使用路径表达式来选取节点。这些表达式看起来类似文件系统的路径,但功能更强大。

常见节点类型:

  • 元素节点:如 Hello 中的 title
  • 属性节点:如 id="123" 中的 id 属性
  • 文本节点:元素内部的文字内容
  • 根节点:整个文档的最顶层节点

基本路径表达式示例:

  • /bookstore/book[1]:选择根元素 bookstore 下的第一个 book 子元素
  • //title:从文档任意位置选择所有名为 title 的元素(不关心层级)
  • /bookstore/book/title:选择 bookstore 下每个 book 元素内的 title 元素
  • @lang:选择属性名为 lang 的属性节点,常与元素结合使用,如 //title[@lang='en']

常用轴和谓语(Predicates)

语用于过滤节点,写在方括号 [] 内,可以包含表达式或函数。

常见用法:

  • //book[1]:选择第一个 book 元素
  • //book[last()]:选择最后一个 book 元素
  • //book[@category='fiction']:选择 category 属性值为 fiction 的 book
  • //book[price>30]:选择 price 大于 30 的 book(支持数值比较)
  • //book[contains(title, 'Python')]:选择 title 文本包含 "Python" 的 book

轴定义了相对于当前节点的导航方向,例如:

  • child:::子节点(默认省略),如 child::title 等同于 title
  • parent:::父节点,如 ../ 表示上级目录
  • ancestor:::所有祖先节点
  • following-sibling:::后面的同级兄弟节点

通配符与函数

XPath 支持多种通配符和内置函数,提高灵活性。

通配符:

  • *:匹配任意元素节点,如 /bookstore/* 表示 bookstore 下的所有子元素
  • @*:匹配任意属性节点
  • node():匹配任意类型的节点(元素、属性、文本等)

常用函数:

  • text():获取元素的文本内容,如 //title/text()
  • contains(str1, str2):判断字符串是否包含另一字符串
  • starts-with(str, prefix):判断是否以某字符串开头
  • position():返回节点的位置,如 //book[position()
  • count():统计节点数量

基本上就这些。掌握基础路径、谓语过滤和常用函数后,就能应对大多数 XML/HTML 解析任务。XPath 不复杂但容易忽略细节,比如区分 / 和 //,或者属性前加 @ 符号。多练习几个真实结构,很快就能上手。