如何从嵌套 JSON 数据中高效提取指定键的全部值

本文介绍一种通用、递归式的 python 方法,用于从任意深度嵌套的 json 结构中提取所有匹配指定键(如 `"aaaa"` 或 `"bbbb"`)的值,并自动聚合为列表,适用于不规则嵌套场景。

在处理真实业务中的 JSON 数据(如 API 响应、配置文件或低代码平台导出结构)时,常遇到字段位置不固定、嵌套层级复杂、甚至同一键名出现在不同嵌套路径下的情况——正如示例中 "AAAA" 和 "BBBB" 并非位于顶层或统一路径,而是深藏于 customFields → values → [...] → values → [...] 的多层嵌套数组与对象混合结构中。此时,硬编码路径(如 data["customFields"][2]["values"][0][0]["values"][0]["AAAA"])不仅脆弱易错,且完全不可维护。

推荐采用递归深度优先遍历(DFS)策略:对任意输入数据(字典或列表),逐层展开,一旦发现目标键即收集其值,无需预知结构。该方法鲁棒性强、逻辑清晰,且天然支持任意嵌套深度和混合类型。

以下为完整可运行实现:

import json

def extract_values(data, key):
    """
    递归提取 JSON 数据中所有 key 对应的值(支持 dict/list 混合嵌套)
    :param data: 待解析的 JSON 兼容对象(dict/list/str/int/float/bool/None)
    :param key: 要查找的字符串键名
    :yield: 所有匹配到的值(按遍历顺序)
    """
    if isinstance(data, dict):
        # 若当前是字典,检查是否直接包含目标 key
        if key in data:
            yield data[key]
        # 递归遍历所有 value(可能为 dict/list/原子类型)
        for value in data.values():
            yield from extract_values(value, key)
    elif isinstance(data, list):
        # 若当前是列表,对每个元素递归处理
        for item in data:
            yield from extract_values(item, key)
    # 原子类型(str/int/float/bool/None)不包含键,直接跳过

# 示例用法(假设已加载原始 JSON 字符串为变量 `json_str`)
# data = json.loads(json_str)

# 提取所有 "AAAA" 和 "BBBB" 的值
List_AAAA = list(extract_values(data, "AAAA"))   # → [9090, 9091]
List_BBBB = list(extract_values(data, "BBBB"))   # → ["MONACO", "NICE"]

关键原理说明

  • yield from 实现了生成器委托,使递归调用能扁平化返回所有深层结果;
  • 类型判断(isinstance(data, dict/list))确保只对容器类型展开,避免对字符串、数字等误操作;
  • 不依

    赖路径索引,因此完全兼容字段顺序变动、新增中间层或空数组等现实异常;
  • 时间复杂度为 O(N),N 为 JSON 中所有节点总数,已是理论最优。

⚠️ 注意事项

  • 该方法返回所有匹配值,若需去重可后续调用 list(set(...))(注意:仅适用于可哈希值);
  • 若 JSON 中存在同名键但语义不同(如 "id" 出现在多个上下文),此方法会一并提取——此时应结合上下文过滤(例如先定位到 name == "Case" 的对象再提取);
  • 对超大 JSON(GB 级),建议改用流式解析器(如 ijson)避免内存溢出。

掌握这一递归提取模式,你将能从容应对绝大多数“结构不可控”的 JSON 解析任务——它不是黑魔法,而是对树形数据本质的尊重与利用。