如何使用 pandas 对分箱数据按多级索引进行计数统计（含零值填充）

花韻仙語 2026-01-06 00:00:00 次阅读

本文介绍如何结合 `pd.cut()` 和 `pivot_table()` 实现按大洲（continent）和可再生能源占比分箱（% renewable）的双重分组计数，并确保每个大洲下所有分箱区间均完整出现（包括计数为 0 的情况）。

在数据分析中，常需对连续型变量（如 % Renewable）进行等宽或等频分箱，并进一步按分类维度（如 Continent）统计各分箱内的样本数量。关键挑战在于：既要实现多级分组，又要保证结果中包含所有预设分箱（即使某大洲在该区间内无国家），即“补零”需求。

直接使用 groupby(['Continent', pd.cut(...)]) 会失败，原因在于 pd.cut() 返回的是 Categorical 类型，而当分组键中存在缺失或类型不兼容时（例如混合了字符串与浮点边界），groupby 可能触发 TypeError: can only concatenate str (not "float") to str —— 这通常源于底层索引对齐或内部拼接逻辑异常，而非用户代码语法错误。

推荐解法是使用 DataFrame.pivot_table()，它天然支持“全组合填充”，配合 pd.cut() 可精准达成目标：

# 步骤1：新增一列存储分箱结果（注意：bins=5 表示生成5个等宽区间）
renew["% Renewable_bin"] = pd.cut(renew["% Renewable"], bins=5)

# 步骤2：构建透视表，以 Continent 和分箱列为复合索引，统计 Country 数量
result = renew.pivot_table(
    index=["Continent", "% Renewable_bin"],
    values="Country",
    aggfunc="count"
).rename(columns={"Country": "Count"})

✅ 优势说明：