如何使用 pandas 安全提取字符串中空格分隔的第二部分（如备注信息）_技术教程

本文详解如何在 pandas 中对含混合格式的分数字符串（如 `'20 m b'` 或 `'25'`）进行安全拆分，可靠提取数字主值与可选备注，避免因字段缺失导致的 `keyerror` 或 `valueerror`。

在数据清洗中，常遇到类似 'score' 列包含混合格式字符串的情形：部分条目为纯数字（如 '25'），部分则带空格分隔的附加标记（如 '20 M B'）。目标是将数字提取为 score（转为数值型），并将后续内容统一归入 note 列（允许为空）。直接使用 str.split(' ', 1, expand=True)[1] 会因某些行无空格而报错 KeyError: 1——因为 expand=True 仅返回实际存在的列数（单字段时只有 [0]）。

✅ 推荐方案：reindex 保障列结构稳定

最简洁、健壮的做法是：强制对 split(..., expand=True) 的结果进行列索引对齐，确保始终存在 [0] 和 [1] 列（缺失时自动填充 NaN）：

# 步骤1：按逗号拆分并展开为多行
df['score'] = df['score'].str.split(', ')
df = df.explode('score')

# 步骤2：安全拆分「数字 + 可选备注」，强制保留两列
split_parts = df['score'].str.split(' ', n=1, expand=True).reindex(columns=[0, 1])
df[['score', 'note']] = split_parts  # 同时赋值，语义清晰

✅ 优势：

无需条件判断，代码简洁；
reindex(columns=[0,1]) 确保即使某行无空格，[1] 列也存在且为 NaN；
支持任意长度备注（如 'M B'、'X'、'A C D'）。

⚠️ 注意事项与类型转换

拆分后，score 列仍为字符串，建议立即转为数值类型（自动将空或无效值转为 NaN）：

df['score'] = pd.to_numeric(df['score'], errors='coerce')

若需进一步清理 note（如去除首尾空格、合并多空格）：

df['note'] = df['note'].str.strip()

? 替代方案：正则一次提取（更高效，适合复杂模式）

当原始数据结构较固定（如“数字 + 可选空格+非逗号字符”），推荐用 str.extractall() 一步完成解析与展开，避免显式 explode：

# 提取所有匹配项，并与原 DataFrame 关联
pattern = r'(?P\d+)(?:\s+(?P[^,]+))?'
extracted = df.pop('score').str.extractall(pattern).droplevel('match')
df = df.join(extracted)
df['score'] = pd.to_numeric(df['score'], errors='coerce')  # 转数字

? 正则说明：

(?P\d+)：捕获连续数字（必选）；
(?:\s+(?P[^,]+))?：非捕获组，匹配空格后非逗号字符（可选，? 表示零次或一次）；
droplevel('match')：移除 extractall 生成的多级索引中的 match 层，对齐原索引。

此方法天然兼容缺失 note 的行，且性能更优（尤其大数据集），是生产环境的首选。

✅ 总结

方法	适用场景	健壮性	代码量	推荐度
split + reindex	快速适配、逻辑直观	★★★★★	★★☆	⭐⭐⭐⭐
str.extractall	结构明确、追求效率与可维护性	★★★★★	★★	⭐⭐⭐⭐⭐