如何在 Pandas 中使用列名列表批量传递多列数据给 apply 函数

本文介绍如何通过列名列表配合解包操作(*x)高效地将 dataframe 中的多个列作为参数传入自定义函数,避免手动逐列书写,显著提升代码可维护性与扩展性。

在 Pandas 中处理多列数据时,若需将若干列的值批量传入自定义函数(如 myfunction(a, b, c, ...)),直接在 df.apply() 中硬编码 x.A, x.B, x.C, ... 不仅冗长,还难以维护——尤其当列数达 10 列甚至更多时(如 A 到 J)。幸运的是,Pandas 提供了一种简洁、Pythonic 的解决方案:*先用列名列表筛选子 DataFrame,再利用 apply(axis=1) 结合解包操作 `x` 将每行数据自动展开为函数参数**。

具体实现步骤如下:

  1. 定义列名列表:将目标列名存入列表(如 cols = ['A', 'B', 'C', ..., 'J']);
  2. 按列索引获取子 DataFrame:df[cols] 返回仅含指定列的视图;
  3. 使用 apply + lambda + 解包:df[cols].apply(lambda x: myfunction(*x), axis=1),其中 *x 将 pd.Series 对象按列顺序解包为独立位置参数,等价于 myfunction(x['A'], x['B'], x['C'], ...)。

以下是一个完整示例:

import pandas as pd
import numpy as np

np.random.seed(26)
df = pd.DataFrame(np.random.randint(10, size=(3, 3)), columns=list('ABC'))
#    A  B  C
# 0  5  6  0
# 1  1  6  3
# 2  0  4  2

def myfunction(a, b, c):
    return (a * 2, b + 1, c ** 2)  # 示例:对各列执行不同变换

cols = ['A', 'B', 'C']
df['result'] = df[cols].apply(lambda x: myfunction(*x), axis=1)
print(df)
#    A  B  C        result
# 0  5  6  0  (10, 7, 0)
# 1  1  6  3   (2, 7, 9)
# 2  0  4  2   (0, 5, 4)

优势说明

  • ✅ 列名集中管理,增删列只需修改 cols 列表,无需改动 apply 行;
  • ✅ 自动保持参数顺序与列名列表一致,避免人为错位;
  • ✅ 兼容任意数量参数的函数(只要列数与函数形参个数匹配)。

⚠️ 注意事项

  • 确保 cols 中的列名全部存在于 df.columns 中,否则会触发 KeyError;建议添加校验:assert all(col in df.columns for col in cols);
  • 函数参数顺序必须严格对应 cols 列表中的列顺序;
  • 若需传入非列数据(如常量、外部变量),可改用 functools.partial 或闭包封装,而非依赖 *x 解包;
  • 性能敏感场景下,优先考虑向量化操作(如 np.where, Series.str 方法)或 numba 加速,apply(axis=1) 属于逐行 Python 循环,速度较慢。

综上,借助列名列表与星号解包,你能在保持代码清晰的同时,灵活、安全地将大量列数据注入任意函数,是 Pandas 高级数据处理中不可或缺的实用技巧。