pandas 如何处理 nullable integer 类型避免 NaN 转 float_技术教程

用"Int64"显式指定dtype可创建支持缺失值的整数类型，需在创建时设置，后续astype转换会失败；convert_dtypes()可批量修复float64列，但要求非缺失值能无损转整数。

用 `"Int64"` 显式指定 dtype 是最直接的解法

默认情况下，pd.DataFrame 或 pd.Series 遇到 [1, 2, None] 这类混合数据，会自动升格为 float64，把 None 变成 NaN，整数也变 1.0。这不是 bug，是旧版 Pandas 的兼容性设计。要跳过这一步，必须主动告诉 Pandas：“我要的是能存缺失值的整数”，而不是等它猜。

"Int64"（注意大写 I）是字符串别名，对应 pd.Int64Dtype()，它底层用 pd.NA 表示缺失，不依赖 np.nan
必须在创建时指定，比如 pd.Series(d ata, dtype="Int64")；后续用 .astype("Int64") 会失败（因为已有 float64 中的 NaN 无法直接转）
支持所有常见缺失表示：None、np.nan、pd.NA 都会被统一转为

import pandas as pd
s = pd.Series([1, 2, None, 999], dtype="Int64")
# 输出：
# 0       1
# 1       2
# 2    
# 3     999
# dtype: Int64

`convert_dtypes()` 能批量修复已有列，但有前提

如果你已经读入了 CSV 或其他来源的数据，列已经是 float64 带 NaN，又想“抢救”回可空整数类型，.convert_dtypes() 是首选工具 —— 但它不会无脑转换，得满足条件。

列中所有非缺失值必须能无损转为整数（例如 1.0、5.0 可以；1.5 不行）
默认启用 convert_integer=True，且 dtype_backend="numpy_nullable"（Pandas 2.0+ 默认）
如果原始列是 object 类型混了字符串，它会跳过，不报错也不强转

df = pd.DataFrame({"x": [1.0, 2.0, float("nan"), 4.0]})
df_converted = df.convert_dtypes()
# df_converted["x"].dtype → Int64

别混用 `np.nan` 和 `pd.NA`，尤其在计算和比较中

可空整数类型表面看只是“整数 + 缺失”，但行为和传统 int64 或 float64 不同。最常踩的坑是逻辑运算和聚合函数返回而不是标量。

s == 5 对含的 Series，结果中对应位置是，不是 False —— 因为“未知是否等于 5”不等于“不等于 5”
聚合如 .sum()、.mean() 会自动跳过，但 .count() 统计的是非缺失个数，不是总长度
若下游代码要求纯布尔数组（比如用于 .loc），得手动 .fillna(False) 或 .dropna()

注意实验性标识和向下兼容边界

Int64 等 nullable 类型从 Pandas 1.0 开始引入，文档至今仍标注为“experimental”，意味着 API 可能微调（比如未来可能改名或合并进新 backend），但实际生产环境已非常稳定。

NumPy 互操作需谨慎：转成 np.array(s) 会丢失，变成 object 数组或抛错，要用 s.to_numpy(dtype="int64", na_value=-1) 显式填充值
老版本 Pandas（float64 + np.nan，或自己封装 object 列存 Python int/None
数据库写入（如 SQLAlchemy）可能不识别 Int64，需提前 .astype("Int64").replace({pd.NA: None})