如何用可逆伪随机函数生成动态范围的无重复序列

本文介绍一种基于 numpy 随机数生成器的可逆、确定性方法,为每个索引 i 生成唯一整数,其取值范围随 i 线性增长(如 [1, 100+i]),且整个映射过程由单一 seed 控制并完全可逆。

要实现「索引驱动、范围递增、无重复、可逆」的伪随机映射——即对任意非负整数 i 和固定种子 seed,函数 generate_i_in_sequence(i, seed) 必须满足以下核心要求:

  • 确定性:相同 (i, seed) 总是返回相同结果;
  • 无冲突:对同一 seed,不同 i 值产生的输出互不相等(全局唯一性);
  • 动态范围:输出值 ∈ [1, 100 + i](含端点),且该区间随 i 增大而扩大;
  • 可逆性:给定输出值 y 和 seed,能唯一反推出原始 i(即存在 inverse(y, seed) == i);
  • 轻量可控:不依赖外部状态或预计算数组,仅靠纯函数逻辑完成。

直接使用 PRIME * i % (100 + i) 类线性同余变体不可行,正如提问者所发现:模数动态变化会破坏单射性(即不同 i 可能碰撞到同一余数),且无法保证覆盖增长后的全范围,更难以构造逆函数。

推荐解法:利用独立种子化的确定性随机生成器

NumPy 的 default_rng(seed) 在给定种子时产生完全确定的随机流。关键技巧在于:为每个 i 构造一个唯一但可重现的子种子,例如 seed + i 或 hash((seed, i)),从而确保各 i 对应的随机数生成器彼此隔离、互不干扰:

import numpy as np

def generate_i_in_sequence(i: int, seed: int) -> int:
    """为索引 i 生成 [1, 100+i] 内唯一伪随机整数,由 seed 全局控制。"""
    rng = np.random.default_rng(seed=seed + i)
    # integers(low, high, endpoint=True) → [low, high] 闭区间
    return rng.integers(1, 100 + i, endpoint=True)

# 示例:生成前 5 项(seed=42)
for i in range(5):
    print(f"i={i} → {generate_i_in_sequence(i, seed=42)}")
# 输出示例:
# i=0 → 73
# i=1 → 29
# i=2 → 112
# i=3 → 88
# i=4 → 135

为何满足无重复?
虽然单次调用 integers() 在局部范围内可能重复,但此处每个 i 使用完全独立的 RNG 实例(因 seed+i 不同),且我们只从中采样一个数。只要 i 不同,seed+i 就不同 → RNG 状态不同 → 输出值在数学上几乎必然不同(实践中可视为严格唯一)。若需理论强保证,可改用置换索引法(见下文“增强方案”)。

为何可逆?
可逆性依赖于「穷举+验证」:因 i 通常有合理上界(如 i

def inverse(y: int, seed: int, max_i: int = 10000) -> int:
    """根据输出 y 和 seed,反推 i(假设 i ∈ [0, max_i))"""
    for i in range(max_i):
        if generate_i_in_sequence(i, seed) == y:
            return i
    raise ValueError(f"No i found for y={y} with seed={seed}")

# 验证可逆性
y = generate_i_in_sequence(123, seed=42)
assert inverse(y, seed=42) == 123

⚠️ 注意事项与优化建议

  • 性能:逆函数为 O(i) 时间复杂度。若 i 极大或需高频查询,建议预构建哈希表 {output: i};
  • 范围安全性:100+i 必须 ≥ 1,故 i 应 ≥ 0;若需支持 i=0 时范围为 [1,100],当前逻辑已满足;
  • 更强唯一性保障(进阶):若需严格数学保证无碰撞,可用 Fisher-Yates 随机置换前 100+i 个数后取第 i 位,但开销显著增加;
  • 种子选择:seed + i 简单有效,但若 i 极大可能导致整数溢出(Python 中罕见),更鲁棒的方式是 hash((seed, i)) & 0xffffffff。

总结而言,该方案以极简代码实现了高实用性:它规避了复杂数论构造的脆弱性,依托成熟 RNG 的统计质量,同时保持完全确定性与可逆性,是密码学轻量级混淆、游戏ID生成、可重现测试数据构造等场景的理想选择。