Python迭代器系统学习路线第48讲_核心原理与实战案例详解【指导】

Python迭代器的核心是迭代协议,即实现__iter__()和__next__()方法;可迭代对象仅需__iter__()返回迭代器,而迭代器必须同时实现二者并维护状态、抛出StopIteration。

Python迭代器的核心在于理解 迭代协议 —— 即对象只要实现了 __iter__()__next__() 方法,就能被 for 循环、next() 等消费。它不是语法糖,而是 Python 迭代行为的底层契约。

迭代器 vs 可迭代对象:关键区分

可迭代对象(如 list、str、dict、range)只须实现 __iter__(),返回一个迭代器;迭代器自身必须同时具备 __iter__()(通常返回 self)和 __next__()(返回下一个值或抛出 StopIteration)。 常见误区:误以为 list 本身是迭代器——其实它是可迭代对象,每次调用 iter(list) 才生成新的迭代器。

手动实现一个迭代器:掌握控制流逻辑

写一个从 1 累加到 n 的迭代器,能清晰看到状态维护与边界处理:

class CountUp:
    def __init__(self, n):
        self.n = n
        self.current = 1
def __iter__(self):
    return self  # 迭代器自身可被迭代

def __next__(self):
    if self.current > self.n:
        raise StopIteration
    value = self.current
    self.current += 1
    return value

使用

for i in CountUp(3): print(i) # 输出 1, 2, 3

  • __next__ 必须显式管理状态(如 self.current
  • 到达终点时必须抛出 StopIteration,不能返回 None 或静默退出
  • __iter__ 返回 self 是让该对象支持多次遍历(但注意:本例中它是一次性耗尽的,如需重复使用,应在 __iter__ 中重置状态)

生成器:更简洁的迭代器写法

yield 定义的函数会自动返回生成器对象(即迭代器),Python 替你封装了状态保存、异常处理和暂停恢复逻辑。

def count_up_gen(n):
    for i in range(1, n+1):
        yield i

等价于上面的 CountUp 类,但代码量少、不易出错

gen = count_up_gen(3) print(next(gen)) # 1 print(next(gen)) # 2

  • 生成器函数首次调用不执行逻辑,只返回生成器对象
  • 每次 next() 调用才运行到下一个 yield,并保存局部变量上下文
  • 函数自然结束时,自动生成 StopIteration

实战场景:文件逐行读取 + 链式过滤

避免一次性加载大文件到内存,用迭代器组合实现内存友好的数据流水线:

def read_lines(filename):
    with open(filename) as f:
        for line in f:  # 文件对象本身就是迭代器
            yield line.rstrip('\n')

def non_empty(lines): for line in lines: if line.strip(): yield line

def long_lines(lines, min_len=10): for line in lines: if len(line) >= min_len: yield line

组合使用(惰性求值,无中间列表)

for line in long_lines(non_empty(read_lines('data.txt'))): print(repr(line))

  • 每层都是迭代器,数据逐个流动,内存占用恒定
  • 整个链路在 for 启动时才开始执行,未用到的数据永不计算
  • 可轻松替换某环节(如换成正则过滤),不影响其他逻辑