如何用正则表达式精准分割含嵌套逗号的结构化产品数据

聖光之護 2026-01-13 00:00:00 次阅读

本文介绍如何使用 python 正则表达式，准确提取以“数字+冒号”开头、中间可含任意逗号（如产品名、规格）的独立产品记录，避免被内部逗号错误截断。

在处理数据库导出的非标准 CSV 数据时，常见一类“伪分隔”问题：字段本身含逗号（如 Radio - Antenna 2.4 GHz AB/C midi (10p)），而记录边界却依赖相同的逗号分隔——这导致 str.split(',') 或简单正则完全失效。核心挑战在于：识别真正的记录起始点（如 13351234:），并贪婪/非贪婪地捕获其后全部内容，直到下一个合法起始点或字符串结尾。

推荐使用 re.findall() + 前瞻断言（lookahead） 方案，语义清晰、鲁棒性强：

import re

text = "13371337:Bat,TH,Li-Met,Blub,9.5V,370mAHr,1/2_AA-Cell,50pcs,13351234:Radio - Antenna 2.4 GHz AB/C midi (10p),15642345:Board SMB - Some Magic Board,95653345:Board SMK 6 - Some Magic Knobs - Mod6,56735632:Control Unit Z65 - Mod9"

pattern = r"\b[0-9]{5,9}:.*?(?=,\b[0-9]{5,9}:|$)"
products = re.findall(pattern, text)
for p in products:
    print(repr(p))

✅ 关键解析：