C++正则表达式regex教程_C++ regex_search与regex_replace高级用法

C++中使用头文件提供正则表达式功能,支持复杂模式匹配如邮箱验证。std::regex_search用于查找字符串中符合正则表达式的子串,只要部分匹配即返回true,并可通过std::smatch获取捕获组内容。

在C++中使用正则表达式需要包含头文件,它提供了强大的文本匹配与替换功能。相比简单的字符串操作,regex能处理复杂的模式匹配任务,比如验证邮箱、提取日志信息或批量替换代码中的特定结构。

regex_search:查找符合模式的子串

std::regex_search用于判断字符串中是否存在匹配正则表达式的子串,也可以提取出捕获组的内容。它不会匹配整个字符串,只要有一部分满足条件就返回true。

基本用法如下:

#include 
#include 
#include 

int main() {
    std::string text = "Contact us at support@example.com";
    std::regex email_pattern(R"(\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b)");

    std::smatch match; // 用于保存匹配结果
    if (std::regex_search(text, match, email_pattern)) {
        std::cout << "Found email: " << match.str() << std::endl;
    }
}

其中match是一个std::smatch对象,支持索引访问多个捕获组。例如:

std::regex url_pattern(R"(https?://([^\s]+))");
std::string content = "Visit https://example.com for details";

std::smatch result;
if (std::regex_search(content, result, url_protocol)) {
    std::cout << "Full match: " << result[0] << std::endl; // 完整URL
    std::cout << "Domain part: " << result[1] << std::endl; // 括号内的内容
}

regex_match:完全匹配整个字符串

regex_search不同,std::regex_match要求整个字符串完全符合正则表达式才返回true,适合做格式校验。

std::string input = "123-456-7890";
std::regex phone_regex(R"(\d{3}-\d{3}-\d{4})");

if (std::regex_match(input, phone_regex)) {
    std::cout << "Valid phone number format." << std::endl;
}

如果输入是“Call: 123-456-7890”,虽然包含合法号码,但regex_match会失败,因为它不是整个字符串都匹配。

regex_replace:替换所有匹配项

std::regex_replace可以将字符串中所有匹配的部分替换成指定内容,非常适用于清洗数据或模板填充。

基础示例:隐藏手机号中间四位

std::string msg = "My number is 13812345678.";
std::regex mobile_regex(R"((\d{3})\d{4}(\d{4}))");
std::string masked = std::regex_replace(msg, mobile_regex, "$1****$2");

std::cout << masked << std::endl; // 输出: My number is 138****5678.

说明:$1$2代表第一和第二个捕获组。

更进一步,可以用回调方式实现复杂逻辑(虽然C++标准库不直接支持lambda作为替换规则,但可通过循环+search模拟):

std::string log_line = "Error at 2025-03-15T10:30:45Z: file not found";
std::regex time_rx(R"(\d{4}-\d{2}-\d{2}T\d{2}:\d{2}:\d{2}Z)");
std::string cleaned = std::regex_replace(log_line, time_rx, "[TIMESTAMP]");
// 结果: Error at [TIMESTAMP]: file not found

高级技巧与注意事项

实际开发中需要注意以下几点:

  • 使用原始字符串字面量R"(...)"避免反斜杠转义问题,如\d写成\\d容易出错。
  • 性能敏感场景慎用正则,特别是复杂表达式或大文本处理,可考虑预编译std::regex对象复用。
  • 区分std::regex_searchstd::regex_matchstd::regex_iterator的应用场景。
  • 多行匹配时注意标志位,如std::regex_constants::extended或启用multiline模式(需结合具体实现行为)。
  • 字符集匹配推荐明确范围,避免依赖隐含编码环境,尤其是在跨平台项目中。

基本上就这些。掌握regex_searchregex_matchregex_replace的核心用法后,再结合捕获组和替换语法,就能高效处理大多数文本处理任务了。不复杂但容易忽略的是细节,比如匹配范围和转义字符处理。