SQL格式化:使用Go语言实现SQL语句的语法感知缩进与换行

本文介绍在go中对sql字符串进行结构化格式化的专业方案,强调仅靠正则或简单关键词分割的局限性,并推荐基于真实sql解析器的可靠实现路径。

在Go语言中,将扁平SQL字符串(如 select col1, col2 from foo where col1 > 1000)转换为可读性强、缩进规范的格式化输出(如多行+大写关键字+嵌套缩进),看似可通过字符串切分+关键词匹配(如 "SELECT"、"FROM"、"AND")实现,但实际极易出错。例如:

// ❌ 危险的“伪格式化”示例(不推荐生产使用)
strings.ReplaceAll(sql, "select ", "SELECT\n")
strings.ReplaceAll(sql, " from ", "\nFROM\n")
// ……很快会崩溃于:SELECT * FROM users WHERE name LIKE 'a% and b%'

这类基于子串替换或空格分割的“启发式”方法,无法识别SQL语法结构:

  • 关键字可能出现在字符串字面量中(如 'SELECT * FROM t');
  • 括号嵌套(WHERE (a > 1 AND b
  • 控制流块(如 BEGIN ... END, IF ... THEN ... END)需上下文感知缩进层级;
  • 大小写敏感性、注释(--、/* */)、引号包裹的标识符等进一步增加复杂度。

✅ 正确路径是:使用成熟的SQL解析器生成抽象语法树(AST),再遍历AST进行语义化格式化

Go生态中较成熟的选择是 vitess/sqlparser(原 code.google.com/p/vitess/go/vt/sqlparser 已迁移)。它支持MySQL语法(兼容大部分标准SQL),能精准解析SELECT/INSERT/BEGIN/IF等语句,并保留位置、类型和嵌套关系:

import (
    "github.com/vitessio/vitess/go/vt/sqlparser"
)

func FormatSQL(sql string) (string, error) {
    stmt, err := sqlparser.Parse(sql)
    if err != nil {
        return "", err
    }
    // vitess 默认不提供格式化器,需自定义遍历逻辑
    // 示例:对 *sqlparser.SelectStmt 实现缩进打印
    return formatSelect(stmt), nil
}

func formatSelect(stmt sqlparser.Statement) string {
    switch s := stmt.(type) {
    case *sqlparser.SelectStmt:
        var b strings.Builder
        b.WriteString("SELECT ")
        b.WriteString(sqlparser.String(s.SelectExprs))
        b.WriteString("\nFROM ")
        b.WriteString(sqlparser.String(s.From))
        if s.Where != nil {
            b.WriteString("\nWHERE ")
            b.WriteString(indent(sqlparser.String(s.Where.Expr), 4)) // 缩进条件
        

} return b.String() default: return sqlparser.String(stmt) } }

⚠️ 注意事项:

  • vitess 的 sqlparser.String() 方法返回的是标准化但未格式化的SQL(关键字大写、空格归一),需自行扩展缩进逻辑;
  • 对 BEGIN/IF 等嵌套块,应维护缩进深度栈,在进入 Begin 时 depth++,退出时 depth--;
  • 生产环境建议封装为独立工具(如 CLI 或 HTTP service),避免直接在业务逻辑中解析不可信SQL;
  • 若需支持PostgreSQL或ANSI SQL,可考虑 pg_query_go(C绑定)或 sqlparser-go(更轻量但功能略少)。

总结:SQL格式化不是字符串处理问题,而是编译器前端问题。放弃正则和strings.Split,拥抱语法解析——这是唯一能兼顾正确性、可维护性与扩展性的工程实践。