原创路口IT大叔_KUMA 2024-12-08 09:02 重庆

点击关注公众号，“技术干货”及时达！

点击关注公众号，“技术干货” 及时达！

我是 LEE，一位有着 17 年 IT 从业经验的技术老兵。

今天，我想和大家分享一个在日常开发中优化错误和异常处理的故事，以及我如何从线上事故中逐步打造出一个优雅的错误处理工具。（「这些都是宝贵的经验教训」）

这个故事要从日常开发工作说起。每天面对着无尽的开发需求和对接任务，我在代码中处理大量的 if err != nil 错误检查以及随时可能发生的 panic，这让我感到非常头疼。

「用一段代码举例：」

func processOrder(order *Order) error {
    // 1. 验证订单
    if err := validateOrder(order); err != nil {
        return fmt.Errorf("订单验证失败: %w", err)
    }
    // 2. 库存检查 - 可能会 panic
    inventory, err := func() (inv *Inventory, err error) {
        defer func() {
            if r := recover(); r != nil {
                err = fmt.Errorf("库存检查时发生panic: %v", r)
            }
        }()
        return checkInventory(order)
    }()
    if err != nil {
        return fmt.Errorf("库存检查失败: %w", err)
    }
    // 3. 支付处理 - 第三方服务调用，需要处理超时和panic
    var paymentErr error
    for i := 0; i < 3; i++ { // 支付失败重试3次
        paymentErr = func() (err error) {
            defer func() {
                if r := recover(); r != nil {
                    err = fmt.Errorf("支付处理时发生panic: %v", r)
                }
            }()
            return processPayment(order)
        }()
        if paymentErr == nil {
            break
        }
        time.Sleep(time.Second * time.Duration(i+1))
    }
    if paymentErr != nil {
        return fmt.Errorf("支付处理最终失败: %w", paymentErr)
    }
    // 4. 物流信息
    if err := createShipment(order); err != nil {
        // 这里需要回滚支付，回滚过程也可能panic
        if rollbackErr := func() (err error) {
            defer func() {
                if r := recover(); r != nil {
                    err = fmt.Errorf("支付回滚时发生panic: %v", r)
                }
            }()
            return rollbackPayment(order)
        }(); rollbackErr != nil {
            return fmt.Errorf("支付回滚失败: %w", rollbackErr)
        }
        return fmt.Errorf("物流创建失败: %w", err)
    }
    // 5. 订单确认 - 数据库操作，需要处理事务
    tx, err := db.Begin()
    if err != nil {
        // 开启事务失败，需要回滚之前的操作
        if rollbackErr := rollbackShipmentAndPayment(order); rollbackErr != nil {
            return fmt.Errorf("订单回滚失败: %w", rollbackErr)
        }
        return fmt.Errorf("开启事务失败: %w", err)
    }
    // 使用defer确保事务一定会被处理
    defer func() {
        if r := recover(); r != nil {
            tx.Rollback()
            // 这里的panic会被上层的recover捕获
            panic(r)
        }
    }()
    if err := confirmOrder(tx, order); err != nil {
        tx.Rollback()
        // 这里需要回滚支付和物流
        if rollbackErr := rollbackShipmentAndPayment(order); rollbackErr != nil {
            return fmt.Errorf("订单回滚失败: %w", rollbackErr)
        }
        return fmt.Errorf("订单确认失败: %w", err)
    }
    if err := tx.Commit(); err != nil {
        tx.Rollback()
        // 提交失败也需要回滚所有操作
        if rollbackErr := rollbackShipmentAndPayment(order); rollbackErr != nil {
            return fmt.Errorf("订单回滚失败: %w", rollbackErr)
        }
        return fmt.Errorf("提交事务失败: %w", err)
    }
    return nil
}

这段代码表面上看起来已经做了完整的错误处理，但在实际生产环境中却暴露出了严重的问题：

「错误处理与业务逻辑耦合」

每个业务步骤都被大量的错误处理代码包围

真正的业务逻辑反而被淹没在错误处理中

代码改动时容易遗漏相关的错误处理逻辑

「资源清理逻辑分散在各处」

数据库事务、支付回滚、物流取消等清理逻辑散布各处

defer 语句和显式清理代码混合使用

多个资源的清理顺序难以控制和维护

「panic 处理机制不统一」

每个可能 panic 的操作都需要单独的 recover 处理

panic 转换为错误的方式不一致

recover 代码大量重复，且容易遗漏

「回滚操作的连锁反应」

支付回滚可能失败需要重试

物流取消可能触发新的异常

更要命的是，当系统压力变大时，各种边界情况频频出现。比如：支付服务偶尔超时、物流服务间歇性不可用、数据库连接池耗尽等。这些问题导致了大量的订单处理失败，而且错误处理代码本身也成为了一个维护噩梦。

我尝试用各种方式来改善这个情况，比如添加更多的错误检查，增加重试机制，但这只是让代码变得更加臃肿和难以维护：

func processOrderWithRetry(order *Order) error {
    var lastErr error
    for i := 0; i < 3; i++ {
        err := func() (err error) {
            // 添加 `panic` 恢复
            defer func() {
                if r := recover(); r != nil {
                    err = fmt.Errorf("处理订单时发生 panic: %v", r)
                }
            }()
            // 处理订单
            if err := processOrder(order); err != nil {
                return err
            }
            return nil
        }()
        if err == nil {
            return nil
        }
        lastErr = err
        time.Sleep(time.Second * time.Duration(i+1))
    }
    return fmt.Errorf("订单处理最终失败: %w", lastErr)
}

「这种代码不仅难以维护，而且还存在很多潜在的问题：」

重试逻辑和业务逻辑混在一起

没有优雅的资源清理机制

错误处理代码比业务逻辑还要多

panic 处理分散在各处

代码可读性差

这个问题一直困扰着团队，直到有一天，我决定彻底重新思考错误处理的方式 ...

背景故事

记得有一次，系统在处理一个大额订单时发生了 panic，导致支付已经完成但订单状态没有更新，客服花了好几个小时才手动处理完这个问题。这让我意识到，我需要一个更可靠、更优雅的错误处理方案。

系统每天要处理数几万笔订单，每个订单都需要经过验证、库存检查、支付处理、物流创建等多个步骤。每个步骤都可能出错，而且错误的类型和处理方式都不尽相同。有的错误需要立即通知用户，有的需要后台重试，有的需要人工介入。

「更复杂的是，业务代码还需要处理各种异常情况：」

第三方服务超时

数据库连接中断

缓存服务不可用

消息队列堵塞

内存溢出

...

这些问题让错误处理代码变得越来越复杂，维护成本也越来越高。我需要一个更好的解决方案。

痛点分析

通过深入分析错误处理代码的逻辑，以及 Go 语言在处理错误过程中的一些局限，我发现了几个主要的痛点：

错误处理代码的膨胀

最明显的问题是错误处理代码的膨胀。以一个简单的订单确认函数为例：

func confirmOrder(order *Order) error {
    // 1. 锁定订单
    mutex.Lock()
    defer mutex.Unlock()
    // 2. 获取数据库连接
    db, err := sql.Open("mysql", "user:password@/dbname")
    if err != nil {
        return fmt.Errorf("数据库连接失败: %w", err)
    }
    defer db.Close()
    // 3. 开启事务
    tx, err := db.Begin()
    if err != nil {
        return fmt.Errorf("开启事务失败: %w", err)
    }
    // 4. 更新订单状态
    if err := updateOrderStatus(tx, order); err != nil {
        tx.Rollback()
        return fmt.Errorf("更新订单状态失败: %w", err)
    }
    // 5. 发送通知
    if err := sendNotification(order); err != nil {
        tx.Rollback()
        return fmt.Errorf("发送通知失败: %w", err)
    }
    // 6. 提交事务
    if err := tx.Commit(); err != nil {
        tx.Rollback()
        return fmt.Errorf("提交事务失败: %w", err)
    }
    return nil
}

这个函数中，真正的业务逻辑只有更新订单状态和发送通知两行，但错误处理和资源清理的代码占据了大部分空间。这不仅影响了代码的可读性，还增加了维护的难度。

资源清理的不确定性

举例：在处理订单的过程中，我经常需要处理多个资源：数据库连接、文件句柄、网络连接等。确保这些资源被正确清理变得越来越困难：

func processOrderFiles(order *Order) error {
    // 打开订单文件
    orderFile, err := os.Open(order.FilePath)
    if err != nil {
        return fmt.Errorf("打开订单文件失败: %w", err)
    }
    defer orderFile.Close()
    // 创建临时文件
    tempFile, err := os.Create("temp.txt")
    if err != nil {
        return fmt.Errorf("创建临时文件失败: %w", err)
    }
    defer func() {
        tempFile.Close()
        os.Remove("temp.txt")
    }()
    // 处理文件内容
    if err := processFiles(orderFile, tempFile); err != nil {
        return fmt.Errorf("处理文件失败: %w", err)
    }
    return nil
}

「这种代码存在几个问题：」

defer 语句散布在各处，容易遗漏

资源清理的顺序可能会影响程序的正确性

如果清理过程本身出错，很难处理这些错误

异常恢复的不统一

如果在处理第三方服务调用时，我还经常需要处理可能的 panic：

func callThirdPartyService(order *Order) (err error) {
    defer func() {
        if r := recover(); r != nil {
            err = fmt.Errorf("第三方服务调用异常: %v", r)
        }
    }()
    // 调用第三方支付服务
    if err := processPayment(order); err != nil {
        return fmt.Errorf("支付处理失败: %w", err)
    }
    // 调用第三方物流服务
    if err := createShipment(order); err != nil {
        return fmt.Errorf("物流创建失败: %w", err)
    }
    return nil
}

「这种方式存在以下问题：」

panic 恢复代码重复出现在多个地方

错误转换的方式不统一

无法区分是真正的程序 panic 还是业务异常

待处理的问题

经过团队的讨论，我总结出以下需要解决的核心问题：

代码组织问题

「错误处理与业务逻辑的分离」

当前错误处理代码与业务逻辑紧密耦合

错误处理逻辑分散在各个函数中

代码维护困难，改动一处可能影响多处

「资源管理的统一性」

资源清理代码分散

清理顺序难以控制

清理过程的错误处理不完善

「异常处理的一致性」

panic 处理方式不统一

错误转换规则不一致

错误追踪和定位困难

功能性问题

「错误恢复能力」

缺乏统一的重试机制

没有优雅的降级策略

错误恢复过程可能产生新的错误

「错误信息的完整性」

错误上下文信息不完整

错误堆栈信息丢失

错误分类不清晰

「性能影响」

频繁的错误检查影响性能

资源清理可能导致延迟

错误处理路径的性能优化

面对的挑战与应对思路

在开始设计解决方案之前，我需要深入分析面临的挑战，并制定相应的应对策略。

技术架构层面的挑战

「代码侵入性问题」

挑战：如何在不大幅修改现有代码的情况下引入新的错误处理机制

思路：设计一个独立的错误处理层，通过装饰器模式包装现有功能

目标：最小化对现有代码的修改，实现平滑迁移

「性能开销控制」

挑战：新的错误处理机制不能显著增加系统开销

思路：采用轻量级的实现方式，避免过度封装

目标：在提供强大功能的同时保持高效性能

「可扩展性要求」

挑战：如何设计一个足够灵活的工具以适应未来的需求

思路：采用模块化设计，定义清晰的接口边界

目标：支持自定义错误处理策和扩展点

业务层面的挑

「错误恢复策略」

挑战：不同类型的错误需要不同的处理策略

思路：实现可配置的错误处理链，支持条件判断和自定义处理

目标：根据错误类型和业务场景灵活处理异常

「资源管理复杂性」

挑战：如何确保在各种异常情况下正确释放资源

思路：实现统一的资源管理机制，支持触发清理逻辑

目标：避免资源泄露，简化资源管理代码

「异常追踪能力」

挑战：如何提供足够的错误上下文信息以便问题诊断

思路：在错误处理过程中保留完整的调用栈和上下文信息

目标：提高系统可观测性，加快问题定位速度

实践层面的挑战

「开发体验优化」

挑战：如何提供简单易用的 API，降低开发者的心智负担

思路：设计直观的接口，提供常用场景的快捷方式

目标：提高开发效率，减少错误处理的代码量

「测试覆盖要求」

挑战：如何确保错误处理逻辑的正确性和完整性

思路：设计可测试的接口，提供完整的测试用例

目标：保证错误处理机制的可靠性

「文档和规范」

挑战：如何确保团队正确使用新的错误处理机制

思路：提供详细的文档和最佳实践指南

目标：统一团队的错误处理方式，提高代码质量

解决方案

经过团队深入讨论，我设计了一个统一的错误处理工具，它具备以下核心特性：

「优雅的语法」 - 提供类似 try-catch-finally 的直观语法

「资源管理」 - 内置资源清理机制

「统一异常处理」 - 标准化的 panic 处理流程

「可扩展错误链」 - 支持自定义错误处理策略

「完整错误上下文」 - 保留完整的错误信息和调用栈

我希望有一个库可以让我重写之前的订单处理代码，使其更加简洁、优雅，并且易于维护。

func processOrder(order *Order) {
    processor := NewOrderProcessor(order)
    return NewSafeExecutor().
        Try(func() error {
            return processor.Process(order)
        }).
        Catch(func(err error) error {
            // 统一的错误处理逻辑
            return handleOrderError(err)
        }).
        Finally(func() {
            // 统一的资源清理逻辑
            processor.Cleanup()
        }).
        Do()
}

这种方式不仅使代码更加简洁，还提高了代码的可读性和可维护性，确保在任何情况下都能正确处理错误和释放资源。

具体思路

在设计这个错误处理工具时，我遵循了以下核心原则：

「简单性」：API 设计直观，易于理解和使用，提供类似 try-catch-finally 的熟悉语法。

「可靠性」：确保 Finally 块总是执行，不会遗漏资源清理，自动处理 panic 并转换为标准错误。

「兼容性」：与 Go 的标准错误处理机制完全兼容，零侵入性设计，支持渐进式采用。

「轻量级」：零依赖设计，不引入额外的复杂性，保持高效性能。

「可扩展性」：采用模块化设计，定义清晰的接口边界，支持自定义错误处理策略和扩展点。

通过这些原则，确保错误处理代码与业务逻辑解耦，统一资源管理，标准化 panic 处理，提供简单直观的 API，并保证良好的可测试性和性能表现。

项目介绍

GitHub 仓库：go-trycatch

go-trycatch 提供了一种类似于其他语言中 try-catch-finally 的错误处理模式，但它是完全基于 Go 的错误处理机制实现的。来看一个具体的例子：

package main
import (
    "fmt"
    gtc "github.com/shengyanli1982/go-trycatch"
)
func main() {
    gtc.New().
        Try(func() error {
            // 这里放置可能会返回错误或触发 `panic` 的代码
            return riskyOperation()
        }).
        Catch(func(err error) {
            // 统一处理错误，包括普通错误和 panic
            fmt.Printf("捕获到错误: %v\n", err)
        }).
        Finally(func() {
            // 清理工作，总是会执行
            fmt.Println("执行清理工作")
        }).
        Do()
}

这种方式有几个明显的优势：

「代码更加简洁」：不需要写很多的 if err != nil 检查

「统一的错误处理」：普通错误和 panic 可以在同一个地方处理

「保证资源释放」：Finally 块确保清理代码总是会执行

「链式调用」：代码更加流畅，可读性更好

设计思路

go-trycatch 的设计基于以下几个核心原则：

「简单性」：API 设计简单直观，易于理解和使用

「可靠性」：确保 Finally 块总是执行，不会遗漏资源清理

「兼容性」：与 Go 的标准错误处理机制完全兼容

「轻量级」：零依赖，不引入额外的复杂性

接口设计

go-trycatch 提供了简洁而强大的链式调用 API，主要包含以下核心接口：

1. 创建实例

func New() *TryCatchBlock

通过 New() 函数创建一个新的错误处理块实例。这个实例是可重用的，使用完成后可以使用 Reset 方法重置状态。

2. 核心方法

Try 方法

func (tc *TryCatchBlock) Try(try func() error) *TryCatchBlock

接收一个可能返回错误的函数

这个函数中包含主要的业务逻辑

支持处理显式返回的错误和 panic

Catch 方法

func (tc *TryCatchBlock) Catch(catch func(error)) *TryCatchBlock

接收一个错误处理函数

处理来自 Try 块的常规错误

自动处理并转换 panic 为标准错误

Finally 方法

func (tc *TryCatchBlock) Finally(finally func()) *TryCatchBlock

接收一个清理函数

无论是否发生错误都会执行

通常用于资源清理和收尾工作

Do 方法

func (tc *TryCatchBlock) Do()

触发整个错误处理流程的执行

按 Try -> Catch -> Finally 的顺序处理

Reset 方法

func (tc *TryCatchBlock) Reset()

执行状态重置 (方便重复使用或者回归 sync.Pool)

3. 使用示例

New().
    Try(func() error {
        // 可能产生错误的业务逻辑
        return someRiskyOperation()
    }).
    Catch(func(err error) {
        // 错误处理逻辑
        log.Printf("发生错误: %v", err)
    }).
    Finally(func() {
        // 清理逻辑
        cleanup()
    }).
    Do()

4. 特性说明

「链式调用」：所有方法都返回 *TryCatchBlock，支持流畅的链式调用

「自动重置」：执行完成后自动重置状态，便于实例重用

「Panic 处理」：自动捕获并转换 panic 为标准错误

「资源安全」：保证 Finally 块总是执行，确保资源正确释放

「类型安全」：完全符合 Go 的类型系统，编译时类型检查

5. 设计亮点

「简单性」：接口设计直观，符合直觉

「完整性」：覆盖了错误处理的主要场景

「可组合」：各个块可以根据需要灵活组合

「安全性」：保证资源正确释放和状态重置

「兼容性」：与 Go 标准错误处理机制完全兼容

这种接口设计既保持了 Go 语言的简洁特性，又提供了更高层次的错误处理抽象，使得错误处理代码更加优雅和可维护。

使用建议

虽然 go-trycatch 提供了便利的错误处理方式，但它并不是要完全替代 Go 的标准错误处理。以下是一些使用建议：

「适度使用」：对于简单的错误处理，还是建议使用标准的 if err != nil 模式

「复杂场景」：当需要处理多个错误场景并确保资源释放时，可以考虑使用 go-trycatch

「panic 处理」：如果代码中可能出现 panic，使用 go-trycatch 可以更优雅地处理

「资源管理」：需要确保资源释放的场景，Finally 块提供了很好的保障

总结与展望

通过实施这个错误处理工具，我不仅解决了开发中错误和异常统一处理的问题，还收获了更多：

「代码质量提升」：错误处理代码减少了 60%，可维护性显著提高。

「开发效率提升」：新功能开发速度提升了 40%。

最重要的是，这个工具让我重新思考了错误处理的本质：「它不应该成为开发者的负担，而应该是提升代码质量的助手。」

如果你也在为错误处理而烦恼，欢迎访问我的 GitHub 仓库：go-trycatch，一起探讨更好的错误处理方式。

「请记住大叔劝谏：优雅的错误处理，是通向可靠软件的重要一步。」