腾讯云自研数据分析智能体TCDataAgent在NL2SQL国际评测平台BIRD-Bench上取得全球第三、国内第一的优异成绩,超越众多国际科技巨头。BIRD-Bench以其高难度著称,要求系统准确翻译自然语言问题为SQL语句,并在超大、超真实的企业级数据库中高效运行。TCDataAgent在金融、医疗、体育等37个真实行业场景,以及33GB数据量和1万+考题的严苛条件下,取得了75.74分的高分。该技术在错误自动识别与修正、理解数据库内容和高质量训练筛选三大方向取得突破,其核心模块还能提升其他同类系统的查询执行准确率。
✅ **BIRD-Bench评测结果**:腾讯云TCDataAgent在NL2SQL国际评测平台BIRD-Bench上获得全球第三、国内第一的成绩,刷新了国内在该领域的最佳记录。
💡 **评测标准**:BIRD-Bench被认为是NL2SQL领域最难的榜单,要求系统将自然语言问题准确转化为SQL语句,并在大型、真实的企业级数据库中高效运行。
📊 **评测数据与场景**:本次评测涵盖金融、医疗、体育等37个真实行业场景,总数据量达到33GB,考题数量超过1万条。
🚀 **技术突破**:TCDataAgent在错误自动识别与修正、理解数据库内容以及高质量训练筛选三个方面取得突破,提升了意图理解和结果的可信度。
🔬 **技术应用**:TCDataAgent的核心模块可集成到其他同类系统中,能将查询执行准确率最高提升18.3%。
快科技7月4日消息,根据自然语言转SQL(NL2SQL)国际评测平台BIRD-Bench公布的最新结果:腾讯云自研数据分析智能体TCDataAgent获得全球第三、国内第一,刷新了国内在该领域的最佳成绩,超越众多国际科技巨头。
BIRD-Bench被誉为NL2SQL全球最难榜单,它不仅要求系统将自然语言问题准确翻译成SQL语句,还要确保生成的SQL在超大、超真实、藏着各种的企业级数据库里,又快又准地跑出来。
测评用的样本,涵盖了金融、医疗、体育等37个真实行业场景,总数据量达到33GB,考题多达1万+条。
但就是在这样严苛的条件下,腾讯云TCDataAgent依然取得了75.74分的高分。

据介绍,传统方法容易在复杂结构或语义模糊时猜错用户意图,TCDataAgent则在三大方向取得突破:
错误自动识别与修正:引入数据库约束验证机制,能够像质检员一样自动发现并修复SQL语句中的结构性或语义性错误;
理解数据库内容:让模型紧密结合数据库的真实内容来生成和优化SQL,极大提升了意图理解和结果的可信度;
高质量训练筛选:通过后训练(post-training)技术,优先筛选并复用效果最优的SQL样本进行训练迭代。
这项技术的创新成果,也被数据库领域顶尖国际会议VLDB接收发表,论文中的实验显示,TCDataAgent的核心模块可以集成到其他同类系统中,能将查询执行准确率最高提升18.3%。
