dbaplus社群 06月22日 06:36
数仓工程师AI转型手册:从SQL进阶到Prompt工程
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章探讨了大模型在数据仓库领域的应用,重点介绍了辅助编码、业务提数、自助分析和文档撰写等方面的实践。作者分享了使用Cursor等工具提升开发效率的经验,并分析了业务提数和自助分析面临的挑战。此外,文章还提到了大模型在文档撰写和对外答疑方面的潜力,并对未来数据仓库工程师的发展提出了建议。文章强调了转型的重要性,并指出了在AI时代,数仓工程师需要加强业务理解能力。

💡 辅助编码:大模型,如Cursor,能够显著提升编码效率,通过将需求转化为文字描述,自动生成表结构和SQL代码,开发效率可提升30%以上,甚至超过50%。然而,数据安全和代码准确性是使用这类工具需要关注的问题。

📊 业务提数:大模型在业务提数方面面临挑战,因为用户对数据的理解和表达方式多样。为了提高准确性,需要明确的指标定义和用户判断能力。虽然对于新业务或新员工较多的团队有帮助,但在成熟业务中,其价值相对较低。

🔍 自助分析:大模型可以用于生成分析结论,但主要用于解决常规问题,需要预先定义指标拆解路径和输出文案。虽然未来低端研发和BI可能被替代,但高端的解决问题岗位仍有需求。通过读取原始数据,大模型可以进行更深入的分析,发现意想不到的结论。

📝 文档撰写:大模型在文档撰写方面也具备潜力,可以用于代码注释、纠错、改写等。虽然目前效率提升有限,但随着技术发展,其作用将更加显著。此外,大模型在对外答疑方面也表现出色,有望替代传统客服。

晓阳的数据小站 2025-06-07 08:02 广东

不想被淘汰,就赶紧转型!


一、大模型在数据仓库领域应用的一些探索


从2024年下半年开始,大模型的应用生态迅速爆发,第一个给我带来震撼的是Cursor,意图识别的准确率做到了相当高的水平;第二个就是春节期间的DeepSeek,第一次让我看到了本地部署和微调的可能性。这篇文章简要介绍下大模型在“数据仓库”领域的一些常见应用方式,以及我自己使用的一些心得体会。


二、## |0x00 辅助编码


代表作是Cursor/WindSurf等工具,原本我们认为辅助编码是节约一些重复性的工作,比如建表/写注释,但实际上手后发现,实际上绝大多数的需求,Cursor都能够快速帮我们实现。



举个实际例子:





实际上,如果我们能把之前的一些实现sql,给到Cursor做参考,基本上不需要做二次修改,就能直接使用写好的结果。



在日常工作中使用下来,保守估计开发效率能够提升30%以上,如果业务方给到的需求比较规范,50%+也不是什么问题。主要提升的点在于,我不需要动脑子,只需要当个纯粹的复制粘贴工具人即可,如果大模型写错了,就一直追问,它会自动改正。


但使用这类工具有如下几个问题:



因此,DeepSeek出现后,我非常开心,因为有了规避数据安全的手段,也有了微调的可能性。这对我们做研发的冲击非常大。


三、## |0x01 业务提数


ChatGPT3.5版本诞生时,我们就想到了能不能让大模型来提数,给不懂sql的业务使用,本身我们就有比较完善数据仓库体系,这个能力并不难实现。


核心实现的思路是:用户输入一句话,大模型识别出用户输入的信息里需要获取的指标、自动化SQL生成,然后将SQL丢到执行引擎中,最后反馈执行的结果。


但很快,我们发现这种方式也有弊端,因为我们面向的用户并不是专业的技术人员,而且同样一件事情,不同人理解和说出来的内容可能完全不同,这就导致语义识别非常难,而且用户也无法判断输出结果是不是准确的。比如什么是“新客”?如果没有事先的定义,搞错的概率相当高。


因此,这个路径很快就发展成了,要么问一些固定的套路化问题,要么用户需要有自己辨别数据是否准确的能力。总之,提数是一件很个性化,但又有明确对错结论的事情,我们在产品功能设计上,倾向于将准确性的问题让用户自己判断,这在一定程度上限制了工具的推广。


因此,如果一个业务非常新,或者新加入的员工很多,那么这个工具还是比较有用;但如果是比较成熟的业务,或者是人员高度稳定的团队,这个能力就比较鸡肋了,大家都有比较高效的提数方法,比如搭建数据门户。


四、## |0x02 自助分析


这个方向可以简单概括为:“能否用一句话生成分析结论”。


早起我们都认为,大模型所具备的推理能力,实际上是能够替代数据分析师的职责,比如分析下昨天北极星指标的波动原因,让大模型分维度下钻拆解后,告诉我影响的主要因素是什么。


但实际上,这只能解决一些比较常规的分析问题,因为常规问题大家平时接触的多,解决的思路也相对固定,所以是一种“解决重复劳动”的方式来实现。比如异动归因、赛道洞察、潜力评估、流失预测等,本质还是需要我们根据已有的业务经验,来设计和实现,需要提前定义好指标拆解路径和输出文案一类的工作。


所以,未来低端的研发和BI一样,都会被大模型替代掉,但高端的提供解决方法的岗位,还是需要的。


但如果我们有足够多的token,可以让大模型直接读取我们的原始数据来分析我想要考虑的问题,这种解决的效率更高,也更适合“自助分析”这个场景。因为一旦能够读到明细数据,大模型再进行推理,往往能解读出我们思考之外的一些答案,也算是某种程度上的“集思广益”上了。


之前做尝试的时候,消耗token需要收费,现在有了DeepSeek,人人都能够进行尝试,真的是“开源”能够促进行业蓬勃发展了。


五、## |0xFF 文档撰写


这是一个大家都比较熟知,但实际上可能都比较忽略的应用,因为在数据开发的方向,不仅仅写代码比较重要,给写好的代码加上读得懂的注释,同样重要。


同理,像代码纠错、代码改写、修改注释、生成模板等编码工具的提效,也已经陆续的在开发工具中应用了起来。目前看对效率提升在5%左右,等待未来上线更多功能和提升准确率,效率提升的会更多。


最近有个新闻,Facebook开始尝试用大模型完成绝大多数的业务逻辑撰写,然后在2月10号就启动了大规模裁员,真的是纯纯的资本家。如果所有业务逻辑都用大模型实现,那么文档撰写这种事情也就不需要了。


除了写文档之外,做对外答疑类的事情,大模型算是非常擅长的方向了,很多需要人介入的场景,大模型就能做替代。我们之前经常吐槽的印度客服问题,或许在这一轮技术革命里就能完成替代。


六、## | 总结


这一轮AI革命正在爆发中,从趋势看,未来大部分程序员是真的要被淘汰了。好消息是,整理好底层数据和文档,保证准确率,依然是“刚需”,未来数仓仍有就业的一席之地;坏消息是,业务一旦成熟,这部分同样只需要一点运维的成本。


因此,未来的前景,作为数仓工程师,还是要卷业务理解。因为,把所有人推到赚钱的第一线,满足资本家增长的需要,这种社会规则依然没变。


作者丨晓阳的数据小站

来源丨公众号:晓阳的数据小站(ID:xiaoyang_fengxian)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型 数据仓库 AI应用 辅助编码 业务提数 自助分析
相关文章