原创 Ace人生 2025-01-19 18:18 浙江
AI for Data.
接着上周对Type 1和Type 2任务的想法,对自己的Type 1任务(能够比AI做得更好的任务)做了思考。作为一个数据工程师,现阶段可以做的,就是将AI应用到数据研发的各个环节,包括:数据集成、SQL生成、数据质量check、Gen BI(对话式生成报表)、数据说明文档生成、数据答疑等等。将数据工程Agent化,生成一个可以完成基本任务的Multi-Agent系统。
从业务落地的角度,Gen BI是比较好的切入点。首先,是强需求,业务运营有这方面的强烈需求,希望在自己想要数据看板的时候,能即时生成,而不是等数据分析师排期。其次,在技术上,市场的供给比较多,无论是Power BI还是QuickBI这样的BI工具,已经推出了AI生成分析和报表的功能;在开源方面,也有各种text2sql的模型和工具。
现阶段最主要的挑战,就是准确性。模型的幻觉始终存在,如何给模型提供上下文信息,以及如何构建人工check的数据流程,是主要关切点。还是需要比较有经验的业务运营同学和数据分析同学在使用的链路中,需要有人去review AI生成的SQL代码,不然要是幻觉生成的代码能够运行,但给出的是错误的数据,用在决策中,这是致命的。
可能的第一步还是给数据同学提供开发数据报表的copilot,在保证数据质量的情况下,提高他们的工作效率。
从上面的这个例子可以窥见现阶段人与AI的关系:AI提升效率;人提供需求和验证。可以结合其他行业再看看想想。
在AI快速变化的时候,数据技术栈本身也在极速发展。本周看了一些趋势文章,总结在这里了:【Data观察】商业智能(BI)演变历史和未来。值得注意的是DuckDB,这种嵌入式的OLAP数据库,可以让任何设备马上变身一个能力超强的数据分析终端。在很多Agent系统中,它已经是一个重要的工具了,很有可能成为数据分析Agent的事实标准。
本周对比着看了两个Agent系统:Pydantic AI和Phidata. Pydantic AI强调基于类型验证的Agent运行控制,以及基于依赖注入的Prompt、工具集和结果验证体系,比较灵活;Phidata强调的是对model、memory、knowledge、tools、reasoning、team、workflow等Agent系统各种组件的抽象和封装。直观体感是Pydantic AI更底层,灵活性更高,但也更难懂;Phidata更易用,更新手友好。下周会继续看看其他Agent框架,比如CrewAI、Dspy等。然后选两个,在数据工程上,对比测试一下。