无人之路 01月21日
【AI启示录】2025 w03:数据开发和分析中的AI
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了如何将AI应用于数据研发的各个环节,如数据集成、SQL生成、数据质量检查等,并提出了构建数据工程Agent化系统的构想。文章认为,Gen BI是较好的切入点,能满足业务运营的即时数据需求。然而,AI的准确性是挑战,需人工审核SQL代码。文章还分析了人与AI的关系:AI提效,人负责需求和验证。此外,文章还关注了数据技术栈的快速发展,特别提到了DuckDB作为嵌入式OLAP数据库的重要性,并对比了Pydantic AI和Phidata两个Agent系统。

💡数据工程Agent化:将AI应用于数据研发的各个环节,构建一个可完成基本任务的Multi-Agent系统,提升数据处理效率。

📊Gen BI切入点:从业务落地的角度,Gen BI是较好的切入点,能满足业务运营的即时数据看板需求,并已具备一定的技术基础。

🧐AI准确性挑战:AI模型存在幻觉,需人工审核AI生成的SQL代码,以避免决策失误,可先为数据工程师提供数据报表copilot。

🚀人与AI关系:AI主要用于提升效率,而人负责提出需求和验证结果,两者协同工作。

🗄️数据技术发展:DuckDB等嵌入式OLAP数据库,可能成为数据分析Agent的事实标准,Pydantic AI和Phidata是值得关注的Agent系统。

原创 Ace人生 2025-01-19 18:18 浙江

AI for Data.


    接着上周对Type 1和Type 2任务的想法,对自己的Type 1任务(能够比AI做得更好的任务)做了思考。作为一个数据工程师,现阶段可以做的,就是将AI应用到数据研发的各个环节,包括:数据集成、SQL生成、数据质量check、Gen BI(对话式生成报表)、数据说明文档生成、数据答疑等等。将数据工程Agent化,生成一个可以完成基本任务的Multi-Agent系统。

    从业务落地的角度,Gen BI是比较好的切入点。首先,是强需求,业务运营有这方面的强烈需求,希望在自己想要数据看板的时候,能即时生成,而不是等数据分析师排期。其次,在技术上,市场的供给比较多,无论是Power BI还是QuickBI这样的BI工具,已经推出了AI生成分析和报表的功能;在开源方面,也有各种text2sql的模型和工具。

    现阶段最主要的挑战,就是准确性。模型的幻觉始终存在,如何给模型提供上下文信息,以及如何构建人工check的数据流程,是主要关切点。还是需要比较有经验的业务运营同学和数据分析同学在使用的链路中,需要有人去review AI生成的SQL代码,不然要是幻觉生成的代码能够运行,但给出的是错误的数据,用在决策中,这是致命的。

    可能的第一步还是给数据同学提供开发数据报表的copilot,在保证数据质量的情况下,提高他们的工作效率。

    从上面的这个例子可以窥见现阶段人与AI的关系:AI提升效率;人提供需求和验证。可以结合其他行业再看看想想。

    在AI快速变化的时候,数据技术栈本身也在极速发展。本周看了一些趋势文章,总结在这里了:【Data观察】商业智能(BI)演变历史和未来。值得注意的是DuckDB,这种嵌入式的OLAP数据库,可以让任何设备马上变身一个能力超强的数据分析终端。在很多Agent系统中,它已经是一个重要的工具了,很有可能成为数据分析Agent的事实标准。

    本周对比着看了两个Agent系统:Pydantic AI和Phidata. Pydantic AI强调基于类型验证的Agent运行控制,以及基于依赖注入的Prompt、工具集和结果验证体系,比较灵活;Phidata强调的是对model、memory、knowledge、tools、reasoning、team、workflow等Agent系统各种组件的抽象和封装。直观体感是Pydantic AI更底层,灵活性更高,但也更难懂;Phidata更易用,更新手友好。下周会继续看看其他Agent框架,比如CrewAI、Dspy等。然后选两个,在数据工程上,对比测试一下。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 数据研发 Agent系统 Gen BI DuckDB
相关文章