掘金 人工智能 07月10日 17:39
数据 + 模型 驱动 AI Native 应用发展
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,以及企业构建 AI Native 应用所面临的挑战与机遇。文章深入分析了AI开发模式的转变、企业应用的技术架构与开发工具,旨在帮助读者理解如何利用数据和模型驱动AI Native应用的发展。通过介绍Chat BI 技术架构和阿里云LangStudio等工具,为企业智能化转型提供了全面的视角。

🤖 从生成式AI到自主代理AI: AI技术正经历从内容生成到任务执行的转变,Agentic AI 通过多个代理协同工作,能够达成复杂的系统级目标,拓展了AI应用场景。

🛠️ AI开发工具的演进: AI开发工具从 AI 基础设施、大型语言模型和代理工作室(LLM&Agent Studio)向 Agentic AI 演进, 更加注重代理的构建和协作,以满足日益复杂的业务需求。

🚧 企业AI Native应用面临的挑战: 企业在构建AI Native应用时,面临全链路应用挑战,包括微调、训练、部署和评测等环节的门槛,以及数据处理的复杂性、数据基础设施的升级等问题。

💡 Chat BI 技术架构及开发流程: Chat BI技术架构包括数据接入与管理、数据处理与优化、Agent工作流、数据推荐与执行支持以及反馈与持续优化。构建Chat BI对话核心流程涉及数据集推荐、NL to SQL转换、SQL执行与纠错、数据可视化与洞察生成、BI报告生成与进一步探查等步骤。

⚙️ 企业级AI应用开发工具: 阿里云PAI-LangStudio平台提供一站式的数据和AI开发环境,通过AI Agent 应用生态、AI 应用适配层、模板市场、LLMOps平台层、工具生态和AI基础架构等,支持AI应用的全流程开发。

作者:魏博文阿里云智能集团资深产品解决方案总监,大数据和人工智能平台解决方案负责人

随着人工智能技术的飞速发展,从生成式人工智能(GenAI)到自主代理人工智能(Agentic AI)的演进,企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用,旨在为读者提供一个全面的视角,以理解如何利用数据和模型驱动 AI Native 应用的发展。

一、引言

从早期的生成式人工智能(Generative AI)到如今备受关注的自主代理人工智能(Agentic AI),AI 技术正经历着前所未有的变革。这些变革不仅影响着技术的演进方向,也深刻地改变着企业构建和部署 AI 应用的方式。随着数据量的爆炸式增长和业务需求的日益复杂,企业对 AI 应用的要求也越来越高。AI Native 应用作为一种新型的开发模式,将数据和模型深度融合,为企业提供了更高效、更智能的解决方案。本文将深入探讨这一变革过程,分析企业面临的挑战,并介绍相应的技术架构和开发工具,以助力企业更好地把握 AI 发展的脉搏。

二、AI 开发模式的演进

(一)从 Generative AI 到 Agentic AI

生成式人工智能(Generative AI)主要侧重于内容生成,通过调用大模型的能力,在给定上下文的限制下生成文本、图像等。然而,其自主性较低,通常仅能对输入做出被动反应。随着时间的推移,AI 开发模式逐渐向任务执行和复杂目标达成转变,这便是自主代理人工智能(Agentic AI)的兴起。

Agentic AI 具备更高的自主性,能够通过多个代理(Agent)的协同工作,达成复杂的系统级目标。它不仅能够执行任务,还能进行推理、规划,并拥有持久的记忆系统,使得多个代理之间可以共享知识,共同完成动态、多领域的复杂任务。

从 Generative AI 到 Agentic AI 的演进,不仅是技术上的进步,更是 AI 应用场景的拓展。Generative AI 主要应用于内容创作、文本生成等相对单一的任务,而 Agentic AI 则能够在复杂的业务流程中发挥重要作用。

(二)AI 开发工具的演进

AI 开发将经历从 AI 基础设施(AI Infra)、大型语言模型和代理工作室(LLM&Agent Studio)到 Agentic AI 的演进过程。这一趋势表明,未来的 AI 开发将更加注重代理的构建和协作,以满足日益复杂的业务需求。AI 开发工具的演进反映了技术发展的方向,也为开发者提供了更强大的支持。开发工具的进步使得构建 Agentic AI 应用变得更加可行。

    感知与工具使用:通过检索增强生成(RAG)技术,使代理能够获取和利用最新的外部知识,减少幻觉现象。同时,改进函数调用和工具集成框架,提升代理与外部系统互动的灵活性和可靠性。

    推理与规划:采用更高级的 Agentic 循环(如 ReAct 变体),使代理能够深入思考和规划。探索因果建模和模拟规划技术,让代理在虚拟环境中测试策略,从而更好地理解和应对现实世界的复杂性。

    记忆系统构建:发展持久记忆架构,包括情景记忆、语义记忆和向量记忆,使代理能够维持长期上下文并共享知识,为复杂任务的完成提供记忆支持。

    多代理协作:构建多代理编排框架,实现任务分解、角色分配和冲突解决的智能化。发展标准化的代理间通信协议(如 A2A,Agent-to-Agent),提高协作效率和互操作性。引入反思与自我批评机制,使代理团队能够评估自身表现并进行修正。

    可信赖性:建立监控、审计和可解释性管道,记录代理的决策和互动过程,提高系统的透明度,便于调试和责任追溯。

    治理感知架构 :设计具备在不同业务/领域数据的多 Agent 场景下做角色隔离、权限控制、安全沙箱等功能的架构,确保代理行为符合规范。探索伦理对齐方法,使代理团队的目标与人类价值观保持一致。

三、企业 Native AI 应用的挑战

(一)全链路 AI Native 应用的挑战

企业构建 AI Native 应用需要面对全链路的挑战,包括微调、训练、部署和评测等环节。对于中小企业而言,这些环节的门槛较高,导致 AI 应用效率不足。全链路的应用挑战主要体现在:

1. 何时触发大模型后训练

• 在上线后的服务遇到精度瓶颈时,需要判断是通过增量微调(Fine-tuning)还是从头再训练更大规模模型;

• 触发条件包括在线流量下降、核心指标(如召回率、准确率)持续跌落,以及新业务需求出现时的评估决策。

2. 在线服务不中断保障

• 在进行模型更新或再训练时,需采用蓝绿部署或滚动更新等策略,确保系统在切换期间持续可用;

• 需结合流量切分、灰度发布和回滚机制,避免一次大规模模型替换导致线上服务不可用。

3. 资源与成本控制

• 从预训练大模型到再训练,所需 GPU 集群、存储和网络带宽投入巨大;

• 对中小企业来讲,何时使用云端托管、何时自建私有算力,都需要在成本和数据安全之间做权衡。

(二)数据处理的复杂性

随着多模态数据(如文本、图像、视频、音频等)的引入,企业的数据链路已不再是单一的结构化表格。一个典型的回流链路是:

结构化 → 生成 BI 报表(图表) → 输出为图像/视频等非结构化格式 → 再回流至数据平台进行二次迭代

在这个过程中,企业面临:

1. 数据格式转换

• 如何将业务数据库中的结构化数据快速转换为适合可视化的宽表(宽表生成器);

• 如何对外输出的图表、视频流等非结构化文件进行自动解析,提取数值、时间戳等要素并回流。

2. 双向流水线建设

• 从原始结构化数据到前端可视化的正向流水线需要高效的 ETL 与图表生成能力;

• 从非结构化输出到模型训练/监控的反向流水线需要 OCR、图像识别或视频分帧等多模态解析组件。

3. 一致性与实时性

• 保证回流数据与原始数据库在时间维度和业务维度上的一致性;

• 支持实时或近实时的双向数据流转,避免延迟累积影响决策。

(三)数据基础设施的升级

原本的大数据架构在不断升级迭代的过程中,面临着引入 AI 技术后的复杂性挑战。如何利用云计算的技术优势,将大数据与 AI 有机结合,成为企业亟待解决的问题。

四、Chat BI 技术架构及开发流程

(一)Chat BI 技术架构

以下是关于构建复杂BI系统的简化描述:

1. 数据接入与管理

• 多源数据整合:系统需支持从多种数据源(数据库、数据仓库、非结构化存储等)接入数据,并管理底层数据引擎的异构性。

• 元数据与历史记录:需存储数据的元信息(如表结构、字段定义)及历史执行的SQL语句和返回结果,以辅助系统理解业务流程并优化后续操作。

2. 数据处理与优化

• 宽表生成器:构建业务场景适配的宽表,将分散数据整合为高效查询的中间表,提升BI查询速度。宽表需关联业务属性,支持生命周期管理(如实时更新、版本控制)。

• 模板系统:基于自然语言(NL)输入,通过预设模板或大模型生成的模板映射用户问题(如财务趋势查询),提高结果精准度。模板可由人工录入或系统自动生成,并与宽表数据联动。

3. Agent工作流(核心逻辑)

自然语言解析到任务编排:

• 将用户输入的自然语言转化为具体任务,生成SQL查询或数据操作指令。

• 根据数据集推荐结果,选择合适的表或宽表作为查询目标。

动态调试与执行:

• 生成的SQL或查询指令可能因语法或数据问题失败,需通过模型分析错误并调整指令,形成循环优化、失败重试、模型自动纠错等流程。

• 支持多步骤查询组合(如顺序执行多条SQL),并管理执行结果的一致性。

4. 数据推荐与执行支持

数据集推荐系统:

• 结合知识库(包含表元数据、人工标注信息)和历史问答记录,推荐与用户查询最匹配的数据集。

• 例如:用户提问“营销效果”,系统需自动关联底层营销相关的数据表或宽表。

执行与反馈:

• 成功执行后生成数据结果表,并进一步提炼为可视化报表和数据洞察(如趋势分析、异常提示)。

• 系统可基于结果主动推荐后续问题或优化建议(如“是否需按区域细分销售数据?”)。

5. 反馈与持续优化

• 闭环迭代机制:

• 将每次交互的自然语言输入、推荐数据、执行结果及用户反馈回流至系统,持续训练模型、优化模板库和数据推荐策略。

• 通过历史数据积累提升系统对业务流程的理解能力,减少人工干预。

(二)构建 Chat BI 对话核心流程

构建 Chat BI 对话核心流程包括以下几个关键步骤:

    数据集推荐:结合历史查询库和业务数据构建的知识库,推荐匹配的数据集。

    NL to SQL 转换:调用 NL to SQL 模块,生成与业务需求匹配的 SQL 语句。

    SQL 执行与纠错:执行 SQL 语句,并对可能出现的错误进行纠正,获取准确的执行结果。例如,如果 SQL 语句存在语法错误或逻辑错误,系统会自动检测并纠正,确保查询结果的准确性。

    数据可视化与洞察生成:基于执行结果生成图表及数据洞察,为业务决策提供直观的支持。

    BI 报告生成与进一步探查:生成 BI 报告,并推荐基于报告的进一步数据探查问题,引导用户深入分析数据。

(三)NL2DATA Workflow

在构建数据驱动系统时,系统首先需要识别目标数据集并检查是否存在所需表格。若表格缺失,将触发异常处理机制,系统会直接返回"无法执行"的反馈,并由外部代理根据结果提示用户补充信息或调整指令。当表格存在时,系统会将自然语言指令转换为结构化操作,生成执行逻辑并返回处理结果,过程中嵌入多层异常处理(如数据获取失败时跳过执行)。为支持这一流程,系统需整合数据与AI开发全链路:实时接入原始数据,完成解析、预处理、特征工程等步骤,并通过检索模块调用数据资源。

生成的训练数据持续优化模型,形成"数据采集-处理-训练-部署"的闭环。底层模型支持持续更新,可无缝回流至线上系统。整个架构采用模块化设计,代理系统与数据引擎深度耦合,数据平台具备弹性扩展能力,使开发人员专注业务优化,底层数据流转与模型迭代由自动化流程处理,从而加速系统迭代并降低维护成本。这种端到端架构在保证可靠性的同时,实现了从用户指令到数据输出的灵活处理。

五、系统开发及基础开发工具

(一)面向多模态数据的 Data + AI 一站式开发

为了应对多模态数据的挑战,企业需要构建一站式的数据和 AI 开发平台,其关键组件包括:

    大数据处理平台:提供数据集成、数据开发和任务调度等功能,支持多种数据源的接入和处理。

    数据挖掘与检索:利用数据挖掘技术发现数据中的潜在价值,并通过检索技术快速获取所需信息。

    向量增强版 Elasticsearch:提升搜索引擎的能力,支持向量相似性搜索,更好地处理多模态数据。

    PAI(平台人工智能):涵盖多模态检索、Tag 表、人工标注数据、解析写入、Meta 表、更新表和向量化数据写入等功能,为 AI 模型的训练和应用提供支持。

(二)企业级 AI 应用开发 - 阿里云 PAI-LangStudio 产品架构

LangStudio技术架构包含底层Ops平台(含runtime检查、数据安全、评测工具、全链路可观测及tracing)及应用搭建两部分,涉及Agent构建(DDSL、协议对接、系统内存)和Workflow编排能力。

LangStudio 作为企业级 AI 应用开发平台,提供了从模型到应用的全流程支持。其产品架构包括:

    AI Agent 应用生态:涵盖数据分析 Chat BI Agent、AI Search & RAG Agent、Deep Research Agent 等多种代理应用,满足不同业务场景的需求。

    AI 应用适配层:实现对不同 AI 应用的适配,确保应用能够在平台上稳定运行。

    模板市场:提供丰富的模板资源,方便开发者快速构建 AI 应用。

    LangStudio - LLM 企业级应用平台:包括 Model Gallery、Agent DSL、Reasoning/Plan、Agentic workflow、Agent Memory、Knowledge Retrieval、Agent Tool Use、MCP/A2A Loop/Iteration、Dify 兼容等功能模块,为开发者提供强大的开发能力。

    LLMOps 平台层:关注准确性、高性能和稳定性,确保 AI 应用的可靠运行。

    工具生态:整合 PAI-DLC(AI 分布式训练)、PAI-DSW(AI 交互式开发)和 PAI-EAS(AI 推理服务)等工具,为 AI 应用开发提供全方位支持。

    AI 基础架构:依托 GPU、高性能计算和高速网络等基础设施,为 AI 应用提供强大的计算能力。例如,GPU 的并行计算能力可以加速 AI 模型的训练和推理过程,提高应用的性能。

(三)Workflow 编排

Flow作为核心架构提供了多维度的能力集成,包括大模型推理、Python脚本执行、知识库检索以及外部工具调用,支持将端到端业务流程或Agent内部子流程封装为可复用的Workflow。

此类Workflow可进一步打包为独立Agent,实现系统级功能的二次集成与扩展,并支持全链路Tracing调试能力。平台预置了标准化Workflow模板及Agent组件,用户可直接调用或基于场景定制。

在Agent构建层面,Agent Builder支持复杂系统对接,例如定义多源外部输入接口、编排多角色Large Language Model协同(如规划类Orchestration Agent、检索增强生成RAG Agent及函数调用专用Agent),并通过反馈机制优化多Agent间的任务协调与环境交互。最终,结合模型微调、Agent工程化封装与Workflow编排,可形成完整的应用模块,并通过与Hologres等数据引擎的深度集成(调用其MPP计算能力),实现低技术复杂度的分析型系统快速构建,相较传统架构显著简化技术栈。

(四)Agents Builder

Agents Builder 提供了强大的代理构建能力,其流程示意图包括:

    Agent 节点构建:构建代理节点,包括模型测评、模型微调、Workflow 构建和 Agent 应用构建等步骤。

    LangStudio 模块:涵盖 Agent 应用、模型部署、模型调用等功能模块,支持代理应用的完整开发生命周期。

(五)数据分析 ChatBI + Hologres MCP Server

数据分析 ChatBI 与 Hologres MCP Server 的集成应用步骤如下:

    Model Gallery 部署 LLM 模型:在 Model Gallery 中部署大语言模型(LLM),为数据分析提供基础支持。

    搭建 Hologres MCP Server 应用:配置 Hologres MCP Server,实现数据的高效存储和管理。

    LangStudio 使用模板构建数据分析 Hologres ChatBI Agent 应用:利用 LangStudio 提供的模板,快速构建数据分析 ChatBI Agent应用。

    在 LangStudio 运行对话模式进行 Chat 数据分析验证:通过对话模式对构建的应用进行验证,确保其能够准确地完成数据分析任务。

    在 LangStudio 部署 Qwen 模型服务,支持 API 调用模型推理能力:部署 Qwen 模型服务,使其能够通过 API 提供模型推理能力,为数据分析应用提供智能化支持。

六、结论

随着 AI 技术的不断发展,企业构建 AI Native 应用面临着前所未有的机遇与挑战。从 GenAI 到 Agentic AI 的演进,不仅推动了 AI 开发模式的变革,也为企业提供了更强大的工具和能力。然而,在数据处理、基础设施升级和全链路应用构建等方面,企业仍需克服诸多困难。通过合理利用 Chat BI 技术架构、LangStudio 产品架构等先进的技术和工具平台,企业能够更高效地开发和部署 AI Native 应用,实现智能化转型,提升竞争力,在数字化浪潮中脱颖而出。未来,随着技术的进一步成熟和应用场景的拓展,AI Native 应用将在更多的行业和领域发挥重要作用,为企业创造更大的价值。

以上提到的部分阿里云产品,欢迎大家在阿里云上开通与免费使用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI Native Agentic AI Chat BI LangStudio
相关文章