数据 + 模型驱动 AI Native 应用发展

作者：魏博文阿里云智能集团资深产品解决方案总监，大数据和人工智能平台解决方案负责人

随着人工智能技术的飞速发展，从生成式人工智能（GenAI）到自主代理人工智能（Agentic AI）的演进，企业面临着构建 AI Native 应用的机遇与挑战。本文将深入探讨 AI 开发模式的转变、企业应用的挑战以及技术架构和开发工具的应用，旨在为读者提供一个全面的视角，以理解如何利用数据和模型驱动 AI Native 应用的发展。

一、引言

从早期的生成式人工智能（Generative AI）到如今备受关注的自主代理人工智能（Agentic AI），AI 技术正经历着前所未有的变革。这些变革不仅影响着技术的演进方向，也深刻地改变着企业构建和部署 AI 应用的方式。随着数据量的爆炸式增长和业务需求的日益复杂，企业对 AI 应用的要求也越来越高。AI Native 应用作为一种新型的开发模式，将数据和模型深度融合，为企业提供了更高效、更智能的解决方案。本文将深入探讨这一变革过程，分析企业面临的挑战，并介绍相应的技术架构和开发工具，以助力企业更好地把握 AI 发展的脉搏。

二、AI 开发模式的演进

（一）从 Generative AI 到 Agentic AI

生成式人工智能（Generative AI）主要侧重于内容生成，通过调用大模型的能力，在给定上下文的限制下生成文本、图像等。然而，其自主性较低，通常仅能对输入做出被动反应。随着时间的推移，AI 开发模式逐渐向任务执行和复杂目标达成转变，这便是自主代理人工智能（Agentic AI）的兴起。

Agentic AI 具备更高的自主性，能够通过多个代理（Agent）的协同工作，达成复杂的系统级目标。它不仅能够执行任务，还能进行推理、规划，并拥有持久的记忆系统，使得多个代理之间可以共享知识，共同完成动态、多领域的复杂任务。

从 Generative AI 到 Agentic AI 的演进，不仅是技术上的进步，更是 AI 应用场景的拓展。Generative AI 主要应用于内容创作、文本生成等相对单一的任务，而 Agentic AI 则能够在复杂的业务流程中发挥重要作用。

（二）AI 开发工具的演进

AI 开发将经历从 AI 基础设施（AI Infra）、大型语言模型和代理工作室（LLM&Agent Studio）到 Agentic AI 的演进过程。这一趋势表明，未来的 AI 开发将更加注重代理的构建和协作，以满足日益复杂的业务需求。AI 开发工具的演进反映了技术发展的方向，也为开发者提供了更强大的支持。开发工具的进步使得构建 Agentic AI 应用变得更加可行。

感知与工具使用：通过检索增强生成（RAG）技术，使代理能够获取和利用最新的外部知识，减少幻觉现象。同时，改进函数调用和工具集成框架，提升代理与外部系统互动的灵活性和可靠性。

推理与规划：采用更高级的 Agentic 循环（如 ReAct 变体），使代理能够深入思考和规划。探索因果建模和模拟规划技术，让代理在虚拟环境中测试策略，从而更好地理解和应对现实世界的复杂性。

记忆系统构建：发展持久记忆架构，包括情景记忆、语义记忆和向量记忆，使代理能够维持长期上下文并共享知识，为复杂任务的完成提供记忆支持。

多代理协作：构建多代理编排框架，实现任务分解、角色分配和冲突解决的智能化。发展标准化的代理间通信协议（如 A2A，Agent-to-Agent），提高协作效率和互操作性。引入反思与自我批评机制，使代理团队能够评估自身表现并进行修正。

可信赖性：建立监控、审计和可解释性管道，记录代理的决策和互动过程，提高系统的透明度，便于调试和责任追溯。

治理感知架构 ：设计具备在不同业务/领域数据的多 Agent 场景下做角色隔离、权限控制、安全沙箱等功能的架构，确保代理行为符合规范。探索伦理对齐方法，使代理团队的目标与人类价值观保持一致。

三、企业 Native AI 应用的挑战

（一）全链路 AI Native 应用的挑战

企业构建 AI Native 应用需要面对全链路的挑战，包括微调、训练、部署和评测等环节。对于中小企业而言，这些环节的门槛较高，导致 AI 应用效率不足。全链路的应用挑战主要体现在：

1. 何时触发大模型后训练

• 在上线后的服务遇到精度瓶颈时，需要判断是通过增量微调（Fine-tuning）还是从头再训练更大规模模型；

• 触发条件包括在线流量下降、核心指标（如召回率、准确率）持续跌落，以及新业务需求出现时的评估决策。

2. 在线服务不中断保障

• 在进行模型更新或再训练时，需采用蓝绿部署或滚动更新等策略，确保系统在切换期间持续可用；

• 需结合流量切分、灰度发布和回滚机制，避免一次大规模模型替换导致线上服务不可用。

3. 资源与成本控制

• 从预训练大模型到再训练，所需 GPU 集群、存储和网络带宽投入巨大；

• 对中小企业来讲，何时使用云端托管、何时自建私有算力，都需要在成本和数据安全之间做权衡。

（二）数据处理的复杂性

随着多模态数据（如文本、图像、视频、音频等）的引入，企业的数据链路已不再是单一的结构化表格。一个典型的回流链路是：

• 结构化 → 生成 BI 报表（图表） → 输出为图像/视频等非结构化格式 → 再回流至数据平台进行二次迭代。

在这个过程中，企业面临：

1. 数据格式转换

• 如何将业务数据库中的结构化数据快速转换为适合可视化的宽表（宽表生成器）；

• 如何对外输出的图表、视频流等非结构化文件进行自动解析，提取数值、时间戳等要素并回流。

2. 双向流水线建设

• 从原始结构化数据到前端可视化的正向流水线需要高效的 ETL 与图表生成能力；

• 从非结构化输出到模型训练/监控的反向流水线需要 OCR、图像识别或视频分帧等多模态解析组件。

3. 一致性与实时性

• 保证回流数据与原始数据库在时间维度和业务维度上的一致性；

• 支持实时或近实时的双向数据流转，避免延迟累积影响决策。

（三）数据基础设施的升级

原本的大数据架构在不断升级迭代的过程中，面临着引入 AI 技术后的复杂性挑战。如何利用云计算的技术优势，将大数据与 AI 有机结合，成为企业亟待解决的问题。

四、Chat BI 技术架构及开发流程

（一）Chat BI 技术架构

以下是关于构建复杂BI系统的简化描述：

1. 数据接入与管理

• 多源数据整合：系统需支持从多种数据源（数据库、数据仓库、非结构化存储等）接入数据，并管理底层数据引擎的异构性。

• 元数据与历史记录：需存储数据的元信息（如表结构、字段定义）及历史执行的SQL语句和返回结果，以辅助系统理解业务流程并优化后续操作。

2. 数据处理与优化

• 宽表生成器：构建业务场景适配的宽表，将分散数据整合为高效查询的中间表，提升BI查询速度。宽表需关联业务属性，支持生命周期管理（如实时更新、版本控制）。

• 模板系统：基于自然语言（NL）输入，通过预设模板或大模型生成的模板映射用户问题（如财务趋势查询），提高结果精准度。模板可由人工录入或系统自动生成，并与宽表数据联动。

3. Agent工作流（核心逻辑）

• 自然语言解析到任务编排：

• 将用户输入的自然语言转化为具体任务，生成SQL查询或数据操作指令。

• 根据数据集推荐结果，选择合适的表或宽表作为查询目标。

• 动态调试与执行：

• 生成的SQL或查询指令可能因语法或数据问题失败，需通过模型分析错误并调整指令，形成循环优化、失败重试、模型自动纠错等流程。

• 支持多步骤查询组合（如顺序执行多条SQL），并管理执行结果的一致性。

4. 数据推荐与执行支持

• 数据集推荐系统：

• 结合知识库（包含表元数据、人工标注信息）和历史问答记录，推荐与用户查询最匹配的数据集。

• 例如：用户提问“营销效果”，系统需自动关联底层营销相关的数据表或宽表。

•执行与反馈：

• 成功执行后生成数据结果表，并进一步提炼为可视化报表和数据洞察（如趋势分析、异常提示）。

• 系统可基于结果主动推荐后续问题或优化建议（如“是否需按区域细分销售数据？”）。

5. 反馈与持续优化

• 闭环迭代机制：

• 将每次交互的自然语言输入、推荐数据、执行结果及用户反馈回流至系统，持续训练模型、优化模板库和数据推荐策略。

• 通过历史数据积累提升系统对业务流程的理解能力，减少人工干预。

（二）构建 Chat BI 对话核心流程

构建 Chat BI 对话核心流程包括以下几个关键步骤：

数据集推荐：结合历史查询库和业务数据构建的知识库，推荐匹配的数据集。

NL to SQL 转换：调用 NL to SQL 模块，生成与业务需求匹配的 SQL 语句。

SQL 执行与纠错：执行 SQL 语句，并对可能出现的错误进行纠正，获取准确的执行结果。例如，如果 SQL 语句存在语法错误或逻辑错误，系统会自动检测并纠正，确保查询结果的准确性。

数据可视化与洞察生成：基于执行结果生成图表及数据洞察，为业务决策提供直观的支持。

BI 报告生成与进一步探查：生成 BI 报告，并推荐基于报告的进一步数据探查问题，引导用户深入分析数据。

（三）NL2DATA Workflow

在构建数据驱动系统时，系统首先需要识别目标数据集并检查是否存在所需表格。若表格缺失，将触发异常处理机制，系统会直接返回"无法执行"的反馈，并由外部代理根据结果提示用户补充信息或调整指令。当表格存在时，系统会将自然语言指令转换为结构化操作，生成执行逻辑并返回处理结果，过程中嵌入多层异常处理（如数据获取失败时跳过执行）。为支持这一流程，系统需整合数据与AI开发全链路：实时接入原始数据，完成解析、预处理、特征工程等步骤，并通过检索模块调用数据资源。

生成的训练数据持续优化模型，形成"数据采集-处理-训练-部署"的闭环。底层模型支持持续更新，可无缝回流至线上系统。整个架构采用模块化设计，代理系统与数据引擎深度耦合，数据平台具备弹性扩展能力，使开发人员专注业务优化，底层数据流转与模型迭代由自动化流程处理，从而加速系统迭代并降低维护成本。这种端到端架构在保证可靠性的同时，实现了从用户指令到数据输出的灵活处理。

五、系统开发及基础开发工具

（一）面向多模态数据的 Data + AI 一站式开发

为了应对多模态数据的挑战，企业需要构建一站式的数据和 AI 开发平台，其关键组件包括：

大数据处理平台：提供数据集成、数据开发和任务调度等功能，支持多种数据源的接入和处理。

数据挖掘与检索：利用数据挖掘技术发现数据中的潜在价值，并通过检索技术快速获取所需信息。

向量增强版 Elasticsearch：提升搜索引擎的能力，支持向量相似性搜索，更好地处理多模态数据。

PAI（平台人工智能）：涵盖多模态检索、Tag 表、人工标注数据、解析写入、Meta 表、更新表和向量化数据写入等功能，为 AI 模型的训练和应用提供支持。

（二）企业级 AI 应用开发 - 阿里云 PAI-LangStudio 产品架构

LangStudio技术架构包含底层Ops平台（含runtime检查、数据安全、评测工具、全链路可观测及tracing）及应用搭建两部分，涉及Agent构建（DDSL、协议对接、系统内存）和Workflow编排能力。

LangStudio 作为企业级 AI 应用开发平台，提供了从模型到应用的全流程支持。其产品架构包括：

AI Agent 应用生态：涵盖数据分析 Chat BI Agent、AI Search & RAG Agent、Deep Research Agent 等多种代理应用，满足不同业务场景的需求。

AI 应用适配层：实现对不同 AI 应用的适配，确保应用能够在平台上稳定运行。

模板市场：提供丰富的模板资源，方便开发者快速构建 AI 应用。

LangStudio - LLM 企业级应用平台：包括 Model Gallery、Agent DSL、Reasoning/Plan、Agentic workflow、Agent Memory、Knowledge Retrieval、Agent Tool Use、MCP/A2A Loop/Iteration、Dify 兼容等功能模块，为开发者提供强大的开发能力。

LLMOps 平台层：关注准确性、高性能和稳定性，确保 AI 应用的可靠运行。

工具生态：整合 PAI-DLC（AI 分布式训练）、PAI-DSW（AI 交互式开发）和 PAI-EAS（AI 推理服务）等工具，为 AI 应用开发提供全方位支持。

AI 基础架构：依托 GPU、高性能计算和高速网络等基础设施，为 AI 应用提供强大的计算能力。例如，GPU 的并行计算能力可以加速 AI 模型的训练和推理过程，提高应用的性能。

（三）Workflow 编排

Flow作为核心架构提供了多维度的能力集成，包括大模型推理、Python脚本执行、知识库检索以及外部工具调用，支持将端到端业务流程或Agent内部子流程封装为可复用的Workflow。

此类Workflow可进一步打包为独立Agent，实现系统级功能的二次集成与扩展，并支持全链路Tracing调试能力。平台预置了标准化Workflow模板及Agent组件，用户可直接调用或基于场景定制。

在Agent构建层面，Agent Builder支持复杂系统对接，例如定义多源外部输入接口、编排多角色Large Language Model协同（如规划类Orchestration Agent、检索增强生成RAG Agent及函数调用专用Agent），并通过反馈机制优化多Agent间的任务协调与环境交互。最终，结合模型微调、Agent工程化封装与Workflow编排，可形成完整的应用模块，并通过与Hologres等数据引擎的深度集成（调用其MPP计算能力），实现低技术复杂度的分析型系统快速构建，相较传统架构显著简化技术栈。

（四）Agents Builder

Agents Builder 提供了强大的代理构建能力，其流程示意图包括：

Agent 节点构建：构建代理节点，包括模型测评、模型微调、Workflow 构建和 Agent 应用构建等步骤。

LangStudio 模块：涵盖 Agent 应用、模型部署、模型调用等功能模块，支持代理应用的完整开发生命周期。

（五）数据分析 ChatBI + Hologres MCP Server

数据分析 ChatBI 与 Hologres MCP Server 的集成应用步骤如下：

Model Gallery 部署 LLM 模型：在 Model Gallery 中部署大语言模型（LLM），为数据分析提供基础支持。

搭建 Hologres MCP Server 应用：配置 Hologres MCP Server，实现数据的高效存储和管理。

LangStudio 使用模板构建数据分析 Hologres ChatBI Agent 应用：利用 LangStudio 提供的模板，快速构建数据分析 ChatBI Agent应用。

在 LangStudio 运行对话模式进行 Chat 数据分析验证：通过对话模式对构建的应用进行验证，确保其能够准确地完成数据分析任务。

在 LangStudio 部署 Qwen 模型服务，支持 API 调用模型推理能力：部署 Qwen 模型服务，使其能够通过 API 提供模型推理能力，为数据分析应用提供智能化支持。

六、结论

随着 AI 技术的不断发展，企业构建 AI Native 应用面临着前所未有的机遇与挑战。从 GenAI 到 Agentic AI 的演进，不仅推动了 AI 开发模式的变革，也为企业提供了更强大的工具和能力。然而，在数据处理、基础设施升级和全链路应用构建等方面，企业仍需克服诸多困难。通过合理利用 Chat BI 技术架构、LangStudio 产品架构等先进的技术和工具平台，企业能够更高效地开发和部署 AI Native 应用，实现智能化转型，提升竞争力，在数字化浪潮中脱颖而出。未来，随着技术的进一步成熟和应用场景的拓展，AI Native 应用将在更多的行业和领域发挥重要作用，为企业创造更大的价值。

以上提到的部分阿里云产品，欢迎大家在阿里云上开通与免费使用。