AI Agent 创新突破！从「耍嘴皮」到「看得见」，还能「动手干」

2024-12-31 15:01 北京

不止有基础大模型，还有基础智能体。从只能语音对话的「Promt Agent」，进化为「能看见、有记忆、有技能」的「Foundation Agent」。

当我们探讨 Agent 时，究竟在谈论什么？是在谈论其智能化的深度，还是其应用的广度？是在谈论其技术的先进性，还是其实用的广泛性？Agent 有哪些核心要素需要具备？又有哪些困难需要突破？解锁这些重要命题，依然是业内探索的目标。

在极客公园 IF2025 创新大会上，荣获 Innoforce50「年度技术突破」的无界方舟团队提出了「个人基础智能体」（Personal Foundation agent）的概念，为 AI Agent 的发展带来了全新视角和深刻启示。

迈向个人使用的基础智能体

（Personal Foundation agent）

2024 年被业界视为 AI 应用的爆发之年，而即将到来的 2025 年则被广泛视为 AI Agent 的爆发之年。上周，谷歌正式发布了其最新版大模型 Gemini 2.0 系列，并宣称这是他们迄今为止最强大的人工智能模型，「专为 Agent 时代设计」。随着 AI 技术的飞速发展，如何将「智能体」作为打破人机局限的核心驱动力，已成为业界热议的焦点。从最初的 AlphaGo，到如今的大语言模型，再到垂直领域的专业智能体，AI Agent 的功能和应用范围正以前所未有的速度扩展。随着 AI 技术逐渐渗透用户生活的方方面面，智能体不再只是完成单点任务的工具，更是成为主动理解用户、满足个性化需求的核心伙伴。

无界方舟（AutoArk）致力于多模态大模型技术的创新与应用，是国内首个实现 400ms 超低延迟「视觉理解」模型的服务商，已在 2024 年上半年开放模型对外合作，在多个 AI 硬件产品上实现应用。

无界方舟在极客公园 IF2025 展会现场的实拍录像｜视频来源：无界方舟

基于此模型，无界方舟推出了全球首款个人基础智能体（Personal Foundation Agent）——Arki One。该智能体在交互、记忆和技能三个维度上实现了关键突破：

交互层：如何实现低延迟、具备视觉理解能力、高情感互动的实时反馈？Arki One 采用了先进的跨模态融合与推理技术，实现了音视频互动的超低延迟（低于 400 毫秒），并支持用户随时通过语音打断。此外，Arki One 拥有完善的情绪系统，并支持 21 种语言的互动，能够在百毫秒级别驱动虚拟数字人和智能硬件的动作。

记忆层：如何构建用户个性化、终身化的记忆系统？Arki One 配备了独创的终身记忆系统，该系统结合结构化知识图谱和参数化记忆模型，使 Arki One 能够在复杂环境中不断学习和积累知识，从而为每位用户提供个性化的 AI 定制服务。通过与用户的交互、规划、行动和反馈，Arki One 能够进行反思，逐步构建对用户及世界的深入认知。

技能层：如何在虚拟与物理环境中具备鲁棒的执行能力？Arki One 搭载了自主研发的 Action Q 技术，能够通过自我监督的强化学习在多变的环境中快速掌握新技能，显著提升了 AI 的推理和执行能力。无论是在虚拟世界还是物理世界中，Arki One 都能将 AI 转化为真正的生产力。对于高度复杂的任务，Arki One 能够创建一组由专家级 AI Agent 组成的「AI 团队」，通过智能体之间的协作来解决复杂难题。

个人基础智能体三要素｜图片来源：无界方舟

突破维度 1：端到端多模态

基础大模型，实现超拟人交互

在 AI 技术日新月异的今天，多模态技术正以前所未有的速度发展，并逐渐成为行业焦点。与传统的单模态模型（仅处理文本、图像）相比，多模态模型能够整合文本、图像、音频等多种信息形式，实现更智能、更拟人化的交互体验。

近年来，多模态技术的发展呈现以下趋势：1）端到端多模态模型崭露头角： 以 OpenAI 推出的 GPT-4o 为代表的端到端多模态模型，在多模态理解和生成方面取得了重大突破，实现了图像、语音和文本的多模态整合，并在通用助手、医疗辅助、教育等领域得到了广泛应用。2）实时性和低延迟需求日益凸显： 随着用户对人机交互实时性要求的不断提高，尤其是在语音和视觉理解对话场景中，技术发展正朝着「毫秒级响应」迈进。3）多模态情绪感知成为关键挑战： 在拟人化交互中，情绪理解和动态响应成为核心技术挑战，涉及语音情绪分析、视觉表情识别和语境推理等多模态信息的融合。

在此背景下，无界方舟潜心研发，在业界没有任何现成方案可套壳的情况下，自研推出了全新的端到端多模态模型，致力于突破技术瓶颈，引领多模态交互体验升级。以下为该模型的技术创新点：

超低延迟「视觉理解+语音」交互：实现低于 400 毫秒的超低延迟响应，满足实时对话需求，该成绩是在「视觉理解+语音」同时进行的情况下。单是纯语音互动，延迟可低至 300 毫秒。该模型在多项多模态测试中表现优异，超越 GPT-4o 的水平。

端到端多模态融合与推理：采用统一的特征表示框架，结合音频、图像和文本编码器，将多模态输入映射到共享的语义空间，实现跨模态信息的有效融合。

领先的情绪感知系统：内置 AI 情绪系统，支持 48 种动态情绪识别与反馈，显著提升用户体验的沉浸感、自然感，有效提升 Agent 拟人度。

卓越的多语言对话能力：具备多语言能力，可支持全球化出海业务。目前已实现 21 种语言的互动，包含英语、德语、日语、法语、西班牙语、韩语和阿拉伯语等。

具身智能驱动能力：可驱动 3D 虚拟形象与智能硬件设备，实现拟人化的具身智能交互，在虚拟助理、机器人交互等领域展现出巨大的商业化潜力。

无界方舟多模态大模型架构与评测结果｜图片来源：无界方舟

无界方舟 CEO 曾晓东表示，无界方舟正积极寻求与行业优秀伙伴的合作机会，在更多实际应用场景中，融入并发挥个人基础智能体的优势。

无界方舟个人基础智能体 Arki one 的应用场景拓展，已开放对外合作｜图片来源：极客公园

突破维度 2：终身记忆系统，

实现用户个性化 AI

根据 Gartner 的研究预测，到 2025 年，超过 40% 的企业将部署具备终身学习能力的智能系统，以显著提升客户体验和运营效率。尽管传统大语言模型通过整合人类常识，突破了仅能处理单一问题的局限，展现出理解和解决高度个性化长尾问题的能力，但其要求用户在每次交互中提供详尽背景信息的模式并不切合实际。因此，构建一个具备终身记忆能力的系统显得尤为重要，它能够帮助模型积累对问题和用户的深度理解。

无界方舟个性化记忆系统 AutoMind｜图片来源：无界方舟

无界方舟的个人基础智能体配备一套先进的「终身记忆系统-AutoMind」，一个独立于基础模型的个性化记忆层。通过反思用户交互、规划、行动与反馈，逐步累积对用户和环境的深层次认知。该系统巧妙结合存储型记忆与参数化记忆，构建出层次化记忆模型，具备终身学习能力，显著提升了智能体在复杂环境和数据处理方面的表现。凭借 AutoMind，基础智能体能够识别用户的长期爱好、体检情况变化、连续对话中的未完成任务等，甚至根据用户的沟通习惯调整对话风格。通过动态学习用户行为和历史数据，能够提供更精准的推荐和更高效的解决方案，营造出接近人类交互的体验。

AutoMind 个性化记忆层｜图片来源：无界方舟

为实现这一终身记忆系统，无界方舟在存储型记忆、参数化记忆两大主流技术方向上进行了深入布局和积累。

存储型记忆：结合知识图谱和图机器学习技术，构建了层次化记忆模型，显著提升了大型语言模型（LLM）在复杂数据处理中的表现力。通过构建结构化的知识图谱，基础智能体能够将孤立的信息转化为相互关联的实体网络，真实还原现实世界中的复杂语义关系。根据无界方舟产品应用情况，知识图谱的引入可使 Agent 在事实推理任务中的准确率提升 35% 以上。同时，系统采用分层总结与动态更新机制，对新知识进行多层次、迭代性的总结和整合，持续丰富知识体系，实现终身学习。凭借存储型记忆模型，基础智能体不仅提升了生成内容的准确性和推理深度，还具备了持续优化与知识积累的能力，在科学研究、医疗诊断等高复杂性领域展现出巨大的应用价值。例如，在抗体设计的应用案例中，实现了在抗体从头设计、人源化打分等专业任务上平均 95%+的任务准确率。

AutoMind 存储型记忆架构｜图片来源：无界方舟

参数化记忆：无界方舟自主研发并开源的 PrivateLoRA 技术，在实现「记忆个性化参数模型」的同时，兼具「隐私安全保护」。PrivateLoRA 是全球首个支持端+云联合部署的大模型技术，可将部分大模型参数部署在端侧，用户输入的图文信息由端侧参数处理，而云端仅接收端侧参数的加密编码。这种端云协同的推理模式确保了用户数据的本地化，有效防止隐私泄露。根据测试，PrivateLoRA 可将隐私泄露风险降低 99% 以上。此外，PrivateLoRA 的端侧参数充当参数化记忆的载体，支持实现提示词工程难以企及的风格化回答和概念植入等深层次定制。凭借 PrivateLoRA 技术，用户在享受终身记忆带来的便利时，也无需担心隐私泄露的风险。

AutoMind 参数化记忆架构｜图片来源：无界方舟

突破维度 3：

复杂推理+执行能力，不止陪伴，更是伙伴

无界方舟的个人基础智能体不仅致力于成为用户的聊天伴侣，更力求通过掌握多种 Agent Skill（智能体技能），在日常生活和专业工作中成为用户得力的助手。凭借自主研发的 Action Q 技术，该智能体能够通过自我监督的强化学习，在多样化环境中不断学习和掌握新技能，执行从虚拟世界到物理世界的任务，真正将 AI 转化为强大的助手。

Action Q，学习虚拟世界与现实世界的技能｜图片来源：无界方舟

让 Agent 掌握执行任务的能力，本质上是让 Agent 学习编写该技能的代码。这一过程涉及广泛的探索和试错，无论是在操作网页、玩游戏，还是在驱动具身智能硬件，Agent 都能够找到正确的解决方案。通过结合强化学习（Reinforcement Learning, RL）和蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）等技术，从而实现了一种自我监督的学习机制，使 Agent 能够在专业领域中适应和优化。具体而言，仅需不到 100 个样本进行冷启动，引导初始学习过程，随后 Agent 将在该领域的任务空间中自主探索，自动收集反馈并进行强化微调，最终实现远超通用大模型的专业性能。

Action Q，一种让 Agent 学各种「技能」的通用方法｜图片来源：无界方舟

此外，面对高复杂度的技术挑战，无界方舟的基础智能体能够调用并协同一批虚拟 AI 专家智能体，构建高效协作的 AI 团队。通过智能体之间的紧密配合，该系统能够有效攻克复杂任务。凭借此项创新技术，无界方舟已成功构建全球首个基于多智能体系统的抗体研发平台，大幅降低抗体研发成本高达 90%，为生物医药行业的高质量发展提供坚实的技术支撑。

无界方舟多专家智能体产品 AgentStudio ｜图片来源：无界方舟

随着 2025 年的临近，AI Agent 正逐渐揭开商业爆发元年的神秘面纱。在这个时代里，智能体不再仅仅是简单的工具，更成为了能够主动理解用户需求、满足个性化需求的伙伴。

面对个人用户，无界方舟（AutoArk）提供的「个人基础智能体」，实现了超低延迟「视觉理解+语音互动」，使 AI 真正成为理解和融入用户生活的伙伴。

面对专业垂直领域，无界方舟（AutoArk）提供的「企业专家智能体」也在积极助力医药、金融等行业降本增效，重塑企业内外部的互动方式，赋予千行百业新的生存和发展空间。

在无界方舟的眼中，2024 年的「技术突破」只是一个起点。正如爱因斯坦所说：「想象力比知识更重要。」随着 AI 技术的不断进步和完善，AI Agent 将成为人类生活中不可或缺的伙伴。无论是在生命科学、教育学习、金融分析还是日常生活方面，AI Agent 都将扮演越来越重要的角色，开启更加智能、便捷且富有创造力的新时代。

曾晓东在极客公园 2025IF 创新大会的演讲实录，点击查看「2025 年，AI Agent 将如何变革？」

极客公园 2024 年度创新力量榜单，点击查看极客公园 2024 年度「InnoForce 50」。

*头图来源：极客公园

热点视频

马斯克：永远不要信愤世嫉俗的人，他们看谁都是坏人。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

跳转微信打开

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签