极客公园 01月01日
AI Agent 创新突破!从「耍嘴皮」到「看得见」,还能「动手干」
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章介绍了无界方舟团队提出的“个人基础智能体”概念,该智能体在交互、记忆和技能三个维度上实现了关键突破。它具备超低延迟的视觉理解和语音交互能力,构建了用户个性化的终身记忆系统,并能通过自我监督的强化学习掌握新技能,甚至能创建由专家级AI Agent组成的团队来解决复杂问题。文章强调了多模态技术在AI发展中的重要性,以及终身记忆系统对于实现用户个性化AI的关键作用。无界方舟致力于将AI转化为生产力,在多个领域提供更智能、便捷的解决方案。

🗣️ 交互层突破:Arki One 实现了低于400毫秒的超低延迟音视频互动,支持语音打断,具备完善的情绪系统和21种语言互动能力,使得人机交互更加自然流畅。

🧠 记忆层突破:Arki One 配备了独创的终身记忆系统AutoMind,结合结构化知识图谱和参数化记忆模型,能够不断学习和积累知识,为用户提供个性化的AI定制服务。通过反思用户交互,逐步构建对用户及世界的深入认知。

🛠️ 技能层突破:Arki One 搭载了自主研发的Action Q技术,通过自我监督的强化学习在多变环境中快速掌握新技能,提升AI的推理和执行能力。同时,它能够创建由专家级AI Agent组成的团队,解决复杂问题。

👁️‍🗨️ 多模态融合:无界方舟自研的端到端多模态模型,实现了超低延迟的“视觉理解+语音”交互,超越GPT-4o水平,同时具备情绪感知系统和多语言对话能力,显著提升了用户体验的沉浸感。

🔒 隐私保护:通过自主研发的PrivateLoRA技术,将部分大模型参数部署在端侧,用户输入信息由端侧参数处理,云端仅接收加密编码,有效保护用户隐私,同时实现个性化定制。

2024-12-31 15:01 北京

不止有基础大模型,还有基础智能体。从只能语音对话的「Promt Agent」,进化为「能看见、有记忆、有技能」的「Foundation Agent」。

不止有基础大模型,还有基础智能体。从只能语音对话的「Promt Agent」,进化为「能看见、有记忆、有技能」的「Foundation Agent」。

当我们探讨 Agent 时,究竟在谈论什么?是在谈论其智能化的深度,还是其应用的广度?是在谈论其技术的先进性,还是其实用的广泛性?Agent 有哪些核心要素需要具备?又有哪些困难需要突破?解锁这些重要命题,依然是业内探索的目标。

在极客公园 IF2025 创新大会上,荣获 Innoforce50「年度技术突破」的无界方舟团队提出了「个人基础智能体」(Personal Foundation agent)的概念,为 AI Agent 的发展带来了全新视角和深刻启示。


01

迈向个人使用的基础智能体

(Personal Foundation agent)


2024 年被业界视为 AI 应用的爆发之年,而即将到来的 2025 年则被广泛视为 AI Agent 的爆发之年。上周,谷歌正式发布了其最新版大模型 Gemini 2.0 系列,并宣称这是他们迄今为止最强大的人工智能模型,「专为 Agent 时代设计」。随着 AI 技术的飞速发展,如何将「智能体」作为打破人机局限的核心驱动力,已成为业界热议的焦点。从最初的 AlphaGo,到如今的大语言模型,再到垂直领域的专业智能体,AI Agent 的功能和应用范围正以前所未有的速度扩展。随着 AI 技术逐渐渗透用户生活的方方面面,智能体不再只是完成单点任务的工具,更是成为主动理解用户、满足个性化需求的核心伙伴。

无界方舟(AutoArk)致力于多模态大模型技术的创新与应用,是国内首个实现 400ms 超低延迟「视觉理解」模型的服务商,已在 2024 年上半年开放模型对外合作,在多个 AI 硬件产品上实现应用。

无界方舟在极客公园 IF2025 展会现场的实拍录像|视频来源:无界方舟


基于此模型,无界方舟推出了全球首款个人基础智能体(Personal Foundation Agent)——Arki One。该智能体在交互、记忆和技能三个维度上实现了关键突破:

个人基础智能体三要素|图片来源:无界方舟


02

突破维度 1:端到端多模态

基础大模型,实现超拟人交互


在 AI 技术日新月异的今天,多模态技术正以前所未有的速度发展,并逐渐成为行业焦点。与传统的单模态模型(仅处理文本、图像)相比,多模态模型能够整合文本、图像、音频等多种信息形式,实现更智能、更拟人化的交互体验。

近年来,多模态技术的发展呈现以下趋势:1)端到端多模态模型崭露头角: 以 OpenAI 推出的 GPT-4o 为代表的端到端多模态模型,在多模态理解和生成方面取得了重大突破,实现了图像、语音和文本的多模态整合,并在通用助手、医疗辅助、教育等领域得到了广泛应用。2)实时性和低延迟需求日益凸显: 随着用户对人机交互实时性要求的不断提高,尤其是在语音和视觉理解对话场景中,技术发展正朝着「毫秒级响应」迈进。3)多模态情绪感知成为关键挑战: 在拟人化交互中,情绪理解和动态响应成为核心技术挑战,涉及语音情绪分析、视觉表情识别和语境推理等多模态信息的融合。

在此背景下,无界方舟潜心研发,在业界没有任何现成方案可套壳的情况下,自研推出了全新的端到端多模态模型,致力于突破技术瓶颈,引领多模态交互体验升级。以下为该模型的技术创新点:

无界方舟多模态大模型架构与评测结果|图片来源:无界方舟

无界方舟 CEO 曾晓东表示,无界方舟正积极寻求与行业优秀伙伴的合作机会,在更多实际应用场景中,融入并发挥个人基础智能体的优势。

无界方舟个人基础智能体 Arki one 的应用场景拓展,已开放对外合作|图片来源:极客公园


03

突破维度 2:终身记忆系统,

实现用户个性化 AI


根据 Gartner 的研究预测,到 2025 年,超过 40% 的企业将部署具备终身学习能力的智能系统,以显著提升客户体验和运营效率。尽管传统大语言模型通过整合人类常识,突破了仅能处理单一问题的局限,展现出理解和解决高度个性化长尾问题的能力,但其要求用户在每次交互中提供详尽背景信息的模式并不切合实际。因此,构建一个具备终身记忆能力的系统显得尤为重要,它能够帮助模型积累对问题和用户的深度理解。

无界方舟个性化记忆系统 AutoMind|图片来源:无界方舟

无界方舟的个人基础智能体配备一套先进的「终身记忆系统-AutoMind」,一个独立于基础模型的个性化记忆层。通过反思用户交互、规划、行动与反馈,逐步累积对用户和环境的深层次认知。该系统巧妙结合存储型记忆与参数化记忆,构建出层次化记忆模型,具备终身学习能力,显著提升了智能体在复杂环境和数据处理方面的表现。凭借 AutoMind,基础智能体能够识别用户的长期爱好、体检情况变化、连续对话中的未完成任务等,甚至根据用户的沟通习惯调整对话风格。通过动态学习用户行为和历史数据,能够提供更精准的推荐和更高效的解决方案,营造出接近人类交互的体验。

AutoMind 个性化记忆层|图片来源:无界方舟

为实现这一终身记忆系统,无界方舟在存储型记忆、参数化记忆两大主流技术方向上进行了深入布局和积累。

存储型记忆:结合知识图谱和图机器学习技术,构建了层次化记忆模型,显著提升了大型语言模型(LLM)在复杂数据处理中的表现力。通过构建结构化的知识图谱,基础智能体能够将孤立的信息转化为相互关联的实体网络,真实还原现实世界中的复杂语义关系。根据无界方舟产品应用情况,知识图谱的引入可使 Agent 在事实推理任务中的准确率提升 35% 以上。同时,系统采用分层总结与动态更新机制,对新知识进行多层次、迭代性的总结和整合,持续丰富知识体系,实现终身学习。凭借存储型记忆模型,基础智能体不仅提升了生成内容的准确性和推理深度,还具备了持续优化与知识积累的能力,在科学研究、医疗诊断等高复杂性领域展现出巨大的应用价值。例如,在抗体设计的应用案例中,实现了在抗体从头设计、人源化打分等专业任务上平均 95%+的任务准确率

AutoMind 存储型记忆架构|图片来源:无界方舟

参数化记忆无界方舟自主研发并开源的 PrivateLoRA 技术,在实现「记忆个性化参数模型」的同时,兼具「隐私安全保护」。PrivateLoRA 是全球首个支持端+云联合部署的大模型技术,可将部分大模型参数部署在端侧,用户输入的图文信息由端侧参数处理,而云端仅接收端侧参数的加密编码。这种端云协同的推理模式确保了用户数据的本地化,有效防止隐私泄露。根据测试,PrivateLoRA 可将隐私泄露风险降低 99% 以上。此外,PrivateLoRA 的端侧参数充当参数化记忆的载体,支持实现提示词工程难以企及的风格化回答和概念植入等深层次定制。凭借 PrivateLoRA 技术,用户在享受终身记忆带来的便利时,也无需担心隐私泄露的风险。

AutoMind 参数化记忆架构|图片来源:无界方舟


04

突破维度 3:

复杂推理+执行能力,不止陪伴,更是伙伴


无界方舟的个人基础智能体不仅致力于成为用户的聊天伴侣,更力求通过掌握多种 Agent Skill(智能体技能),在日常生活和专业工作中成为用户得力的助手。凭借自主研发的 Action Q 技术,该智能体能够通过自我监督的强化学习,在多样化环境中不断学习和掌握新技能,执行从虚拟世界到物理世界的任务,真正将 AI 转化为强大的助手。

Action Q,学习虚拟世界与现实世界的技能|图片来源:无界方舟

让 Agent 掌握执行任务的能力,本质上是让 Agent 学习编写该技能的代码。这一过程涉及广泛的探索和试错,无论是在操作网页、玩游戏,还是在驱动具身智能硬件,Agent 都能够找到正确的解决方案。通过结合强化学习(Reinforcement Learning, RL)和蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)等技术,从而实现了一种自我监督的学习机制,使 Agent 能够在专业领域中适应和优化。具体而言,仅需不到 100 个样本进行冷启动,引导初始学习过程,随后 Agent 将在该领域的任务空间中自主探索,自动收集反馈并进行强化微调,最终实现远超通用大模型的专业性能。

Action Q,一种让 Agent 学各种「技能」的通用方法|图片来源:无界方舟

此外,面对高复杂度的技术挑战,无界方舟的基础智能体能够调用并协同一批虚拟 AI 专家智能体,构建高效协作的 AI 团队。通过智能体之间的紧密配合,该系统能够有效攻克复杂任务。凭借此项创新技术,无界方舟已成功构建全球首个基于多智能体系统的抗体研发平台,大幅降低抗体研发成本高达 90%,为生物医药行业的高质量发展提供坚实的技术支撑。

无界方舟多专家智能体产品 AgentStudio |图片来源:无界方舟

随着 2025 年的临近,AI Agent 正逐渐揭开商业爆发元年的神秘面纱。在这个时代里,智能体不再仅仅是简单的工具,更成为了能够主动理解用户需求、满足个性化需求的伙伴。

面对个人用户,无界方舟(AutoArk)提供的「个人基础智能体」,实现了超低延迟「视觉理解+语音互动」,使 AI 真正成为理解和融入用户生活的伙伴。

面对专业垂直领域,无界方舟(AutoArk)提供的「企业专家智能体」也在积极助力医药、金融等行业降本增效,重塑企业内外部的互动方式,赋予千行百业新的生存和发展空间。

在无界方舟的眼中,2024 年的「技术突破」只是一个起点。正如爱因斯坦所说:「想象力比知识更重要。」随着 AI 技术的不断进步和完善,AI Agent 将成为人类生活中不可或缺的伙伴。无论是在生命科学、教育学习、金融分析还是日常生活方面,AI Agent 都将扮演越来越重要的角色,开启更加智能、便捷且富有创造力的新时代。

曾晓东在极客公园 2025IF 创新大会的演讲实录,点击查看「2025 年,AI Agent 将如何变革?」

极客公园 2024 年度创新力量榜单,点击查看极客公园 2024 年度「InnoForce 50」


*头图来源:极客公园





 

热点视频

马斯克:永远不要信愤世嫉俗的人,他们看谁都是坏人。


点赞关注极客公园视频号

观看更多精彩视频


 

更多阅读



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

个人智能体 多模态AI 终身记忆 AI技能 无界方舟
相关文章