百川大模型 04月09日 18:05
百川智能联合天津大学探索智能体框架,登顶大模型复杂任务榜单GAIA
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百川智能联合天津大学推出“Sibyl System”Agent框架,该框架成功问鼎GAIA Leader Board。文章介绍了Agent技术、GAIA评测方案及Sibyl System的特点等内容。

🏷Agent技术受关注,大语言模型+Agent成焦点

📋GAIA是全新评测方案,题目接近真实世界

💻Sibyl System设计理念独特,简化系统架构

🎯Sibyl System可扩展性强,能提升模型能力

2024-07-23 18:57 北京

日前,百川智能联合天津大学推出“Sibyl System”Agent框架,成功问鼎GAIA Leader Bo

日前,百川智能联合天津大学推出“Sibyl System”Agent框架,成功问鼎GAIA Leader Board。

学术界从很早以前就已开展了对Agent (智能体)技术的探索,但受限于技术发展始终无法在通用领域取得实用性进展。

大语言模型的出现,带来了通用可泛化的智能,再次让Agent(智能体)成为业内关注的焦点。

大语言模型+Agent可以做到理解人类指令,提出规划及工具调用完成指定工作,被喻为打通人工智能落地应用的最后一环。


什么是GAIA?

GAIA是2023年11月由Meta、Huggingface、AutoGPT 一起提出的全新评测方案(主要评测Agent复杂任务执行的方案和能力)。

这个评测体现出现有模型的能力缺陷,为模型和 Agent 的研发指出了改进方向。

区别于MMLU、BBH这类综合知识评测,GAIA的题目更接近真实世界:

GAIA的测试集难度分三挡,示例如下:

Level 1:

What was the actual enrollment count of the clinical trial on H. pylori in acne vulgaris patients from Jan-May 2018 as listed on the NIH website?

美国国立卫生研究院网站上列出的2018年1月至5月在寻常痤疮患者中进行的幽门螺杆菌临床试验的实际入组人数是多少?

Level 2:

If this whole pint is made up of ice cream, how many percent above or below the US federal standards for butterfat content is it when using the standards as reported by Wikipedia in 2020? Answer as + or - a number rounded to one decimal place.

如果这一整品脱都是由冰淇淋组成的,当使用2020年维基百科报道的美国联邦黄油脂肪含量标准时,其黄油脂肪含量相对于该标准是高出多少百分比还是低于多少百分比?答案请以 + 或 - 一个数值,并四舍五入至小数点后一位。

Level 3:

I was referencing each of the tables in the file from papers that were cited by the "Trans fatty acid contents in chocolates and chocolate wafers in Turkey" paper. I lost my own reference sheet and need to know which of the papers each table came from. The file may not use the full table caption. If the references in the"Trans fatty acid" paper bibliography were numbered starting with 1, give me the numbers in the order that they would be used to fill the cells in the Excel file from top to bottom, as a comma separated list.

我正在引用文件中各个表格,这些表格来自被《土耳其巧克力和巧克力威化中的反式脂肪酸含量》论文引用的论文。我丢失了自己的参考单,需要知道每个表格分别来自哪篇论文。文件中可能未使用完整的表格标题。如果《反式脂肪酸》论文参考文献中的引用是从1开始编号的,请按照从上到下填充Excel文件单元格的顺序,给我一个用逗号分隔的编号列表。

良好的评测体系能够帮助我们快速迭代,确保在Agent 技术上处于领先地位。

Agent的探索也可以帮我们理解当前这一代模型的能力边界,避免在模型研发上尝试解决不可能解决的问题。

另外,如何解决耗时更长(小时、天、月)的任务也是下一代 AI 系统的核心问题。

为此,我们设计了“Sibyl System”Agent框架,它的设计理念有如下特点:


简而言之,Sibyl System是一个结构简单但能力强大的LLM-based Agent framework,能够通过充分利用少量的工具来解决复杂的推理问题。

通过引入 Global Workspace和Multi-Agent ,以及基于浏览器的通用信息获取渠道,在降低系统复杂度的同时,将能够解决问题的复杂度从人类耗时几分钟能处理的事项扩展到几十分钟乃至小时和天的级别,从而实现模型从“快思考”到“慢思考”的转变。

同时,Sibyl从设计之初就重视良好的可扩展性且易于调试,因此可以轻松替换其它模型的Agent模块,提升模型相应能力。


有关Sibyl System 更多细节详见技术报告:

https://arxiv.org/pdf/2407.10718



跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Sibyl System Agent技术 GAIA评测 可扩展性
相关文章