Hugging Face 前天 01:21
HF Papers 直播| AI for Science 专场
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Hugging Face 联合多家机构举办的“AI Insight Talk”系列直播活动,聚焦AI for Science领域。本次直播邀请多位论文作者,探讨科研智能体的真实能力。内容涵盖ScienceBoard框架对多模态智能体的评估、Scientists’ First Exam对多模态大模型的科学能力测试,以及AutoMind框架在数据科学领域的应用。旨在推动AI在科学领域的应用和发展。

🔬 ScienceBoard 框架:该框架用于评估多模态智能体在科学探索任务中的表现。它包含一个真实的可交互环境,集成了多领域的专业科学软件,支持通过GUI和CLI进行复杂科研流程的自动化操作。基于此环境构建了169个高质量任务的评测基准,涵盖生物化学、代数、天文学等领域,用于测试智能体在真实科研场景下的推理、规划和执行能力。实验结果显示,即使是最先进的模型,其成功率仍远低于人类水平。

🧪 Scientists’ First Exam (SFE):SFE旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。它创新性地采用了“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66项任务,并使用原始科学数据与中英双语问答。测试结果表明,主流模型在SFE高阶科学任务中的表现有限,凸显了其在科学认知和多模态数据分析方面的不足,为科学AI发展指明了方向。

💡 AutoMind 框架:该框架是一个自适应、知识丰富的大模型智能体框架,旨在自动化整个机器学习流程。它通过三项关键创新克服了现有框架的不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind在性能上超越了先前SOTA。

🗣️ 直播活动:Hugging Face将于7月17日举办AI Insight Talk直播,邀请论文作者分享研究成果,并提供交流群,方便大家交流沟通。直播主题为AI for Science,探讨科研智能体的能力,以及AI在科学领域的应用和发展。

Hugging Face 2025-07-16 16:01 法国

HF Papers 直播| AI for Science 专场

由 Hugging Face × OpenMMLab × ModelScope × 知乎 × 机智流等 联合发起的【AI Insight Talk】系列直播活动第三场即将开始!

AI 科学家时代正加速到来,但科研智能体真的做好准备了吗?真实科研场景中,多模态智能体能否在推理、规划与执行等关键能力上达到人类科研人员的水平?我们又该如何准确评估它们的科学认知能力和数据分析表现?

本期我们将聚焦 AI for Science,邀请多位在 Hugging Face Daily Papers 中热门论文的作者,共同探讨 AI for Science     能力的真实象限。

📅 直播时间:2025 年 7 月 17 日( 周四 )19:30 - 21:30(北京时间)

嘉宾阵容 & 分享议题孙秋实香港大学博士生,硕士毕业于新加坡国立大学数据科学系。研究方向涵盖 Computer-using Agents 与Code Intelligence,在 ACL、EMNLP、ICLR、COLM 等自然语言处理与机器学习顶级会议发表多篇论文,谷歌学术引用超过 1000 次,担任多个国际会议与期刊的审稿人及程序委员会委员。其关于计算机智能体的系列研究成果被广泛应用于学术研究与工业界实践中。个人主页:https://qiushisun.github.io/

简要概述

ScienceBoard 是一个用于评估多模态智能体在科学探索任务表现的框架,包含两个核心贡献:真实的可交互环境以及在此基础上构建的评测基准。该环境基于虚拟机,集成了多领域的专业科学软件,支持通过 GUI 和 CLI 进行复杂科研流程的自动化操作。评测基准在此环境中设计了 169 个覆盖生物化学、代数、天文学等六大领域的高质量任务,系统性地测试了智能体在真实科研场景下的推理、规划和执行能力。实验结果表明,即使是最先进模型驱动的智能体,其平均成功率依然远低于人类水平,进一步揭示了当前智能体在科学自动化中的局限,并为未来的科学智能体设计提供了关键启示。

论文地址

https://huggingface.co/papers/2505.19897

周宇浩现为四川大学三年级博士生,本科毕业于四川大学计算科学专业,同时在上海人工智能实验室 AI4S 部门进行学术研究,目前主要研究方向为多模态大语言模型的训练和评测。

简要概述

Scientists’ First Exam(SFE)旨在系统评估多模态大模型(MLLMs)在多学科科学领域的能力。SFE 创新性地以“信号感知-属性理解-对比推理”三级体系,涵盖五大领域、66 项任务,采用原始科学数据与中英双语问答。测试发现,主流模型在 SFE 高阶科学任务中表现有限(SOTA 得分仅约 30),凸显了其在科学认知和多模态数据分析方面的不足,为科学 AI 发展指明了突破方向。

论文地址

https://huggingface.co/papers/2506.10521

欧翌昕浙江大学知识引擎实验室三年级硕士生,由陈华钧教授和张宁豫教授指导,此前在浙江大学计算机科学与技术学院获得学士学位。当前研究方向涵盖大模型智能体、大模型可解释性等,在 ACL、NAACL、TASLP 等国际顶级会议和期刊上发表多篇相关研究成果,谷歌学术引用超过 800 次,担任多个国际会议的审稿人。个人主页:https://oe-heart.github.io/

简要概述

大模型驱动的数据科学智能体有望自动化整个机器学习流程,但其在实际应用中的效果仍然有限。现有的框架依赖于僵化的预定义工作流和不灵活的编码策略,因此仅在相对简单的经典问题上表现出色,未能充分捕捉人类专家在复杂创新任务中的经验。本研究提出了 AutoMind,一个自适应、知识丰富的大模型智能体框架,通过三项关键创新克服了这些不足:(1)一个精心策划的专家知识库,将智能体与领域专家的知识相结合;(2)一种智能体知识树搜索算法,策略性地探索可能的解决方案;(3)一种自适应编码策略,动态调整代码生成策略以适应不同任务的复杂性。评估结果表明,AutoMind 在性能上超越了先前 SOTA,更细致的分析确认了其在质量和效率方面的优势,突显了 AutoMind 在迈向完全自动化数据科学中的高效性和稳健性。

论文地址

https://huggingface.co/papers/2506.10974

 观看直播

 参与讨论为了方便大家交流沟通,我们建立了相关的交流群,本期分享的作者们也在群里,欢迎大家入群交流。

📍 7 月 17 日下午 7:30,AI Insight Talk 不见不散!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI for Science 科研智能体 多模态大模型 ScienceBoard AutoMind
相关文章