智源研究院 2024年10月25日
大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议成功召开
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

7月12日,大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议举办,50余位专家参加。智源研究院副院长林咏华强调评测工作的重要性,会上分享了相关报告及评估方法体系与实践,还讨论了国际标准的相关内容,为评测技术发展及产业落地提供助力。

🧐智源研究院主办会议,众多专家参与,探讨大模型评测工作。林咏华指出评测工作是产业发展风向标,需准确反映模型真实能力并满足实际需求。

📄智源研究院智能评测组负责人杨熙分享报告,指出大语言模型易产生幻觉,提出幻觉检查数据集HalluDial及检测模型HalluJudge,且已开源。

💬百度文心一言评估产品负责人等分享大模型评估方法体系与实践,IEEE P3419第二次工作组会议讨论国际标准相关内容,推进评测技术发展及产业落地。

2024-07-18 12:01 山东

大模型评测工作是推动大模型产业发展的风向标

7月12日,由北京智源人工智能研究院主办的大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议在智源大厦举办,来自百度、信通院、移动、联通、电信、浪潮、南方电网、南瑞、清华、北航等互联网大厂、科研机构、运营商、知名高校以及海外的50余位专家参加了此次会议。

智源研究院副院长兼总工程师林咏华出席会议并致辞。林咏华表示:“大模型评测工作是推动大模型产业发展的风向标。当前大模型评测工作仍然需要进一步准确反映大模型的真实能力,满足产业实际需求并促进大模型的技术发展”。

大模型评测技术研讨会上,智源研究院智能评测组负责人杨熙分享了报告《大语言模型的幻觉检测》。

杨熙指出,目前大语言模型容易产生幻觉,生成的内容可能与既定知识相冲突或不忠实于原始来源。现有的幻觉基准测试主要关注句子或段落级别的幻觉检测,忽略了对话级别的评估、幻觉定位和理由解释,也主要针对事实性幻觉,而低估了忠实性幻觉,常常依赖于劳动密集型或非专业化的评估者。

为了解决上述问题,智源研究院联合北京大学提出了幻觉检查数据集HalluDial,该数据集是全球第一个全面的大规模自动对话级别幻觉评估基准,且涵盖了自发性和诱导性幻觉情景,覆盖了事实性和忠实性幻觉。此外,还引入了一个专门的大语言检测模型HalluJudge,首次支持幻觉定位 & 解释。目前全球最大对话场景的大模型幻觉检测数据集HalluDial以及首个支持幻觉定位 & 解释的大语言检测模型HalluJudge均已在Github上开源。

HalluDial以及HalluJudge的开源链接:

https://github.com/FlagOpen/HalluDial

百度文心一言评估产品负责人吕雪莹、中国移动研究院 AI标准化研究员聂锦燃、中国信通院人工智能研究所业务主管韩旭分别分享了大模型评估方法体系与实践。

滑动查看更多图片

在IEEE P3419工作组主席林咏华和秘书王晓敏的主持下,国际标准IEEE P3419第二次工作组会议顺利召开,参会专家积极讨论了国际标准《大语言模型评测》的目的、范围、评测框架、能力维度,以及未来IEEE P3419工作组的工作安排以及发展规划。

本次会议为大模型评测技术厂商提供了一个开放的交流平台,通过各大厂商专家的专题分享报告以及会上交流,使参会者更深入了解了当前大模型评测技术框架、进展以及挑战,推进了大模型评测技术发展以及产业落地。未来,智源研究院将继续积极参与大模型评测技术国家以及国际标准的制定工作,与成员单位共同推进大模型评测标准工作的蓬勃发展。


IEEE P3419人工智能大模型评估工作组于2023年成立,是IEEE计算机学会/人工智能标准委员会下设成立的专注于大模型评估标准化研究的工作组,由智源研究院林咏华副院长担任工作组主席,目前已启动一项国际标准《大语言模型评测》(Standard for Large Language Model Evaluation)的编制工作。为保证该项标准的广泛代表性和科学适应性,现邀请国内外相关企业、高校、科研机构等单位加入该工作组共同参与国际标准编制工作(有意向者可联系工作人员:liuying@baai.ac.cn)。

了解智源评测更多细节,请浏览官网

https://flageval.baai.ac.cn/#/home


点击阅读原文下载第一期智源评估技术报告

《AI 大模型能力全景扫描》


阅 读 更 多


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型评测 智源研究院 幻觉检测 国际标准
相关文章