集智俱乐部 2024年12月27日
大语言模型的自我改进与推理验证丨周六分享·大模型2.0读书会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大模型2.0读书会旨在探讨大模型推理新范式,本期将由吴杰民带领探讨LLMs的自我改进与推理验证,还将涉及相关技术细节及前沿研究等内容。

大模型2.0读书会深入探讨推理新范式的核心技术与原理

本期分享围绕LLMs的自我改进与推理验证展开

从微软Phi-4预训练模型出发,探讨数据生成与改进

关注模型自我验证技术,包括内部状态解码等方式

简要讨论强化学习在推理过程中的应用

集智俱乐部 2024-12-26 21:25 北京

2024年12月28日(本周六)晚上19:00开始直播


导语


AI 前首席科学家Ilya  Sutskever在NeurIPS  2024上指出,数据的增长已接近瓶颈,未来的AI发展将从拓展模型和数据规模转向推理和自我意识的探索。随着大语言模型(LLMs)在推理能力上的不断提升,如何使模型具备自我改进和推理验证的能力成为研究的热点。


大模型2.0系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的第四期分享将由香港科技大学(广州)的吴杰民带领大家集中探讨LLMs如何通过自我验证和迭代优化来提升推理能力,并结合近期前沿研究,分析推理验证的技术细节及其在缓解模型幻觉,提高推理表现上的效果。此外,还将简要讨论如何通过强化学习和过程奖励模型优化推理过程,提供一些理解前沿模型o1,o3可能的思路。





分享内容简介



  

本次分享将围绕大语言模型(LLMs)的自我改进与推理验证展开,首先从微软最新发布的Phi-4预训练模型出发,了解高质量标注数据短缺的情况下使用大语言模型辅助生成和改进训练数据的细节,其次深入关注模型在推理时的自我验证技术,这包括根据模型内部状态解码,使用模型输出一致性检查以及使用外部验证工具验证的方式提高模型推理能力并缓解幻觉。然后我们将简要讨论如何将强化学习方法引入到推理过程中以应对复杂问题。最后就一些前沿开放问题一起探讨。





分享内容大纲



 

    训练时:LLM生成数据

      微软Phi-4

      自生成数据

      自改进数据

    推理时:LLM自我验证

      内部状态解码缓解幻觉

      模型输出一致性检查

      外部数据RAG验证

      内部验证与外部验证对比

    强化学习优化难题推理

      强化学习基础概念

      蒙特卡洛树搜索和过程奖励模型

      ReST-MCTS∗方法简介

    前沿研究进展和讨论

      自我改进消除推理错误的能力上界在哪?

      数据不足时,如何保证推理的可靠性?

      自我改进是否会带来新的安全风险?





主讲人介绍




吴杰民,香港科技大学(广州)博士生,曾任加州大学戴维斯分校研发工程师。

研究兴趣为概率图模型,神经信号处理,强化学习与控制系统,大语言模型推理优化。





主要涉及到的参考文献



 





分享信息




分享时间:

2024年12月28日(本周六)晚上19:00-21:00


参与方式:

扫码报名


扫码参与大模型2.0读书会,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!



大模型2.0读书会启动


o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。


从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!



详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型2.0 推理验证 自我改进 强化学习 LLMs
相关文章