集智俱乐部 03月01日
夜谈:多模态场景加持下的 DeepSeek R1 深度推理丨周日分享·大模型2.0读书会
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek R1的出现再次证明了强化学习在大模型领域的潜力。R1-Zero完全依赖强化学习构建,无需人类标注,展现出强大的长文本和长链推理能力,以及自我修复错误的能力。本次读书会夜谈将聚焦DeepSeek R1在多模态场景下的拓展,介绍基于DeepSeek-R1扩展得到的多模态模型Align-DS-V,并探讨模型过度思考现象以及强推理下的安全问题,如形式化验证和审计对齐。同时,还将探讨模态穿透和模态联动如何进一步提升强推理能力,以及全模态扩展对DeepSeek R1的潜在突破。

🚀 DeepSeek R1-Zero通过纯强化学习,无需人工标注,实现了长文本和长链推理能力,并具备自我修复错误的能力,开创了强推理慢思考的新范式。

👁️‍🗨️ Align-DS-V是基于DeepSeek-R1扩展的多模态模型,旨在探索多模态场景下强推理的拓展,研究模态穿透和模态联动如何提升推理能力。

🛡️ 读书会将关注强推理下的安全问题,包括形式化验证(Formal Verification)和审计对齐(Deliberative Alignment),以应对模型过度思考(Over-Thinking)等潜在风险。

📚 读书会还涉及可扩展监督、形式化验证和拒绝对齐等前沿研究,并提供了相关的参考文献,如DeepSeek-R1技术报告、Align-Anything和Language Models Resist Alignment等。

集智俱乐部 2025-03-01 21:55 上海

2025年3月2日(本周日)晚上19:30开始


导语


DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在。R1-Zero 从基础模型开始构建,完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。在训练过程中,随着步骤增加,模型逐渐展现出长文本推理以及长链推理的能力。随着推理路径的逐步增长,模型还表现出自我修复的能力,能够发现并修复之前的错误。


大模型2.0系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的夜谈将在3月2日周日晚19:30由北大对齐小组的陈博远给大家分享多模态强推理下的拓展,介绍 Align-DS-V: 基于 DeepSeek-R1 扩展得到的多模态模型;同时也会介绍强推理下的安全:形式化验证 Formal Verification \ 审计对齐 Deliberative Alignment 等内容。






分享内容简介



  

DeepSeek R1-Zero 和 R1 在纯文本模态上取得的优异表现十分惊艳,这也不经让人期待:多模态场景加持下 DeepSeek R1 深度推理模型将会是怎样的表现?满血671B微调是否有框架支持?能否将DeepSeek微调用于交叉领域以及本土化价值对齐和部署?


本次夜谈关注多模态场景中强推理下的拓展。从DeepSeek-R1开创RL加持下的强推理慢思考范式新边界出发,介绍Align-DS-V(基于DeepSeek-R1扩展得到的多模态模型),并讨论模型过度思考 (Over-Thinking)现象以及强推理下的安全:形式化验证(Formal Verification),审计对齐(Deliberative Alignment)等内容。





分享大纲



  





主讲人介绍




陈博远北大对齐小组(PKU-Alignment Team)成员,师从北京大学杨耀东老师。他关注的问题包括如何利用弱模型实现对强模型的可扩展监督(这对解决超对齐问题至关重要),以及如何以理论和实验相结合的方法帮助实现AI系统的道德价值对齐和解决相应的社会技术问题。





涉及到的参考文献







参与信息




时间:

2025年3月2日(本周日)晚上19:30-21:30。


参与方式:

扫码报名


扫码参与大模型2.0读书会,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!



大模型2.0读书会启动


o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。


从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!



详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!



点击“阅读原文”,报名读书会

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek R1 强化学习 多模态 强推理 大模型
相关文章