动点科技 01月15日
书生·浦语大模型升级,4T数据训出高性能模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上海人工智能实验室升级书生大模型至3.0版本,通过精炼数据框架,大幅提升数据效率和模型性能。新版本仅用4T训练数据,性能超越同量级开源模型,训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力,应对更复杂场景。研究团队强调数据质量而非规模,提出“思维密度”概念,通过数据精炼提升模型性能,为突破Scaling Law提供了新思路。

🚀书生·浦语3.0通过精炼数据框架,大幅提升数据效率,仅使用4T训练数据,其综合性能超越同量级开源模型,并节约了75%以上的训练成本。

🧠书生·浦语3.0首次在通用模型中实现了常规对话与深度思考能力融合,使其能应对更真实的复杂使用场景。

💡研究团队认为,数据质量的提升比数据规模的扩大更重要,并提出“思维密度”(IQPT)的概念,即数据的思考过程中蕴含的逻辑性、复杂性和启发性。

🎯通过构建数据“思维密度”杠杆,书生·浦语3.0用少量高质量数据实现了等同于主流开源模型大量数据的训练效果,为突破Scaling Law提供了新的研究范式。

1月15日,上海人工智能实验室对书生大模型进行重要版本升级,书生·浦语3.0(InternLM3)通过精炼数据框架,大幅提升了数据效率,并实现思维密度的跃升。仅使用4T训练数据的InternLM3-8B-Instruct,其综合性能超过了同量级开源模型,节约训练成本75%以上;同时,书生·浦语3.0首次在通用模型中实现了常规对话与深度思考能力融合,可应对更多真实使用场景。

数据是大模型能力提升的重要“推进剂”。目前主流开源模型多以扩大预训练数据规模作为性能提升路径,预训练数据量普遍接近20T token,训练成本也随之线性增长,同时也引起业内关于数据瓶颈和Scaling Law可持续性的思考。上海AI实验室研究团队认为,数据质量的提升带来的增益会显著高于数据规模的提升,而数据的“思维密度”(IQPT,Intelligence Quality per Token)是数据质量的核心,即数据的思考过程中蕴含的逻辑性、复杂性、启发性等。为此,团队提出大规模数据精炼框架,大幅提高了训练数据的质量。在具体实践中,书生·浦语3.0仅使用4T token的预训练数据,即实现主流开源模型18T数据的训练效果。通过构建数据“思维密度”杠杆,撬动模型性能提升,为突破Scaling Law带来了新的研究范式。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

书生·浦语3.0 数据精炼 思维密度 模型性能 Scaling Law
相关文章