机器之心 01月19日
合成数据,能与不能?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期会员通讯聚焦AI与机器人领域,重点探讨了合成数据、人形机器人及AI法律问题。文章深入分析了合成数据在解决数据稀缺问题上的潜力,以及模型崩溃的风险。同时,探讨了人形机器人技术的发展,以及AI监管政策的挑战与趋势。文章还提及了多家机构在旗舰AI模型训练中采用合成数据的实践,并引发了社区对该技术的新一轮讨论。本期通讯内容丰富,涵盖了技术、市场和政策等多个角度,为读者提供了全面的行业洞察。

🔥合成数据潜力巨大:合成数据被视为解决人工智能开发中数据稀缺、隐私问题和高成本挑战的关键方案,在LLM训练数据即将耗尽的背景下,再次成为热门话题,并被认为解锁了新的规模轴。

⚠️模型崩溃风险:尽管合成数据优势明显,但模型崩溃风险是其广泛应用的最大障碍。研究表明,即使训练数据中包含少量合成数据,也可能导致模型性能严重下降,这引发了对合成数据“投毒”的担忧。

💪领先机构实践:尽管存在争议,微软、Meta、OpenAI等领先机构已在旗舰AI模型训练中采用了合成数据,引发了新一轮讨论。包括Llama 3.1、o1、DeepSeekV3和Phi-4等先进模型均表示采用了合成数据,这表明合成数据在AI领域的应用前景依然广阔。

原创 Pro会员通讯 2025-01-19 11:33 北京

本期通讯 28622 字,可免费试读至 5%。

机器之心PRO · 会员通讯 Week 03

--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---


1. 合成数据,能与不能?

合成数据又火了?模型崩溃问题得到改善了吗?哪些团队已经用合成数据训出旗舰模型了?合成数据的理论缺口补上了?用好「带毒」的合成数据有哪些秘方?...

2. 黄仁勋「看中」的14款人形机器人,国产机器人胜算几何?

机器人技术一旦实现通用性意味着什么?最适合通用具身智能的形态会是人形吗?要想迎来通用机器人领域的「GPT」时刻,哪些因素才是核心关键?黄仁勋展示的 14 款人形机器人都是什么「来头」?国产机器人厂商「突飞猛进」,占据近一半?国内外的各家机器人在技术路线上有何差异?在 CES 2025 展会上,还有哪些值得关注的机器人?...

3. AI 时代下,2025 年有哪些关键法律问题?

AI 技术的爆发式增长给传统行业带来了哪些影响?不同地区的 AI 监管政策有何差异?AI 监管政策重点关注哪些风险?企业 AI 业务落地面临哪些合规挑战?AI 驱动下,监管政策的发展趋势如何?...


...本期完整版通讯含 3 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 14 项,国内方面 10 项,国外方面 5 项。

本期通讯总计 28622 字,可免费试读至 5% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 



要事解读①  合成数据,能与不能?

引言:在2024年里,一系列合成数据的理论理解、机理分析和技巧探索工作似乎让这项技术开始兑现潜力,绕开模型崩溃的障碍,有望真正开始解决数据稀缺的问题。

2025 年了,合成数据导致「模型崩溃」的「解药」炼到几成了?

1、合成数据一直是解决人工智能开发中数据稀缺、隐私问题和高成本挑战的一种很有前景的解决方案。在 LLM 竞赛中,高质量语料数据即将耗尽的讨论不时翻新,合成数据又一次成为 AI 领域的热门话题。

① Ilya Sutskever 在 NeurIPS2024 演讲中「训练数据即将枯竭,预训练时代已经结束」的判断又一次将这个话题搬上热点;

② 年初马斯克在 X 的直播对话中「训练数据已经耗尽,唯一的补充方法是使用合成数据」的说法则进一步为该话题添加了热度。[1-1]

③ Semianalysis 的 Dylan Patel 则在在年底的谈话中认为,合成数据已经解锁了一个新的规模轴(New Axis),而这个方向的 Scaling 仍处于非常早期的阶段,因此 AI 改进的速度在未来的 6-12 个月内将会比过去一年更快。[1-2]

2、在大量期待下,合成数据目前的定位仍处于「充满潜力」而非「已是主流」,其原因则在于模型崩溃的风险。

① 「模型崩溃」现象最早由牛津大学的 Shumailov 等人在 2023 年提出,指 AI 模型在训练数据包含合成数据时性能严重下降。

② Shumailov 等在 2024 年 7 月的《Nature》封面论文中进一步指出LLM 生成的数据会污染下一代模型的训练集,导致模型崩溃,使用合成数据无异于投毒。该工作引起了许多争议。彼时,英伟达刚刚发布 Nemotron-4 340B 开源模型,称使用了 98%的合成数据。[1-3]

② Meta、NYU 等高校的研究者在 10 月的《Strong Model Collapse》中证明了即使训练数据中只有很小比例(1%)的合成数据,也可能引发模型崩溃。[1-4]

3、对比 2024 年项间多项工作对合成数据的质疑,微软、Meta、OpenAI 和 Anthropic 等领先机构在近期发布的模型中均声称采用了合成数据来训练旗舰 AI 模型,引起 AI 社区对这项技术的又一次热议。[1-5]

① 在2024年下半年,包括 Llama 3.1、o1、DeepSeekV3 和 Phi-4 等先进的模型在各自的论文/技术报告中均表示采用了合成数据。

用好「带毒」的合成数据有哪些秘方?

1、合成数据的优势涵盖可以大规模生成,可定制,可避开敏感信息,适应多模态学习和可帮助 AI Alignment 等。但这种看似美好的期许下,模型崩溃风险仍是阻止该技术广泛使用的最大障碍。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

合成数据 模型崩溃 AI模型 人形机器人 AI监管
相关文章