Cnbeta 01月13日
马斯克:AI训练去年就已耗尽现实世界的所有资料
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

马斯克在CES采访中表示,AI训练已耗尽人类积累知识,现实世界数据几近枯竭。这一观点与OpenAI前科学长Ilya Sutskever的说法相呼应。马斯克认为,合成数据是未来方向,AI可自行生成训练数据,实现自我学习。科技巨头如微软、Meta、OpenAI等已广泛使用合成数据训练AI模型。Gartner预测,2024年AI项目使用数据中约60%为合成数据。微软的Phi-4和谷歌的Gemma等模型均采用合成数据结合现实数据训练,Anthropic和Meta也在其模型训练中应用了合成数据。

⚠️ 马斯克认为,AI训练已基本耗尽人类累计知识,现实世界可用于训练的数据已接近枯竭,时间节点为2024年。

💡 合成数据被认为是解决数据短缺的关键。马斯克指出,AI可以通过合成数据自行生成训练所需的数据,实现自我学习和提升。

🚀 科技巨头已广泛采用合成数据进行AI模型训练,如微软的Phi-4、谷歌的Gemma、Anthropic的Claude 3.5 Sonnet以及Meta的Llama系列模型都使用了合成数据。

马斯克在CES期间接受采访时指出,现实世界能用来训练AI模型的资料,已经消耗的差不多了。马斯克表示,基本上,AI训练已经将人类累计的知识全数耗尽,而这个时间点就是去年(2024年)。

马斯克的这一观点呼应了OpenAI前科学长Ilya Sutskever在去年12月机器学习会议“NeurIPS”上的说法,Sutskever当时表示,AI产业能够消耗的数据已经达到了顶峰。

面对现实世界数据的枯竭,马斯克暗示合成数据(synthetic data)将是未来的发展方向。

他指出,补充现实世界数据的唯一方法就是合成数据,由AI自行生成用于训练的数据,通过合成数据,AI将能够为自己打分,并展开自我学习的过程。

事实上,许多科技巨头已经开始使用合成数据来训练AI模型,微软、Meta、OpenAI及Anthropic等企业已经在其AI模型训练中广泛应用合成数据。

科技市场研究机构Gartner估计,2024年AI及分析项目使用的数据中,约60%是合成数据。

例如,微软在1月8日开源的AI模型“Phi-4”就是通过合成数据结合现实世界数据进行训练的,谷歌的“Gemma”模型也采用了类似的方法。

Anthropic使用部分合成数据开发了表现最佳的系统之一“Claude 3.5 Sonnet”,而Meta则运用AI生成数据来微调其最新推出的Llama系列模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI训练 合成数据 数据枯竭 马斯克 深度学习
相关文章