富途牛牛头条 01月10日
馬斯克:AI訓練數據去年就已耗盡,合成數據是唯一補充方法
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

科技巨头已开始用合成数据训练AI模型,马斯克等认为AI训练数据已耗尽,2024年用于AI训练的数据中60%将是合成的,使用合成数据可节约成本,但也存在潜在风险。

💻科技巨头已用合成数据训练AI模型

📈2024年AI训练数据60%为合成的

💰使用合成数据可节约成本

⚠️使用合成数据存在潜在风险

来源:华尔街见闻

包括微软、Meta、OpenAI、Anthropic等在内的科技巨头已经开始使用合成数据来训练AI模型了。据信息技术研究和顾问公司Gartner估计,2024年用于AI训练和分析项目的数据中,有60%是合成的。

人工智能训练数据耗尽了怎么办?

近日,马斯克在社交平台X上的一场直播对话中表示,人工智能训练数据已经耗尽

“我们基本上已经用尽了人类知识的累积总和来进行AI训练,这种情况大约在去年就已经发生了。”

马斯克的观点与前OpenAI首席科学家Ilya Sutskever不谋而合。去年12月,Sutskever在机器学习会议NeurIPS上表示,AI行业已经达到了他所谓的“数据峰值”,训练数据的缺乏将迫使AI模型的开发方式发生转变。

不过,面对数据耗尽的困境,马斯克提出了一个可能的解决方案:

唯一的补充方法是使用合成数据,即由AI模型自己生成的数据。通过合成数据,AI将对自身进行评分,并经历一个自学习的过程。”

事实上,包括微软、Meta、OpenAI、Anthropic等在内的科技巨头已经开始使用合成数据来训练AI模型了。据信息技术研究和顾问公司Gartner估计,2024年用于AI训练和分析项目的数据中,有60%是合成的。

微软最近开源的Phi-4模型就是使用合成数据和真实世界数据共同训练的。谷歌的Gemma模型、Anthropic的Claude 3.5 Sonnet系统以及Meta最新的Llama系列模型也都采用了类似的方法。

分析师表示,使用合成数据进行训练还能够节约成本。AI初创公司Writer声称,其几乎完全使用合成数据源开发的Palmyra X 004模型仅花费了70万美元,而相比之下,OpenAI同等规模模型的开发成本估计为460万美元。

不过需要注意的是,使用合成数据也存在一些潜在风险。一些研究表明,合成数据可能导致模型崩溃,即模型的输出变得不够“创新”,反而更加偏颇,最终严重影响模型的功能。由于合成数据是由模型生成的,如果用于训练这些模型的数据本身存在偏见和局限性,那么它们的输出也会受到同样的影响。

编辑/jayden

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

合成数据 AI训练 节约成本 潜在风险
相关文章