IT之家 01月09日
马斯克:现实世界中用于训练 AI 模型的数据已经所剩无几
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

马斯克等AI专家认为,用于训练AI模型的现实世界数据已基本耗尽,这与前OpenAI首席科学家苏茨克弗的观点一致。他们认为,未来AI模型开发将依赖合成数据,即AI自我生成训练数据。目前,包括微软、Meta等科技公司已开始使用合成数据训练模型。合成数据优势在于降低成本,如Writer公司模型仅花费70万美元。然而,合成数据也存在风险,可能导致模型性能下降,输出结果缺乏创新且带有偏见。因此,如何平衡合成数据的优势与风险,是AI发展面临的重要挑战。

⚠️ 马斯克等专家指出,现实世界用于训练AI模型的数据已基本耗尽,标志着AI发展面临新的瓶颈。

🤖 合成数据被认为是解决数据不足的关键方案,即通过AI自我生成训练数据,实现自我优化,多家科技公司已开始实践。

💰 使用合成数据能显著降低AI模型开发成本,例如,Writer公司的模型开发成本远低于同等规模的OpenAI模型,但同时也带来了潜在风险,可能导致模型性能下降,结果缺乏创新性。

⚖️ 合成数据的使用是一把双刃剑,虽然降低了成本,但需要警惕数据可能存在的偏见和局限性,这会影响模型的输出质量和功能性。

IT之家 1 月 9 日消息,据 TechCrunch 报道,马斯克与其他人工智能专家一致认为,现实世界中用于训练 AI 模型的数据几乎已经耗尽。

在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”

马斯克此番言论与前 OpenAI 首席科学家伊利亚・苏茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 会议上的观点相似。苏茨克弗曾指出,AI 行业已经达到了所谓的“数据峰值”,并预测未来缺乏足够的训练数据,将迫使 AI 模型的开发方式发生改变。

马斯克认为,合成数据(IT之家注:即人工智能模型自我生成的数据)是未来的解决方案。“补充现实世界数据的唯一途径是通过合成数据,也就是让 AI 自己生成训练数据。AI 会进行自我评估,并通过这一自我学习的过程不断优化自己。”

目前,许多科技公司,包括微软、Meta、OpenAI 和 Anthropic 等,已经开始使用合成数据来训练他们的主力 AI 模型。据 Gartner 估计,到 2024 年,用于人工智能和数据分析项目的 60% 数据将是通过合成方式生成的

使用合成数据的一个显著优势是降低成本。人工智能初创公司 Writer 表示,其 Palmyra X 004 模型几乎完全依赖合成数据进行开发,开发成本仅为 70 万美元,而一个规模相似的 OpenAI 模型的开发成本大约为 460 万美元

然而,合成数据也存在一定的风险。研究表明,合成数据可能会导致模型性能下降,输出结果不仅缺乏创新性,而且可能变得更加偏颇,最终严重影响其功能性。因为模型是通过自己生成合成数据进行训练的,如果这些数据本身带有偏见或局限性,那么最终模型的输出也会受到这些因素的影响。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI训练数据 合成数据 数据峰值 模型开发 人工智能
相关文章