华尔街见闻 - 最热文章 01月12日
AI大规模降本?又一个媲美o1的“开源推理模型”来了,借用阿里模型生成数据,训练成本竟然不到450美元!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学伯克利分校Sky Computing Lab发布开源AI推理模型Sky-T1-32B-Preview,其性能与OpenAI早期o1版本相当,而训练成本仅为450美元。这一突破主要得益于合成训练数据的应用,利用阿里巴巴的QwQ-32B-Preview模型生成初始数据,再经GPT-4o-mini重构。该模型使用8个Nvidia H100 GPU机架训练,耗时约19小时。Sky-T1-32B-Preview在数学和编程测试中表现优异,但在博士级科学问题上稍逊于o1预览版。尽管如此,它证明了低成本高效复制高级推理能力的可行性。

🚀Sky-T1-32B-Preview模型以极低的450美元成本,实现了与OpenAI早期o1版本相当的推理能力,标志着低成本AI模型训练成为可能。

💡该模型训练成本大幅降低的关键在于采用了合成训练数据,即利用阿里巴巴的QwQ-32B-Preview模型生成初始数据,再由GPT-4o-mini进行重构。

📊Sky-T1-32B-Preview在MATH500和LiveCodeBench等基准测试中表现出色,但在GPQA-Diamond测试中略逊于o1预览版,表明其在特定领域的推理能力仍有提升空间。

低成本训练人工智能推理模型的时代到来了?

近日,加州大学伯克利分校Sky Computing Lab的研究团队NovaSky发布了一个名为Sky-T1-32B-Preview的开源人工智能推理模型,这一模型在多项关键基准测试中表现出与OpenAI早期o1版本相当的水平,更令人瞩目的是,其开发成本仅为450美元!

相较于不久前动辄数百万美元的模型开发费用,Sky-T1-32B-Preview可谓是一个巨大的进步。NovaSky团队在博客文章中表示:

“Sky-T1-32B-Preview的训练成本不到450美元,这证明了以低成本、高效率复制高级推理能力是可行的。”

那么,为什么NovaSky团队能大幅降低训练成本?

根据NovaSky团队的报告,开发成本的大幅降低主要得益于合成训练数据的应用——NovaSky团队利用阿里巴巴的QwQ-32B-Preview模型,生成了Sky-T1-32B-Preview的初始训练数据,随后“整理”数据混合,并利用OpenAI的GPT-4o-mini将数据重构为更易用的格式,最终形成了可用的训练集。使用8个Nvidia H100 GPU机架训练320亿参数的Sky-T1-32B-Preview模型,大约需要19个小时。

报告还提到,Sky-T1-32B-Preview在MATH500(一套竞赛级数学挑战题)和LiveCodeBench(一个编程评估集)的部分难题上,表现优于o1的早期预览版;在GPQA-Diamond(包含PhD级别的物理、生物和化学问题)测试中,Sky-T1-32B-Preview1的表现略逊于o1预览版。

不过需要注意的是,OpenAI正式发布的o1版本性能更强,且预计将在未来几周内推出更先进的o3模型。

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Sky-T1-32B-Preview 人工智能 低成本训练 合成数据 推理模型
相关文章