AI & Big Data 02月07日
美國另一研究團隊以20美元開發效能超越o1-preview的AI模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

华盛顿大学和斯坦福大学的研究团队近期公布了一项突破性研究成果,他们使用一种新开发的低成本方法,仅用小样本数据集就训练出了推理效能超越OpenAI o1-preview的AI模型。该团队使用1000个问题的资料集训练出s1-32B模型,并在数学测验AIME24及MATH等测试中超越了o1-preview。研究人员仅花费20美元租用设备进行开发,并通过“Budget Forcing”方法控制推论时间。这项研究表明,即使在资源有限的情况下,也能通过创新方法训练出高效能的AI模型。

🔬研究团队通过集结1,000道问题,以及从Gemini Thinking Experimental生成的答案及推理过程组成s1K资料集,实现了小样本训练,并在16颗H100 GPU平台上执行Qwen2.5-32B-Instruct进行监督式微调。

💰研究团队仅花费20美元租用设备进行此次开发,通过名为“Budget Forcing”的方法控制推论时间,展示了极低的开发成本。

📊在MATH及AIME24等标竿测试中,s1-32B超越o1-preview,并且在扩充后,AIME24测试成果由50%提升至57%,验证了其卓越的推理性能。

🚀该模型已在GitHub上开源,为其他研究人员提供了参考和学习的资源,促进了低成本高效能AI模型训练领域的发展。

美國華盛頓大學及史丹佛大學研究團隊本周公布最新研發成果,以極低成本使用新開發方法,可以小樣本資料集訓練出推論效能超過o1-preview的AI模型。成員來自華盛頓大學及史丹佛大學的研究團隊發表論文,他們以僅1,000個問題資料集訓練出s1-32B模型,並在數學測驗AIME24及MATH等標竿測試成果超越o1-preview。目前業界大型語言模型主要是以大規模運算訓練提升模型能力,OpenAI o1模型已開始使用這種新興方法。但上述研究團隊探索以最簡單方法進行測試時擴展(test-time scaling)建模,且實現強大的推理能力。研究人員嘗試小樣本訓練;他們集結1,000道問題,以及從Gemini Thinking Experimental生成的答案及推理過程組成s1K資料集。在環境上,團隊在16顆H100 GPU平臺上執行Qwen2.5-32B-Instruct進行監督式微調。研究人員告知Techcrunch,他們僅花了20美元租用設備進行此次開發。在測試期間他們使用了名為「Budget Forcing」的方法控制推論時間。最後,研究人員將訓練出的s1-32B與市面主要非開放及開放模型進行標竿測試比較。在MATH及AIME24中,s1-32B超越o1-preview,而在擴展後,還可進一步提升AIME24測試成果由50%提升為57%。圖片來源/arXiv:2501.19393研究團隊也比較了s1-32B和DeepSeek r1和o1,測試結果並不如後二者。但研究團隊解釋,這是因為DeepSeek r1和o1都使用了大量數據進行強化學習,而s1-32B則僅使用1,000個精選資料進行微調,因此仍是最具樣本效率的模型。本模型已開源於GitHub上。大學研究人員不斷在以更低成本訓練高效能AI模型。今年初史丹佛大學另一團隊也用了約450美元來訓練效能近似o1-previes的模型。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 小样本学习 低成本训练 开源 H100 GPU
相关文章