AI & Big Data 01月14日
研究人員開源效能比美o1 Preview的推理AI模型,訓練成本僅450美元
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

加州大学伯克利分校的研究人员开源了他们自建的推理AI模型Sky-T1-32B-Preview,该模型仅用450美元的训练成本,在常见理解和编程测试中,性能与OpenAI的o1-preview相当。研究团队的初衷是解决现有推理模型技术细节和权重不开源的问题,并开发一个涵盖更广领域的开源推理模型。他们使用QwQ-32B-Preview模型生成训练数据,并经过微调,最终在数学和编码基准测试中取得了优异成绩。该模型的开源展示了低成本训练方法也能有效复制高阶推理能力。

💡Sky-T1-32B-Preview模型由加州大学伯克利分校的NovaSky团队开发,旨在提供一个低成本、高性能的开源推理模型,与OpenAI的o1-preview性能相当。

🎯该模型使用约17,000笔数据进行训练,包括APPs和TACO数据库的编程数据、NuminaMATH数据集的数学数据,以及STILL-2生成的科学和解题数据,覆盖了多个领域。

⚙️研究团队使用QwQ-32B-Instruct作为基础模型,通过DeepSpeed Zero-3 offload优化技术在8颗H100平台上进行微调,仅用19小时完成训练,成本不到450美元,证明了低成本训练方法的可行性。

📊在数学和编码基准测试中,Sky-T1-32B-Preview模型的表现优于基础模型Qwen-2.5-32B-Instruct,且与OpenAI的o1-preview相当,展示了其卓越的推理能力。

美國柏克萊大學研究人員上周開源他們自建的推理(reasoning)AI模型,訓練成本只要450美元。柏克萊大學(UC of Berkeley)Sky Computing實驗室下的NovaSky團隊,上周發表了Sky-T1-32B-Preview推理模型,宣稱在常見的理解及程式標竿測試效能,和OpenAI的o1-preview相當。研究團隊的動機在於,推理模型如OpenAI o1或Gemini 2.0 Flash Thinking Mode能內部產生很長的思維鏈(chain of thought),擅長解決複雜問題。但是這些模型技術細節及模型權重不對外開放,難為學術及開源社群使用。現有Still-2、Journey開源推理模型較側重數學領域,研究團隊因此希望能開發出涵蓋更廣領域的開源推理模型。研究團隊是以QwQ-32B-Preview模型生成訓練資料。經過拒絕採樣(rejection sampling),最後的訓練資料集為約17,000筆資料,包括APPs和TACO資料庫的5,000行程式、NuminaMATH資料集下的AIME、MATH及Olympiads子資料集,以及約1,000筆STILL-2生成的科學和解題資料,以求涵蓋各領域。新模型是以QwQ- 32B-Instruct作為基礎模型微調。在8顆H100的平臺上使用DeepSpeed Zero-3 offload優化技術,並以Llama-Factory花了19小時訓練完成。完成的Sky-T1-32B-Preview模型在數學和編碼基準測試中,效能表現與OpenAI的o1-preview相當。而且所有測試項目結果也優於基礎的Qwen-2.5-32B-Instruct。若不計算硬體,這個模型訓練成本不到450美元,研究人員說,這顯示低成本訓練方法也能有效複製高階推理能力。Sky-T1-32B-Preview模型程式碼、權重等資源已經開源於GitHub上。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

推理AI模型 开源 低成本训练 Sky-T1-32B-Preview 深度学习
相关文章