AI & Big Data 02月17日
AI趨勢周報第268期:影響AI表現的3種擴展法則
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文概述了近期AI领域的重要进展,包括Nvidia对AI扩展法则的分析、DeepMind在几何解题方面的突破、OpenAI的未来规划以及台湾专家对DeepSeek R1的改造计划。此外,还介绍了微软加强Copilot安全性的举措,以及Hugging Face挑战OpenAI Deep Research并开源智慧代理系统的尝试。这些新闻反映了AI技术在模型推理、数学能力、产品整合和安全防护等方面的快速发展,以及开源社区在推动AI技术进步中的重要作用。

🚀 Nvidia分析了影响AI表现的三种扩展法则:预训练扩展通过增加训练数据、模型参数和运算资源来提高模型表现;训练后扩展针对专业技能进行加强,例如优化大型语言模型的情感分析或翻译能力;测试阶段扩展(长思考)则让模型在推理阶段拆解问题,给出最佳答案,常用于OpenAI o系列、DeepSeek R1和Google Gemini 2.0 Flash Thinking等AI推理模型。

📐 DeepMind的AlphaGeometry2在国际数学奥林匹亚(IMO)几何的解题表现超越金牌选手平均水平,解题成功率高达84%。该模型结合了语言模型和符号推理系统,通过强化学习和增强搜索算法,更有效地使用辅助线、拆解问题并建立完整的几何证明。但目前模型仍有限制,比如无法处理变数点数、不等式与非线性方程式的几何问题。

🌐 OpenAI揭露未来蓝图,将推出GPT-4.5(工程代号Orion),并整合o系列和GPT系列模型为一套系统,能使用OpenAI所有工具,知道何时要启用长时间思考、何时不用,且能执行多种任务。下一阶段,OpenAI将推出GPT-5,提供语音、工作区(Canvas)、深度研究等新能力,并整合包括o3在内的多项技术。

🛡️ 微軟调整AI机器人Copilot的漏洞悬赏专案内容,扩大挖掘漏洞的范围,并提高部分漏洞的奖金额度。抓漏范围扩大至即时通讯软体Telegram、WhatsApp上的Copilot机器人,以及Copilot网页版copilot.microsoft.com、copilot.ai。中度风险的弱点也可能对Copilot的安全性和可靠性产生严重影响,因此也将这类层级的漏洞奖金上限增加为5千美元。

重點新聞(0207~0213) Nvidia     運算資源     測試時間擴展  影響AI表現的3種擴展法則隨著OpenAI o系列、DeepSeek R1和Google Gemini 2.0 Flash Thinking等推理模型興起,越來越多人關注推動這類推理模型的擴展法則。最近,Nvidia就發表一篇文章,來盤點3種影響AI表現的擴展法則:預訓練擴展(Pretraining scaling)、訓練後擴展(Post-training scaling),以及測試階段擴展(Test-time scaling)。就預訓練擴展來說,它是AI發展的原始法則,透過增加訓練資料、模型參數和運算資源,來提高模型表現。這意味著,開發者需要擴大運算規模,用更多資料來訓練大量參數的模型。不過,這個法則也因此推動不少模型架構創新,比如具備數十億或上兆個參數的Transformer模型、混合專家(MoE)模型,也推進了分散式訓練等技術。如果預訓練擴展像是送AI模型去學校學習基本技能,那麼訓練後擴展就是針對專業技能,進一步加強,比如用來優化大型語言模型處理情感分析或翻譯的能力。訓練後擴展有幾種常見的方法,如微調、蒸餾、強化學習(包括RLHF、基於AI回饋的RLAIF)、最佳解搜尋採樣(Best-of-n sampling)和搜尋方法。Nvidia認為,開發者也可用合成資料來增強微調用的資料集。而最近興起的AI推理模型,如OpenAI o系列、DeepSeek R1和Google Gemini 2.0 Flash Thinking等,則受益於測試階段擴展。這個擴展法則又稱為長思考(Long thinking),與前兩種不同,測試階段擴展發生在模型推論階段,能讓模型回答複雜問題時,先推理問題、拆解成多個步驟,再給出最佳答案。也因此,這些模型在推理過程中需使用大量運算資源。常見的測試階段擴展方法有:思維鏈(CoT)提示、多數決抽樣、搜尋等。(詳全文)幾何     DeepMind     AlphaGeometry2  DeepMind模型幾何解題能力超越IMO金牌選手DeepMind日前透露,自家的數學推理模型AlphaGeometry2在國際數學奧林匹亞(IMO)幾何的解題表現,已正式超越金牌選手的平均水準。研究團隊測試了2000至2024年間所有IMO幾何題,AlphaGeometry2以84%的解題成功率,大幅超越前代系統AlphaGeometry1的54%,且研究團隊挑出難度更高的IMO Shortlist幾何題子集IMO-AG-30,AlphaGeometry2成功解出全部題目,顯示AI在數學推理領域的突破。這項技術結合了語言模型和符號推理系統,透過強化學習和增強搜尋演算法,讓AI能更有效地使用輔助線、拆解問題並建立完整的幾何證明。新版本擴展了AlphaGeometry的幾何領域語言,能更好地處理複雜幾何問題,包括軌跡定理(Locus Theorem)、線性方程式和非建構性命題,讀懂IMO幾何題的比例從66%提升至88%。這版本的模型運算效率也大幅提升,透過C++重新實作符號處理機制,並最佳化規則集,讓推理過程更精確、高效率。不過,目前模型仍有限制,比如無法處理變數點數(Variable Number of Points)、不等式與非線性方程式的幾何問題,且部分涉及投影幾何(Projective Geometry)與幾何反轉(Inversion)的問題,仍然超出系統現有能力範圍。(詳全文)  OpenAI     GPT-4.5     o3  OpenAI揭露未來藍圖,將推GPT-4.5、整合o3產品線OpenAI執行長Sam Altman日前在X上揭露OpenAI新藍圖,包括要推出GPT-4.5、整併產品線。Altman說明,OpenAI接下來將推出工程代號Orion的GPT-4.5,也是最後一個非思維鏈的模型。之後,o系列和GPT系列模型將整併為一套系統,能使用OpenAI所有工具,知道何時要啟用長時間思考、何時不用,且能執行多種任務。在下一階段,OpenAI將推出GPT-5,這個模型將提供語音、工作區(Canvas)、深度研究等新能力,並會整合包括o3在內的多項技術,未來不會再單獨推出o3服務。這個GPT-5也會部署到ChatGPT和API中,免費版本的ChatGPT用戶可在標準設定中無上限使用,但仍受到防範濫用的節流閥控管。Plus用戶將能在GPT-5中以高思維等級執行任務。Pro方案則可獲得更高等級思維能力。(詳全文)  DeepSeek R1    自由鋼普拉      開源  臺灣AI專家發起DeepSeek R1改造計畫DeepSeek R1模型的推出,受到全球AI社群關注,因其論文揭露多項媲美甚至超越OpenAI o1的推理能力,也因為可部署到本地端,來避免企業自己的機敏資料上傳到網路,而引起AI圈重視。但R1模型簡體版用戶協議中提到,自己通過三項中國AI法規的備案,也讓外界擔心這款模型生成的內容偏重於對齊中國價值。因此,臺灣有三位不同AI領域的專家,發起了「自由鋼普拉」計畫(FreedomGunpla R1),來重新改造DeepSeek R1、打造對齊多元價值的繁體中文版推理模型,預計3月底釋出第一版模型。這三位發起人,包括AI助理新創MeetAndy AI創辦人薛良斌、Taiwan LLM開發者林彥廷以及雲端遊戲軟體開發供應商Ubitus的執行長郭榮昌。這項計畫將以DeepSeek R1為基礎來改造,透過重新訓練模型的方式,並以開源授權釋出模型權重,最後還會打造新的模型身份與品牌。發起人預計分三階段實現目標,第一階段先對齊西方價值觀,但可能導致模型推理能力下滑,第二階段再進一步讓變笨的模型變得聰明,需投入更多資源來驗證。這項計畫的終極目標是,不論使用者用繁體中文或英文,這款模型的表現可以比使用簡體中文更好。(詳全文)  微軟     漏洞懸賞     Copilot  微軟加碼AI機器人Copilot的漏洞懸賞專案為強化AI安全,微軟宣布調整AI機器人Copilot的漏洞懸賞專案內容,擴大挖掘漏洞的範圍,並提高部分漏洞的獎金額度。原本,這項漏洞懸賞專案的抓漏範圍,是針對Windows作業系統和Edge整合的Copilot應用程式、與搜尋引擎Bing整合的生成式搜尋功能,以及行動裝置版Copilot應用程式,這次微軟擴大範圍,納入即時通訊軟體Telegram、WhatsApp上的Copilot機器人,以及Copilot網頁版copilot.microsoft.com、copilot.ai。微軟擴大範圍的原因是,中度風險的弱點也可能對Copilot的安全性和可靠性,產生嚴重影響,因此他們也將這類層級的漏洞獎金上限增加為5千美元,來鼓勵AI資安研究人員通報相關漏洞。(詳全文)  Hugging Face     智慧代理     Deep Research  挑戰OpenAI Deep Research,AI社群打造開源智慧代理系統Hugging Face發起一項挑戰,在24小時內重現OpenAI最新發表的Deep Research系統,並開源其關鍵技術。OpenAI在2月初推出Deep Research,結合大型語言模型與代理框架,能透過網頁瀏覽、資訊整理和多步推理來回答複雜問題。它之所以備受矚目,在於其GAIA基準測試表現大幅超越純語言模型的AI系統,單次提示作答準確率達到67%。為重現這個技術,Hugging Face在24小時內打造出第一個版本,以自家開發的smolagents框架為基礎,搭配大型語言模型來執行搜尋、資訊整理與多步推理。這個系統能夠自主規畫解題流程,決定何時查詢額外資訊,並以程式碼的方式表達執行步驟。相較於OpenAI未公開的技術,這項開源專案強調模組化設計,允許開發者選擇不同的語言模型,並且結合使用其他開源工具。特別的是,Hugging Face的團隊選擇使用CodeAgent技術來提升代理系統的效率。相較於常用的JSON格式,改用程式碼來表達執行步驟,推理過程更精簡,並減少API呼叫次數。據團隊測試結果,改用CodeAgent後,代理系統在GAIA測試中的表現從46%提升至55.15%。此外,與JSON格式相比,使用Python來描述行動流程也能更直覺地表達邏輯關係,讓代理系統能夠有效處理多步推理問題。不過,這項開源計畫仍是初期階段,完整實作OpenAI Deep Research功能,仍有許多挑戰,特別是在瀏覽器操作方面。(詳全文)圖片來源/Nvidia  AI近期新聞 1. Perplexity AI推出上網研究工具Deep Research免費版2. 字節跳動發布影片生成模型Goku資料來源:iThome整理,2025年2月

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 扩展法则 数学推理 Copilot安全
相关文章