OpenAI的研究科學家Alexander Wei上周六(7/19)宣布,OpenAI實驗性的推理大型語言模型在世界最負盛名的數學競賽—國際數學奧林匹亞(International Math Olympiad,IMO)取得了金牌等級的成績。Wei在X上展示了一張草苺掛上金牌的照片,外界猜測或許代表其專案名稱為Strawberry。
IMO是一項針對高中生的全球性數學競賽,在兩天的競賽中各提供4.5小時的時間來解決涵蓋不同領域的3道數學題目,每道題最高為7分,金牌門檻每年不一,通常落在31~42分之間,今年數奧甫於上周結束,金牌門檻為35分,有67名同學獲得金牌。OpenAI採用與人類參賽者同樣的規則,不使用工具或網路,讓模型閱讀官方問題的陳述,再以自然語言撰寫證明,它解決了5道題目,得到35分,剛好為今年的金牌門檻。
Google DeepMind的AlphaProof模型也曾在2024年挑戰數奧,它解決了4道題目,得到28分,距去年金牌門檻只有1分之遙。
Wei說,相較於過去的基準測試,IMO需要持續的思考能力,此一結果意味著模型的推理時間範圍,已從只需要0.1分鐘的GSM8K、約1分鐘的MATH、10分鐘的AIME,擴展至可能需要100分鐘的IMO,從簡單的快速運算到處理需要長時間思考的複雜問題,同時媲美人類頂尖數學家。
此外,除了結果本身,Wei更對他們所使用的方法感到興奮,因為他們並非透過狹隘、針對特定任務的方法,而是在通用強化學習及推理時擴充運算能力上開創了新局面。
不過,該達到數奧金牌等級的大型語言模型仍只是個實驗性的研究模型,並非商業產品,OpenAI短期內、至少在數個月內都不會釋出類似的功能。但外界可以期待的是OpenAI即將發表GPT-5。
該模型很可能是Wei在OpenAI的最後一個作品,因為專注於大型語言模型及推理研究的Wei已於今年7月中跳槽至Meta AI,成為Meta超級智慧實驗室(Meta Superintelligence Labs,MSL)的一員。