IT之家 01月25日
中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国电信人工智能研究院发布了“复杂推理大模型”TeleAI-t1-preview,该模型采用强化学习训练方法,引入探索和反思机制,显著提升了在逻辑推理和数学推导等复杂问题上的准确性。在多项基准测试中,TeleAI-t1-preview的表现超越了OpenAI o1-preview和GPT-4o等模型,并在研究生级别问答测试中与Claude 3.5 Sonnet的性能相当。该模型能够理解文言文,进行古今单位换算,并将形象思维与抽象思维结合,辅助理解题目。其训练策略包括高质量推理数据集、评估模型、监督微调和强化学习等多个阶段,确保推理过程的准确性和有效性。

🚀 TeleAI-t1-preview 使用强化学习训练方法,引入探索和反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

🏆 在美国数学竞赛 AIME 2024 和 MATH500 两项数学基准评测中,TeleAI-t1-preview 成绩显著超越 OpenAI o1-preview、GPT-4o 等标杆模型,并在研究生级别问答测试 GPQA Diamond 中得分超过 GPT-4o。

🧮 TeleAI-t1-preview 能够理解和简化文言文,进行现代汉语转换,并给出数学推导和答案,同时结合形象思维与抽象思维进行具象化思考,辅助理解题目,并严谨进行古今单位换算。

🧠 该模型通过创新的训练策略,包括高质量推理数据集、Judge Model(评估模型)、SFT(监督微调)和强化学习阶段,确保思考推理过程准确有效,并通过 MCTS 构造高质量长推理数据,结合 Judge Model 进行反思和修正。

IT之家 1 月 25 日消息,IT之家从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 现已正式发布,即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法,通过引入探索、反思等思考范式,大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

官方表示,在美国数学竞赛 AIME 2024 、MATH500 两项数学基准评测中,TeleAI-t1-preview 分别以 60 和 93.8 分的成绩,大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 得分超过 GPT-4o,并比肩 Claude 3.5 Sonnet 的性能水准。

评测显示,将《九章算术》中的一道题目给到 TeleAI-t1-preview 后,其能够先针对文言文进行理解和简化,再转换成现代汉语,随之给出数学推导和答案。

据介绍,在此过程中,TeleAI-t1-preview 可将形象思维与抽象思维结合,对所涉及的场景进行具象化思考,辅助理解题目。不仅如此,其还能够严谨地进行古今单位换算。

TeleAI 引入了创新的训练策略,从而保障思考推理过程准确有效。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TeleAI-t1-preview 复杂推理大模型 强化学习 数学推理 中国电信
相关文章