中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

IT之家 01月25日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

中国电信人工智能研究院发布了“复杂推理大模型”TeleAI-t1-preview，该模型采用强化学习训练方法，引入探索和反思机制，显著提升了在逻辑推理和数学推导等复杂问题上的准确性。在多项基准测试中，TeleAI-t1-preview的表现超越了OpenAI o1-preview和GPT-4o等模型，并在研究生级别问答测试中与Claude 3.5 Sonnet的性能相当。该模型能够理解文言文，进行古今单位换算，并将形象思维与抽象思维结合，辅助理解题目。其训练策略包括高质量推理数据集、评估模型、监督微调和强化学习等多个阶段，确保推理过程的准确性和有效性。

🚀 TeleAI-t1-preview 使用强化学习训练方法，引入探索和反思等思考范式，大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

🏆 在美国数学竞赛 AIME 2024 和 MATH500 两项数学基准评测中，TeleAI-t1-preview 成绩显著超越 OpenAI o1-preview、GPT-4o 等标杆模型，并在研究生级别问答测试 GPQA Diamond 中得分超过 GPT-4o。

🧮 TeleAI-t1-preview 能够理解和简化文言文，进行现代汉语转换，并给出数学推导和答案，同时结合形象思维与抽象思维进行具象化思考，辅助理解题目，并严谨进行古今单位换算。

🧠 该模型通过创新的训练策略，包括高质量推理数据集、Judge Model（评估模型）、SFT（监督微调）和强化学习阶段，确保思考推理过程准确有效，并通过 MCTS 构造高质量长推理数据，结合 Judge Model 进行反思和修正。

IT之家 1 月 25 日消息，IT之家从中国电信人工智能研究院获悉，其“复杂推理大模型”TeleAI-t1-preview 现已正式发布，即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用了强化学习训练方法，通过引入探索、反思等思考范式，大幅提升模型在逻辑推理、数学推导等复杂问题的准确性。

官方表示，在美国数学竞赛 AIME 2024 、MATH500 两项数学基准评测中，TeleAI-t1-preview 分别以 60 和 93.8 分的成绩，大幅超越 OpenAI o1-preview、GPT-4o 等标杆模型。在研究生级别问答测试 GPQA Diamond 中，TeleAI-t1-preview 得分超过 GPT-4o，并比肩 Claude 3.5 Sonnet 的性能水准。

评测显示，将《九章算术》中的一道题目给到 TeleAI-t1-preview 后，其能够先针对文言文进行理解和简化，再转换成现代汉语，随之给出数学推导和答案。

据介绍，在此过程中，TeleAI-t1-preview 可将形象思维与抽象思维结合，对所涉及的场景进行具象化思考，辅助理解题目。不仅如此，其还能够严谨地进行古今单位换算。

TeleAI 引入了创新的训练策略，从而保障思考推理过程准确有效。

数据准备阶段：收集、构建了一个以数学为核心、多学科为补充的高质量推理数据集，确保模型能够适应不同类型的推理任务。

Judge Model（评估模型）：训练了一个 Judge Model 专门用于分析和评估模型长思考链路的正确性，为模型的反思和错误修正提供指导。

SFT（监督微调）阶段：用 MCTS（蒙特卡洛树搜索）构造高质量长推理数据，结合每个步骤的准确率和解决方案长度来选择最优的完整路径，在保证推理答案准确性的同时有效拉长思考链路以获得更细粒度的推理过程。同时使用 Judge Model 对推理过程中正确率较低的路径进行分析，引导模型对错误的推理步骤进行反思和修正，从而构造出高质量的思维链数据进行 SFT 训练。

强化学习阶段：额外构造了 Rule-based Reward Model（基于规则的奖励模型），以提供足够准确的奖励信号，通过在线强化学习算法进一步提升模型的逻辑推理能力。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签