IT之家 2024年12月14日
360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

360 自研 AI 大模型 360gpt2-o1 推出,推理能力提升,在数学和逻辑推理任务上表现出色。该模型通过多种技术实现突破,并在多项评测中取得优异成绩。

360gpt2-o1推理能力显著提升,在数学和逻辑推理任务中表现佳

通过合成数据优化等方法解决数据稀缺问题,扩充训练数据集

采用两阶段训练策略,提升模型推理和反思纠错能力

利用‘慢思考’范式,模拟人类逐步推理和反思过程

IT之家 12 月 14 日消息,“360 智脑”官方公众号昨日(12 月 13 日)发布博文,宣布推出 360 自研 AI 大模型 360gpt2-o1,推理能力显著提升,在数学和逻辑推理任务上表现出色。

该模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,并在多项权威评测中取得了优异成绩。

在多项基础数学评测(如 MATH、高考数学)以及权威数学竞赛(包括 AIME24、AMC23)中,360gpt2-o1 均取得了显著的成绩,不仅超越了前代模型 360gpt2-pro,也优于 GPT-4o 模型。

在数学竞赛评测中,360gpt2-o1 超过了阿里巴巴最新开源的 o1 系列模型 QWQ-32B-preview。IT之家附上该模型整体架构如下:

优化合成数据

该模型通过指令合成、质量 / 多样性筛选等方法,解决了高质量数学与逻辑推理数据稀缺的问题,有效扩充了训练数据集。

模型后训练

该模型采用两阶段训练策略,先用小模型生成多样化的推理路径,再用大模型进行 RFT 训练和强化学习训练,提升模型推理能力和反思纠错能力。

“慢思考”范式

利用蒙特卡洛树搜索探索多样化解决方案,并引入 LLM 进行错误验证和纠错,模拟人类逐步推理和反思的过程,最终形成包含反思、验证、纠错和回溯的长思维链。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

360gpt2-o1 AI 大模型 推理能力 技术突破
相关文章