热点
关于我们
xx
xx
"
推理任务
" 相关文章
10步优化超越强化学习,仅需1条未标注数据,后训练强势破局
36氪 - 科技频道
2025-06-04T11:34:17.000000Z
ByteDance Introduces VAPO: A Novel Reinforcement Learning Framework for Advanced Reasoning Tasks
MarkTechPost@AI
2025-04-10T16:10:36.000000Z
出人意料!DeepSeek-R1用的GRPO其实非最优?规模化强化学习训练用PPO就够了
机器之心
2025-02-21T05:49:07.000000Z
Microsoft AI Introduces Phi-4: A New 14 Billion Parameter Small Language Model Specializing in Complex Reasoning
MarkTechPost@AI
2024-12-13T04:19:57.000000Z
SiliconCloud上线QwQ-32B-Preview:数学能力超越o1推理模型
硅基流动
2024-11-29T11:14:32.000000Z
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
IT之家
2024-11-20T15:07:14.000000Z
大模型“取长补短”新思路入选NeurIPS'24,显著优于现有路由方法,南科大港科大出品
智源社区
2024-11-15T13:07:17.000000Z
大模型“取长补短”新思路入选NeurIPS'24,显著优于现有路由方法,南科大港科大出品
36氪 - 科技频道
2024-11-14T10:13:40.000000Z
Efficient Function Calling in Small-Scale LLMs: A Game-Changer for AI Reasoning Tasks
MarkTechPost@AI
2024-11-03T16:35:52.000000Z
实测OpenAI最强模型o1:会做大学数理化 但弱智吧依然难解
快科技资讯
2024-09-13T15:46:52.000000Z
OpenAI发布具有推理能力的人工智能模型o1
界面快报
2024-09-12T23:50:45.000000Z
OpenAI发布具有推理能力的人工智能模型o1
36氪
2024-09-12T23:30:56.000000Z
微软「小而美」系列三连发,视觉小钢炮PK GPT-4o,MoE新秀力压Llama 3.1
36kr-科技
2024-08-21T09:51:41.000000Z