热点
关于我们
xx
xx
"
RL
" 相关文章
Reinforcement learning and general intelligence
Artificial Fintelligence
2025-06-05T15:40:30.000000Z
一堂「强化学习」大师课 | 42章经
42章经
2025-05-14T18:11:35.000000Z
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经
2025-05-13T18:26:38.000000Z
Open Source RL training landscape grows
Coding with Intelligence
2025-05-09T20:31:04.000000Z
Tsinghua paper: Does RL Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
少点错误
2025-05-05T19:02:29.000000Z
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent | 42章经
42章经
2025-04-28T00:36:29.000000Z
一堂「强化学习」大师课 | 42章经
42章经
2025-04-13T18:41:20.000000Z
Kimi k1.5 背后的长长长长长思考
月之暗面 Kimi
2025-04-09T10:06:20.000000Z
从高等动物的学习过程展望 RL post-training之后的可能路径
孔某人的低维认知
2025-04-09T09:50:59.000000Z
小了 60,500 倍,但更强;AI 的“深度诅咒”
掘金 人工智能
2025-04-01T11:32:47.000000Z
Recent reasoning research: GRPO tweaks, base model RL, and data curation
Interconnects
2025-03-31T16:05:05.000000Z
改错能力是这轮推理模型带来的基础能力之一
孔某人的低维认知
2025-02-27T16:31:23.000000Z
从高等动物的学习过程展望 RL post-training之后的可能路径
孔某人的低维认知
2025-02-19T23:26:24.000000Z
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
量子位
2025-02-11T16:25:01.000000Z
尝试在更一般的领域为LLM RL构建Reward Model
孔某人的低维认知
2025-01-29T17:01:31.000000Z
Kimi官方复盘:k1.5复现o1的思考过程
智源社区
2025-01-23T13:53:28.000000Z
拾象英雄帖:寻找 AGI 同行者
海外独角兽
2024-10-28T10:43:58.000000Z