热点
关于我们
xx
xx
"
RL训练
" 相关文章
MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs
cs.AI updates on arXiv.org
2025-07-04T04:08:34.000000Z
解密prompt系列51. R1实验的一些细节讨论
掘金 人工智能
2025-04-02T23:42:45.000000Z
一句话让DeepSeek思考停不下来 北大团队:这是针对AI的DDoS攻击
快科技资讯
2025-03-04T11:29:47.000000Z
一句话让DeepSeek思考停不下来,又有人攻击AI了
虎嗅-AI
2025-03-02T03:22:35.000000Z
一句话让DeepSeek思考停不下来,北大团队:这是针对AI的DDoS攻击
智源社区
2025-03-01T09:07:15.000000Z
Linguistic Imperialism in AI: Enforcing Human-Readable Chain-of-Thought
少点错误
2025-02-21T15:49:46.000000Z
Kimi官方复盘:k1.5复现o1的思考过程
Founder Park
2025-01-23T17:14:55.000000Z
Quick recap on the state of reasoning
Interconnects
2025-01-02T16:05:53.000000Z