RL训练_Fishai

热点

"RL训练" 相关文章

MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMs

cs.AI updates on arXiv.org 2025-07-04T04:08:34.000000Z

解密prompt系列51. R1实验的一些细节讨论

掘金人工智能 2025-04-02T23:42:45.000000Z

一句话让DeepSeek思考停不下来北大团队：这是针对AI的DDoS攻击

快科技资讯 2025-03-04T11:29:47.000000Z

一句话让DeepSeek思考停不下来，又有人攻击AI了

虎嗅-AI 2025-03-02T03:22:35.000000Z

一句话让DeepSeek思考停不下来，北大团队：这是针对AI的DDoS攻击

智源社区 2025-03-01T09:07:15.000000Z

Linguistic Imperialism in AI: Enforcing Human-Readable Chain-of-Thought

少点错误 2025-02-21T15:49:46.000000Z

Kimi官方复盘：k1.5复现o1的思考过程

Founder Park 2025-01-23T17:14:55.000000Z

Quick recap on the state of reasoning

Interconnects 2025-01-02T16:05:53.000000Z

Copyright © 2019 FISHAI.All Rights Reserved