热点
关于我们
xx
xx
"
SFT
" 相关文章
86 条 DeepSeek 的关键思考 |Best Ideas 开源
海外独角兽
2025-04-09T10:06:17.000000Z
10篇R1相关的研究全面汇总,万字思考!
Datawhale
2025-03-20T16:32:17.000000Z
Optimizing Training Data Allocation Between Supervised and Preference Finetuning in Large Language Models
MarkTechPost@AI
2025-02-23T20:05:10.000000Z
SFT并非必需!推理模型仅靠RL就能获得长思维链能力,清华CMU团队破解黑盒
量子位
2025-02-11T16:25:01.000000Z
A High Level Closed-Door Session Discussing DeepSeek: Vision Trumps Technology
少点错误
2025-01-30T09:55:15.000000Z
Qwen AI Introduces Qwen2.5-Max: A large MoE LLM Pretrained on Massive Data and Post-Trained with Curated SFT and RLHF Recipes
MarkTechPost@AI
2025-01-29T07:20:07.000000Z
一文详尽之SFT(监督微调)!
智源社区
2025-01-25T13:38:11.000000Z
张鹏对谈汪华、袁进辉、胡修涵:2025 年,匍匐也要前进,活下来最重要
Founder Park
2025-01-01T14:04:40.000000Z
关于微调导致大模型“降智”的一些思考
夕小瑶科技说
2024-12-03T11:07:42.000000Z
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率
智源社区
2024-11-28T13:53:29.000000Z