热点
"SRFT" 相关文章
同时监督和强化的单阶段大模型微调,告别“先背书再刷题”,推理泛化双提升|中科院&美团等
智源社区 2025-07-03T05:21:46.000000Z