SFT_Fishai

热点

"SFT" 相关文章

【ERNIEKit】基于ERNIE4.5-0.3B大模型微调的心理咨询师大模型全流程

掘金人工智能 2025-08-03T07:52:37.000000Z

Learning to Align Human Code Preferences

cs.AI updates on arXiv.org 2025-07-29T04:22:14.000000Z

「DeepSeek二代」来袭！数学暴击o3，英伟达开源LLM登顶

新智元 2025-07-20T17:17:10.000000Z

SFT-指令微调是什么？SFT的流程是怎样的？

掘金人工智能 2025-07-17T07:50:58.000000Z

Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process

cs.AI updates on arXiv.org 2025-07-15T04:24:28.000000Z

A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning

cs.AI updates on arXiv.org 2025-07-14T04:08:32.000000Z

科学家揭示训练代码执行器受限于模型能力，指明智能体要融入符号计算

MIT 科技评论 - 本周热榜 2025-07-13T16:21:35.000000Z

英伟达大牛主讲！斯坦福吴恩达：大语言模型的后训练课程全网发布

Datawhale 2025-07-10T16:57:13.000000Z

豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%

钛媒体：引领未来商业与生活新知 2025-07-10T07:57:13.000000Z

苹果🍎的奇幻漂流，当你提问后，ChatGPT在“想”什么？

掘金人工智能 2025-07-09T05:43:24.000000Z

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training

cs.AI updates on arXiv.org 2025-07-09T04:01:40.000000Z

AI产品经理必看的大模型微调劝退指南丨实战笔记

掘金人工智能 2025-07-09T03:14:27.000000Z

怎么通俗易懂地理解AI大模型微调？一篇大白话文章解释模型微调！

掘金人工智能 2025-06-18T08:03:15.000000Z

如何使用LoRA通过微调增强大模型

掘金人工智能 2025-06-18T05:54:14.000000Z

一招缓解LLM偏科！调整训练集组成，“秘方”在此 | 上交大&上海AI Lab等

智源社区 2025-06-11T11:17:50.000000Z

纯蒸馏模型 SOTA 出现！直接 SFT 成本直降 50 倍，数据已全部开源

AI科技评论 2025-05-21T12:07:45.000000Z

DeepSeek-R1发布100天后：全面复盘推理大模型复现研究及未来！

PaperAgent 2025-05-08T07:22:57.000000Z

86 条 DeepSeek 的关键思考｜Best Ideas 开源

海外独角兽 2025-04-09T10:06:17.000000Z

10篇R1相关的研究全面汇总，万字思考！

Datawhale 2025-03-20T16:32:17.000000Z

Optimizing Training Data Allocation Between Supervised and Preference Finetuning in Large Language Models

MarkTechPost@AI 2025-02-23T20:05:10.000000Z

Copyright © 2019 FISHAI.All Rights Reserved