热点
"RLHF" 相关文章
Matthew Fitzpatrick, CEO of Invisible Technologies – Interview Series
Unite.AI 2025-05-30T17:47:33.000000Z
Pre-Training、Fine-Tuning、SFT、LoRA、RLHF之间有什么关系?
掘金 人工智能 2025-05-29T07:43:06.000000Z
一堂「强化学习」大师课 | 42章经
42章经 2025-05-13T18:26:39.000000Z
ChatGPT 突变「赛博舔狗」:百万网友炸锅,奥特曼紧急修复,这才是 AI 最危险的一面
APPSO 2025-05-08T07:32:28.000000Z
How to specify an alignment target
少点错误 2025-05-01T21:22:27.000000Z
ChatGPT 突变「赛博舔狗」:百万网友炸锅,奥特曼紧急修复,这才是 AI 最危险的一面
爱范儿 2025-04-30T01:38:32.000000Z
ChatGPT突变“赛博舔狗”:这才是AI最危险的一面?
虎嗅 2025-04-29T06:33:17.000000Z
前微软高管剖析 OpenAI ChatGPT 变谄媚根源:人类不喜 AI 直言的人格画像
IT之家 2025-04-29T01:43:07.000000Z
ChatGPT 突变「赛博舔狗」:百万网友炸锅,奥特曼紧急修复,这才是 AI 最危险的一面
36氪 - 科技频道 2025-04-28T23:23:58.000000Z
离谱!DeepSeek数个字母,竟要“反思内耗”八百遍?
夕小瑶科技说 2025-04-22T13:17:59.000000Z
OpenAI's o3: Over-optimization is back and weirder than ever
Interconnects 2025-04-19T16:12:02.000000Z
The State of Reinforcement Learning for LLM Reasoning
Ahead of AI 2025-04-19T11:15:11.000000Z
一堂「强化学习」大师课 | 42章经
42章经 2025-04-13T18:41:20.000000Z
MONA: Three Month Later - Updates and Steganography Without Optimization Pressure
少点错误 2025-04-12T23:17:19.000000Z
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
机器之心 2025-04-12T07:51:13.000000Z
DeepSeek的极致谄媚,正在摧毁我们的判断力
虎嗅 2025-04-09T14:33:08.000000Z
DeepSeek的极致谄媚,正在摧毁我们的判断力。
数字生命卡兹克 2025-04-09T11:21:36.000000Z
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
机器之心 2025-04-09T10:04:03.000000Z
聊聊强化学习发展这十年
Datawhale 2025-04-06T16:52:24.000000Z
Fine-tune large language models with reinforcement learning from human or AI feedback
AWS Machine Learning Blog 2025-04-04T14:45:37.000000Z