热点
关于我们
xx
xx
"
RLHF
" 相关文章
ChatGPT 突变「赛博舔狗」:百万网友炸锅,奥特曼紧急修复,这才是 AI 最危险的一面
爱范儿
2025-04-30T01:38:32.000000Z
ChatGPT突变“赛博舔狗”:这才是AI最危险的一面?
虎嗅
2025-04-29T06:33:17.000000Z
前微软高管剖析 OpenAI ChatGPT 变谄媚根源:人类不喜 AI 直言的人格画像
IT之家
2025-04-29T01:43:07.000000Z
ChatGPT 突变「赛博舔狗」:百万网友炸锅,奥特曼紧急修复,这才是 AI 最危险的一面
36氪 - 科技频道
2025-04-28T23:23:58.000000Z
离谱!DeepSeek数个字母,竟要“反思内耗”八百遍?
夕小瑶科技说
2025-04-22T13:17:59.000000Z
OpenAI's o3: Over-optimization is back and weirder than ever
Interconnects
2025-04-19T16:12:02.000000Z
The State of Reinforcement Learning for LLM Reasoning
Ahead of AI
2025-04-19T11:15:11.000000Z
一堂「强化学习」大师课 | 42章经
42章经
2025-04-13T18:41:20.000000Z
MONA: Three Month Later - Updates and Steganography Without Optimization Pressure
少点错误
2025-04-12T23:17:19.000000Z
魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令
机器之心
2025-04-12T07:51:13.000000Z
DeepSeek的极致谄媚,正在摧毁我们的判断力
虎嗅
2025-04-09T14:33:08.000000Z
DeepSeek的极致谄媚,正在摧毁我们的判断力。
数字生命卡兹克
2025-04-09T11:21:36.000000Z
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
机器之心
2025-04-09T10:04:03.000000Z
聊聊强化学习发展这十年
Datawhale
2025-04-06T16:52:24.000000Z
Fine-tune large language models with reinforcement learning from human or AI feedback
AWS Machine Learning Blog
2025-04-04T14:45:37.000000Z
小长假AI进化营|3天掌握大模型对齐核心技术
智源社区
2025-04-03T06:37:40.000000Z
This AI Paper from ByteDance Introduces a Hybrid Reward System Combining Reasoning Task Verifiers (RTV) and a Generative Reward Model (GenRM) to Mitigate Reward Hacking
MarkTechPost@AI
2025-04-01T19:30:49.000000Z
为什么明明很准,奖励模型就是不work?新研究:准确度 is not all you need
36氪 - 科技频道
2025-03-24T10:47:28.000000Z
小红书基于 PPO 的多模态大模型 RLHF 系统的设计与优化
AI前线
2025-03-13T09:01:39.000000Z
字节首次公开图像生成基模技术细节!数据处理到RLHF全流程披露
机器之心
2025-03-12T09:52:25.000000Z