热点
"RLHF" 相关文章
LLMs Are Already Misaligned: Simple Experiments Prove It
少点错误 2025-07-31T06:37:10.000000Z
G-Core: A Simple, Scalable and Balanced RLHF Trainer
cs.AI updates on arXiv.org 2025-07-31T04:48:18.000000Z
LLMs Will Sacrifice Their Goals to Avoid Discomfort: Experimental Evidence
少点错误 2025-07-31T00:02:16.000000Z
不融资、无销售,却爆赚10亿美金,这家华人公司,估值1000亿
36氪 - 科技频道 2025-07-30T12:20:17.000000Z
小红书大模型探索实践:从0到1构建自研RLHF框架
dbaplus社群 2025-07-29T23:59:38.000000Z
AI会谄媚用户的原因,竟然是不够“普信”
36kr 2025-07-28T01:06:08.000000Z
小红书大模型探索实践:从0到1构建自研RLHF框架
dbaplus社群 2025-07-27T09:01:19.000000Z
AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?
智源社区 2025-07-25T09:18:11.000000Z
AI越训练,越会“满嘴跑火车”,普林伯克利重磅揭秘,RLHF竟是罪魁祸首?
36kr-科技 2025-07-25T02:13:47.000000Z
AI越训练,越会「满嘴跑火车」!普林伯克利重磅揭秘,RLHF竟是罪魁祸首?
新智元 2025-07-24T09:36:46.000000Z
On "ChatGPT Psychosis" and LLM Sycophancy
少点错误 2025-07-23T01:14:11.000000Z
The Perils of Optimizing Learned Reward Functions
少点错误 2025-07-11T16:07:35.000000Z
苹果🍎的奇幻漂流,当你提问后,ChatGPT在“想”什么?
掘金 人工智能 2025-07-09T05:43:24.000000Z
难度爆表!从 LLM 到 Infra,手撕 5 大并行训练算法
PaperAgent 2025-07-08T05:59:27.000000Z
ARF-RLHF: Adaptive Reward-Following for RLHF through Emotion-Driven Self-Supervision and Trace-Biased Dynamic Optimization
cs.AI updates on arXiv.org 2025-07-08T05:54:06.000000Z
《ChatGLM/Llama调优实战:从指令微调到RLHF的工业级对齐方案》
掘金 人工智能 2025-07-05T03:16:21.000000Z
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心 2025-07-04T03:33:40.000000Z
价值观对齐:DeepSeek RLHF 实践
掘金 人工智能 2025-06-30T08:45:18.000000Z
盘一盘,2017年Transformer之后,LLM领域的重要论文
机器之心 2025-06-29T12:30:28.000000Z
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南
机器之心 2025-06-22T22:50:49.000000Z