热点
关于我们
xx
xx
"
DPO
" 相关文章
Learning to Align Human Code Preferences
cs.AI updates on arXiv.org
2025-07-29T04:22:14.000000Z
Unlearning of Knowledge Graph Embedding via Preference Optimization
cs.AI updates on arXiv.org
2025-07-29T04:21:39.000000Z
Customize Amazon Nova in Amazon SageMaker AI using Direct Preference Optimization
AWS Machine Learning Blog
2025-07-23T19:09:14.000000Z
英伟达大牛主讲!斯坦福吴恩达:大语言模型的后训练课程全网发布
Datawhale
2025-07-10T16:57:13.000000Z
AI产品经理必看的大模型微调劝退指南丨实战笔记
掘金 人工智能
2025-07-09T03:14:27.000000Z
怎么通俗易懂地理解AI大模型微调?一篇大白话文章解释模型微调!
掘金 人工智能
2025-06-18T08:03:15.000000Z
Pre-Training、Fine-Tuning、SFT、LoRA、RLHF之间有什么关系?
掘金 人工智能
2025-05-29T07:43:06.000000Z
Fine-tune large language models with reinforcement learning from human or AI feedback
AWS Machine Learning Blog
2025-04-04T14:45:37.000000Z
小长假AI进化营|3天掌握大模型对齐核心技术
智源社区
2025-04-03T06:37:40.000000Z
LLM自学成才变身「预言家」!预测未来能力大幅提升
智源社区
2025-02-26T03:37:13.000000Z
以小博大,微软Phi-4正式发布~
PaperAgent
2024-12-14T09:18:53.000000Z
LLM 就是内容创作者快速通向 O(n!) 表达之路 | 本质和形式系列-叙事结构@散沙
ShowMeAI
2024-11-13T18:54:01.000000Z
【NLP】万字长文梳理LLM+RL(HF)的脉络
机器学习初学者
2024-10-23T07:12:51.000000Z
New LLM Pre-training and Post-training Paradigms
Ahead of AI
2024-10-22T06:07:39.000000Z
活动报名|LLM Alignment综述及RLHF、DPO、UNA的深入分析
智源社区
2024-09-19T08:38:16.000000Z
Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth
AWS Machine Learning Blog
2024-09-09T23:02:15.000000Z
监管新规 | web3.0 企业在新加坡,9 月 30 日前需任命 “数据保护官”,违规或将被处罚
ForesightNews文章
2024-09-04T14:20:45.000000Z
监管新规 | web3.0 企业在新加坡,9 月 30 日前需任命 “数据保护官”,违规或将被处罚
ForesightNews文章
2024-09-04T14:20:45.000000Z
为视觉语言多模态模型进行偏好优化
智源社区
2024-07-17T05:06:39.000000Z
大语言模型的直接偏好优化(DPO)对齐在PAI-QuickStart实践
掘金 人工智能
2024-07-08T01:46:23.000000Z