DPO_Fishai

热点

"DPO" 相关文章

Learning to Align Human Code Preferences

cs.AI updates on arXiv.org 2025-07-29T04:22:14.000000Z

Unlearning of Knowledge Graph Embedding via Preference Optimization

cs.AI updates on arXiv.org 2025-07-29T04:21:39.000000Z

Customize Amazon Nova in Amazon SageMaker AI using Direct Preference Optimization

AWS Machine Learning Blog 2025-07-23T19:09:14.000000Z

英伟达大牛主讲！斯坦福吴恩达：大语言模型的后训练课程全网发布

Datawhale 2025-07-10T16:57:13.000000Z

AI产品经理必看的大模型微调劝退指南丨实战笔记

掘金人工智能 2025-07-09T03:14:27.000000Z

怎么通俗易懂地理解AI大模型微调？一篇大白话文章解释模型微调！

掘金人工智能 2025-06-18T08:03:15.000000Z

Pre-Training、Fine-Tuning、SFT、LoRA、RLHF之间有什么关系？

掘金人工智能 2025-05-29T07:43:06.000000Z

Fine-tune large language models with reinforcement learning from human or AI feedback

AWS Machine Learning Blog 2025-04-04T14:45:37.000000Z

小长假AI进化营｜3天掌握大模型对齐核心技术

智源社区 2025-04-03T06:37:40.000000Z

LLM自学成才变身「预言家」！预测未来能力大幅提升

智源社区 2025-02-26T03:37:13.000000Z

以小博大，微软Phi-4正式发布~

PaperAgent 2024-12-14T09:18:53.000000Z

LLM 就是内容创作者快速通向 O(n!) 表达之路 | 本质和形式系列-叙事结构@散沙

ShowMeAI 2024-11-13T18:54:01.000000Z

【NLP】万字长文梳理LLM+RL(HF)的脉络

机器学习初学者 2024-10-23T07:12:51.000000Z

New LLM Pre-training and Post-training Paradigms

Ahead of AI 2024-10-22T06:07:39.000000Z

活动报名｜LLM Alignment综述及RLHF、DPO、UNA的深入分析

智源社区 2024-09-19T08:38:16.000000Z

Align Meta Llama 3 to human preferences with DPO, Amazon SageMaker Studio, and Amazon SageMaker Ground Truth

AWS Machine Learning Blog 2024-09-09T23:02:15.000000Z

监管新规 | web3.0 企业在新加坡，9 月 30 日前需任命 “数据保护官”，违规或将被处罚

ForesightNews文章 2024-09-04T14:20:45.000000Z

监管新规 | web3.0 企业在新加坡，9 月 30 日前需任命 “数据保护官”，违规或将被处罚

ForesightNews文章 2024-09-04T14:20:45.000000Z

为视觉语言多模态模型进行偏好优化

智源社区 2024-07-17T05:06:39.000000Z

大语言模型的直接偏好优化（DPO）对齐在PAI-QuickStart实践

掘金人工智能 2024-07-08T01:46:23.000000Z

Copyright © 2019 FISHAI.All Rights Reserved