掘金 人工智能 07月09日 11:14
AI产品经理必看的大模型微调劝退指南丨实战笔记
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了在大型语言模型(LLM)领域,为何微调并非万能良药,以及不同微调方法的工程挑战。文章深入分析了CPT、SFT(文本和视觉理解)以及DPO等多种微调技术,强调了数据量、数据质量、训练时长等方面的考量。尤其指出,在视觉理解领域,微调的需求日益增长,但同时也面临着图像内容难以完全用语言概括的挑战。文章旨在帮助读者全面了解微调,从而在实际应用中做出更明智的决策。

📈 CPT(Continuous Pre-training)通过引入垂直领域的解释文本来帮助模型学习新知识。然而,CPT对数据量和质量要求极高,例如可能需要1000万token(约1500万字)的训练数据集,且需要是纯文本段落。训练时长也较长,短则几十小时,长则几天。

💬 SFT(Supervised Fine-tuning)通过QA对引导模型按指定结构和风格生成文本。SFT至少需要1000个json QA对,且回答文案质量要求高。为了防止过拟合,需要结合通用知识。SFT有全参和LoRA两种方式,前者质量好但慢,后者快但效果弱。训练时间从几十分钟到不等。

🖼️ SFT在视觉理解方面的微调需求日益增长,特别是在图像模型相对较少的情况下。例如,LaTeX的图像识别需要高精度,因此需要微调来实现。数据量需求较大,例如公式识别项目可能需要10万条数据。需要注意的是,图像内容难以完全用语言概括,需要特殊处理。

🙅 DPO(Direct Preference Optimization)通过负面回复来指导模型避免不当行为。DPO所需数据量相对较少,只需一两百条数据即可。DPO的关键在于QA对的质量。DPO比结构化提示词中的约束更有效,因为模型在微调中更容易理解,但是需要设计错误回答的示例。

哈喽,大家好👏🏻

我是阿星!

接上回啥时候上RAG?啥时候上微调?丨实战笔记里说到的——

为什么没事儿不要想着微调?

先来看这个金融模型case的微调用了多少数据👇🏻

📈 CFGPT: Chinese Financial Assistant with Large Language Model

这只是量级上的吓人,况且微调对数据的要求比rag要严。

下面就是几种常见的微调方式(不严谨地暂且这么分类),为什么会让工程难度增加。

不管你是不是AI产品经理,都应该过一眼,了解清楚这些东西的原理,

这样别人跟你说微调的时候,你就可以根据这些分类,做到心中有数。

CPT:

CPT是通过引入更多垂直概念对应的解释文本,来让模型学会新知识

{"text":"基本竞争战略是由美国哈佛商学院著名的战略管理学家迈克尔·波特提出的,分别为:成本领先战略,差异化战略,集中化战略.企业必须从这三种战略中选择一种,作为其主导战略.要么把成本控制到比竞争者更低的程度;要么在企业产品和服务中形成与众不同的特色,让顾客感觉到你提供了比其他竞争者更多的价值;要么企业致力于服务于某一特定的市场细分,某一特定的产品种类或某一特定的地理范围."}{"text":"交通运行监测调度中心,简称TOCC(Transportation Operations Coordination Center)TOCC围绕综合交通运输协调体系的构建,实施交通运行的监测,预测和预警,面向公众提供交通信息服务,开展多种运输方式的调度协调,提供交通行政管理和应急处置的信息保障.\nTOCC是综合交通运行监测协调体系的核心组成部分,实现了涵盖城市道路,高速公路,国省干线三大路网,轨道交通,地面公交,出租汽车三大市内交通方式,公路客运,铁路客运,民航客运三大城际交通方式的综合运行监测和协调联动,在综合交通的政府决策,行业监管,企业运营,百姓出行方面发挥了突出的作用."}{"text":"美国职业摄影师协会(简称PPA)创立于1880年,是一个几乎与摄影术诞生历史一样悠久的享誉世界的非赢利性国际摄影组织,是由世界上54个国家的25000余名职业摄影师个人会员和近二百个附属组织和分支机构共同组成的,是世界上最大的专业摄影师协会.本世纪初PPA创立了美国视觉艺术家联盟及其所隶属的美国国际商业摄影师协会,美国新闻及体育摄影师协会,美国学生摄影联合会等组织.PPA在艺术,商业,纪实,体育等摄影领域一直引领世界潮流,走在世界摄影艺术与技术应用及商业规划管理的最前沿."}

SFT-文本模型微调

{    "messages": [{        "role": "system",        "content": "You are a helpful assistant"    }, {        "role": "user",        "content": "谁在文艺复兴时期绘制人体?"    },{        "role": "assistant",        "content": "文艺复兴时期是一个关于艺术、文化和学术的复兴运动,在这个时期,许多艺术家都绘制了人体。"    }]}

SFT-视觉理解微调

DPO

{"messages":[{"role":"user","content":"你能帮我写一篇关于环境保护的文章吗?"}],"chosen":{"role":"assistant","content":"当然可以。环境保护是一个非常重要的话题,我们可以从减少碳排放、保护森林和水资源、推广可再生能源等方面来入手。你想要文章的具体方向和字数是多少呢?"},"rejected":{"role":"assistant","content":"可以的,环境保护是一个重要的话题。"}……

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

微调 LLM CPT SFT DPO
相关文章