原创 SiliconCloud 2025-04-24 08:04 北京
简单、高效生成垂域数据。
在推动大模型落地垂直行业领域的过程中,高质量 QA(问答对)数据的获取始终是一个核心难题。
通常来讲,通用领域模型仅需数百条人工标注数据就能学习回复风格,但医疗、农业等垂直领域的模型训练需通过 SFT(有监督微调)输入数十万条数据,才能有效掌握专业知识。然而,这一体量早已超出了人工标注的承受范围,数据合成成为刚需。
专业门槛同样令人头疼。面对“AGIS_Os01g033640 是一个怎样的数量性状基因(QTG),与盐胁迫表达是否有关联?” 这样的问题,非专业者往往难以理解。开源大模型在多个小众领域取得了一定进展,但在专业领域中,“懂词不懂句”的问题普遍存在。
更为棘手的还有质量把控难题:现有的“LLM-RAG-打分”机制用于合成数据时,因 LLM 缺乏领域知识,直接打分往往陷入“先有鸡还是先有蛋”的困境,从而造成准确性不足,并且简单的关联度得分无法全面衡量数据质量,缺乏对回复长度、信息丰富度及语义层面的保障。
“数据体量大、专业门槛高、质量把控难”这三重困境让垂域数据构建步履维艰。为此,上海人工智能实验室研究团队开发了基于知识图谱引导的合成数据生成框架 GraphGen,专为知识密集型任务打造高质量问答数据,该项工作已开源且支持在线使用。
现在,为方便用户使用高效经济的大模型服务生成垂域训练数据,GraphGen 已默认接入硅基流动 SiliconCloud 平台,支持用户按需灵活选择 DeepSeek V3/R1、通义千问 Qwen-2.5/QWQ 在内的数十款 AI 模型。平台还提供 DeepSeek-R1 蒸馏版(1.5B、7B、8B)、Qwen2.5(7B)等免费模型 API,让开发者实现真正意义上的“Token 自由”,生成所需的任意领域数据。
- OpenXLab Web 体验地址:https://g-app-center-000704-6802-aerppvq.openxlab.space/
Github :https://github.com/open-sciencelab/GraphGen
以下为基于 GraphGen 与硅基流动 SiliconCloud 的 Qwen2.5-7B-Instruct API 实际运行生成的 QA 示例:
Q:隆两优1212是什么品种的水稻,其机播时间是什么时候?
A:首先,隆两优1212是一种早熟品种,于2017年引入福建省龙岩市长汀县试种。这种水稻在烟草收获后进行种植,因此被称为烟后稻。隆两优1212的机播时间定在了6月15日。随着时间的推移,到了2019年,隆两优1212进一步扩大了示范种植的范围。此外,隆两优1212还具有抽穗整齐的生长特点,这进一步证明了其优良的种植性能。
Q:What role does the BG1 gene play in plant growth and development, and how is its expression regulated?
A:AUXIN, a class of plant hormones that regulate various aspects of plant growth and development, plays a crucial role in the induction of the BG1 gene. Specifically, BG1 is induced by auxin treatment, indicating its involvement in auxin transport regulation. This gene is preferentially expressed in the vascular tissue of culms, further highlighting its localization in these tissues. The function of BG1 extends beyond auxin transport regulation, as it is also linked to the regulation of grain size and tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain yield, is directly affected by the expression of BG1. Therefore, the role of BG1 in regulating both grain size and tiller angle underscores its importance in plant architecture and overall yield.
GraphGen 工作流程及性能
GraphGen 旨在知识密集型任务中生成问答。这一过程中会用到两个 LLM,一个是合成模型,负责构建知识图谱、合成数据等;另一个是学生模型,用来识别它自己的知识盲点,方便针对性的选择数据。
上图是 GraphGen 工作流:
- 输入一段原始文本,使用合成模型从源文本构建细粒度的知识图谱。
利用预期校准误差(Expected Calibration Error,简称 ECE)来识别学生模型的知识盲点,针对知识盲点优先生成针对高价值、长尾知识的问答对。
GraphGen 框架结合多跳邻域采样来捕捉复杂关联信息,并采用风格控制生成技术使问答数据多样化。
最终得到一系列和原始文本相关的问答对。用户可以直接用这批数据在 llama-factory 或者 xtuner 这样的训练框架中进行 SFT。
研究人员对 GraphGen 与多种主流数据合成方法进行了对比测试,实验采用 MTLD、Uni 和 Rew 等指标。测试数据显示,GraphGen 在词汇丰富度(MTLD-75.8)、连贯性(Coh-95.7)和独立性评分(Ind-85.0)方面表现卓越,领先其他方法,在自然语言评分(Nat)、可理解性(Und)和论证性(Deb)方面也极具竞争力。最终,GraphGen 以75.2 分综合排名第一,验证了其在垂域高质量数据合成上的优势。
同时,GraphGen 在开源数据集(SeedEval、PQArefEval、HotpotEval 分别对应农业、医学、通用)训练测试,测试数据结果表明, GraphGen 自动合成的数据能够有效降低 Comprehension Loss(越低代表学生模型的知识盲点越少),增强模型对垂域的理解力。
在 GraphGen 中使用 SiliconCloud API
进入硅基流动 SiliconCloud 官网(http://cloud.siliconflow.cn),完成注册/登录,点击“API 密钥”,新建并复制 API 密匙,以备后续使用。
进入部署在 OpenXLab Web 内的 GraphGen,粘贴 SliconCloud API Key,上传你的文本块(如海事、海洋知识),点击 “Run GraphGen”。
*注:Web 应用默认配置免费 7B 模型供试用,实际业务推荐使用 14B 及以上合成模型并开启 Trainee 难例挖掘
至此,你完成了在 GraphGen 中配置 SiliconCloud API 服务,可自由调用平台上的数十款模型,运行即可在线生成 LLaMA-Factory、xtuner 所需数据,高效、经济实现垂域数据的快速合成。
更多 SiliconCloud 使用场景与应用案例:https://docs.siliconflow.cn/cn/usercases/awesome-user-cases
让超级产品开发者实现“Token自由”
邀好友用SiliconCloud,狂送2000万Token/人
即刻体验DeepSeek-R1&V3
cloud.siliconflow.cn
扫码加入用户交流群