硅基流动 04月25日 00:47
硅基流动 SiliconCloud × GraphGen:高效生成海量垂域大模型训练数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

GraphGen是由上海人工智能实验室开发的,并接入硅基流动SiliconCloud平台的知识图谱引导的合成数据生成框架,旨在解决大模型在垂直领域落地时面临的数据难题,如数据量不足、专业门槛高、质量难以把控等问题。它通过构建知识图谱,并结合硅基流动的AI模型,能够高效生成高质量的问答数据,有效降低模型知识盲点,提升对垂域的理解力。GraphGen已开源并支持在线使用,并提供DeepSeek-R1蒸馏版、Qwen2.5等免费模型API。

💡GraphGen 框架通过构建知识图谱来引导合成数据的生成,特别适用于知识密集型任务,能够有效提升生成数据的质量。

📚GraphGen 采用预期校准误差(ECE)来识别学生模型的知识盲点,并优先生成针对高价值、长尾知识的问答对,从而有针对性地提升模型能力。

☁️GraphGen 默认接入硅基流动 SiliconCloud 平台,支持用户灵活选择 DeepSeek V3/R1、通义千问 Qwen-2.5/QWQ 等 AI 模型,并且提供免费模型 API,降低了使用成本。

📊实验结果表明,GraphGen 在词汇丰富度、连贯性和独立性评分方面表现卓越,综合排名第一,验证了其在垂域高质量数据合成上的优势。

原创 SiliconCloud 2025-04-24 08:04 北京

简单、高效生成垂域数据。

在推动大模型落地垂直行业领域的过程中,高质量 QA(问答对)数据的获取始终是一个核心难题。


通常来讲,通用领域模型仅需数百条人工标注数据就能学习回复风格,但医疗、农业等垂直领域的模型训练需通过 SFT(有监督微调)输入数十万条数据,才能有效掌握专业知识。然而,这一体量早已超出了人工标注的承受范围,数据合成成为刚需。


专业门槛同样令人头疼。面对“AGIS_Os01g033640 是一个怎样的数量性状基因(QTG),与盐胁迫表达是否有关联?” 这样的问题,非专业者往往难以理解。开源大模型在多个小众领域取得了一定进展,但在专业领域中,“懂词不懂句”的问题普遍存在。


更为棘手的还有质量把控难题:现有的“LLM-RAG-打分”机制用于合成数据时,因 LLM 缺乏领域知识,直接打分往往陷入“先有鸡还是先有蛋”的困境,从而造成准确性不足,并且简单的关联度得分无法全面衡量数据质量,缺乏对回复长度、信息丰富度及语义层面的保障。


“数据体量大、专业门槛高、质量把控难”这三重困境让垂域数据构建步履维艰。为此,上海人工智能实验室研究团队开发了基于知识图谱引导的合成数据生成框架 GraphGen,专为知识密集型任务打造高质量问答数据,该项工作已开源且支持在线使用。


现在,为方便用户使用高效经济的大模型服务生成垂域训练数据,GraphGen 已默认接入硅基流动 SiliconCloud 平台,支持用户按需灵活选择 DeepSeek V3/R1、通义千问 Qwen-2.5/QWQ 在内的数十款 AI 模型。平台还提供 DeepSeek-R1 蒸馏版(1.5B、7B、8B)、Qwen2.5(7B)等免费模型 API,让开发者实现真正意义上的“Token 自由”,生成所需的任意领域数据。




以下为基于 GraphGen 与硅基流动 SiliconCloud 的 Qwen2.5-7B-Instruct API 实际运行生成的 QA 示例:


Q:隆两优1212是什么品种的水稻,其机播时间是什么时候?

A:首先,隆两优1212是一种早熟品种,于2017年引入福建省龙岩市长汀县试种。这种水稻在烟草收获后进行种植,因此被称为烟后稻。隆两优1212的机播时间定在了6月15日。随着时间的推移,到了2019年,隆两优1212进一步扩大了示范种植的范围。此外,隆两优1212还具有抽穗整齐的生长特点,这进一步证明了其优良的种植性能。

Q:What role does the BG1 gene play in plant growth and development, and how is its expression regulated?

A:AUXIN, a class of plant hormones that regulate various aspects of plant growth and development, plays a crucial role in the induction of the BG1 gene. Specifically, BG1 is induced by auxin treatment, indicating its involvement in auxin transport regulation. This gene is preferentially expressed in the vascular tissue of culms, further highlighting its localization in these tissues. The function of BG1 extends beyond auxin transport regulation, as it is also linked to the regulation of grain size and tiller angle. Tiller angle, a critical architectural feature of rice plants that influences grain yield, is directly affected by the expression of BG1. Therefore, the role of BG1 in regulating both grain size and tiller angle underscores its importance in plant architecture and overall yield.



GraphGen 工作流程及性能



GraphGen 旨在知识密集型任务中生成问答。这一过程中会用到两个 LLM,一个是合成模型,负责构建知识图谱、合成数据等;另一个是学生模型,用来识别它自己的知识盲点,方便针对性的选择数据。



上图是 GraphGen 工作流:



研究人员对 GraphGen 与多种主流数据合成方法进行了对比测试,实验采用 MTLD、Uni 和 Rew 等指标。测试数据显示,GraphGen 在词汇丰富度(MTLD-75.8)、连贯性(Coh-95.7)和独立性评分(Ind-85.0)方面表现卓越,领先其他方法,在自然语言评分(Nat)、可理解性(Und)和论证性(Deb)方面也极具竞争力。最终,GraphGen 以75.2 分综合排名第一,验证了其在垂域高质量数据合成上的优势。



同时,GraphGen 在开源数据集(SeedEval、PQArefEval、HotpotEval 分别对应农业、医学、通用)训练测试,测试数据结果表明, GraphGen 自动合成的数据能够有效降低 Comprehension Loss(越低代表学生模型的知识盲点越少),增强模型对垂域的理解力。




在 GraphGen 中使用 SiliconCloud API                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        



进入硅基流动 SiliconCloud 官网(http://cloud.siliconflow.cn),完成注册/登录,点击“API 密”,新建并复制 API 密匙,以备后续使用。




进入部署在 OpenXLab Web 内的 GraphGen,粘贴 SliconCloud API Key,上传你的文本块(如海事、海洋知识),点击 “Run GraphGen”。


*注Web 应用默认配置免费 7B 模型供试用,实际业务推荐使用 14B 及以上合成模型并开启 Trainee 难例挖掘


至此,你完成了在 GraphGen 中配置 SiliconCloud API 服务,可自由调用平台上的数十款模型,运行即可在线生成 LLaMA-Factoryxtuner 所需数据,高效、经济实现垂域数据的快速合成。


更多 SiliconCloud 使用场景与应用案例:https://docs.siliconflow.cn/cn/usercases/awesome-user-cases


近期更新
SiliconCloud上线DeepSeek-V3-0324
比肩H100!基于昇腾云超节点的R1上线
硅基流动 x 昆仑技术推出DeepSeek一体机
SiliconCloud上线GLM-4-32B/9B系列模型
硅基流动上线DeepSeek-R1 & V3企业级服务
DeepSeek API支持批量推理,R1价格直降75%

让超级产品开发者实现“Token自由”

邀好友用SiliconCloud,狂送2000万Token/人

即刻体验DeepSeek-R1&V3

cloud.siliconflow.cn

扫码加入用户交流群

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

GraphGen 垂域数据 知识图谱 硅基流动 数据合成
相关文章