机器学习初学者 01月17日
10 大中文医学数据集汇总:涵盖神农中医药、中医药古籍、医学推理、医学问答……
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文汇总了10个中文医学相关数据集,旨在支持医疗人工智能的快速发展。这些数据集涵盖了不同维度和领域,包括医学问答、对话、中医药、古籍等。其中,首个中文医疗专科问答推理数据集由蚂蚁集团与上海交通大学合作创建,以Q-context-A格式呈现;中文医疗问答数据集包含六个不同科室的问答对;医学对话数据集包含患者与医生之间的对话;神农中医药数据集则专注于中医药领域。这些数据集为研究人员提供了宝贵的数据资源,可用于推动机器视觉、大模型等技术在医学领域的应用。

🏥 首个中文医疗专科问答推理数据集:由蚂蚁集团与上海交大合作,以Q-context-A格式呈现,专注于泌尿外科,数据由专业医生编写,保障隐私。

💬 中文医疗问答数据集:包含男科、内科、妇产科、肿瘤科、儿科、外科六个科室,共计79万余条问答对,为医疗问答模型提供丰富数据。

📜 神农中医药数据集:专为中医药领域设计,包含超11万个指令数据,提升模型在中医药相关问题的回答能力,并辅助中医诊断。

📚 中医药古籍数据集:涵盖先秦至清末民国的约700项中医药古籍文本,包含医学理论、方剂学、药物学等,是研究中医药的宝贵资源。

🗣️ 中医对话数据集:结合百科知识、教材文本、医患对话及评价数据,旨在提升模型在医疗对话和建议方面的准确性和实用性。

李姝 2025-01-17 12:05 浙江

内含数据集下载地址

作者:李姝

编辑:李宝珠

转载请联系本公众号获得授权,并标明来源


HyperAI超神经为大家准备了 10 个中文医学相关的数据集,支持在线使用与加速下载,快来体验吧~


医疗人工智能的快速发展离不开高质量数据集的支持。从疾病诊断到药物研发,再到个性化医疗,数据集在推动机器视觉、大模型等应用于医学领域中发挥着不可或缺的作用。


医学数据集的形式多样,涵盖了不同维度和领域的数据资源。例如,在疾病诊断领域,像 RJUA-QA 这样的问答数据集推动了复杂医学知识的自动化应用;而在中医药领域,神农中医药数据集整合了传统中医药文献、临床案例和药方数据。


针对于此,本文整理了医学领域的 10 个数据集,涵盖神农中医药、中医药古籍、医学推理、医学问答……旨在帮助研究人员快速了解这些数据资源的分布与特点,并为其在具体研究问题中的应用提供启发。


点击查看更多开源数据集:

https://go.hyper.ai/SjWDr




中文医学数据集汇总




1

首个中文医疗专科问答推理数据集

预估大小:2.34 MB

下载地址:https://go.hyper.ai/rIwcK


该数据集是一个创新的医学泌尿外科专业问答推理数据集,由蚂蚁集团医学 LLM(大语言模型)团队与上海交通大学医学院附属仁济医院泌尿外科专家团队合作创建。其以 Q-context-A(问题-上下文-答案)格式呈现,其中的病例数据由专业医生根据临床经验编写,不涉及患者和医生的任何个人隐私。


2

中文医疗问答数据集


预估大小:279.64 MB

下载地址:https://go.hyper.ai/lM5sd


该数据集为中文医疗问答数据集,包含 6 个不同医疗科室文件夹,分别为:男科 94,596 个问答对、内科 220,606 个问答对、妇产科 183,751 个问答对、肿瘤科 75,553 个问答对、儿科 101,602 个问答对、外科 115,991 个问答对,总计 792,099 条数据。每个文件夹下有一个 csv 文件。


3

医学对话数据集


预估大小:118.35 MB

下载地址:https://go.hyper.ai/MCH57


这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。


4

 神农中医药数据集


预估大小:28.98 MB

下载地址:https://go.hyper.ai/iJsGu


该数据集是专门为中医药领域设计的大规模语言模型训练和评估的数据集。包含超 11 万个的指令数据,这些数据通过以实体为中心的自指令方法生成,围绕中医药领域的核心实体和不同意图场景,不仅能够提升模型在中医药相关问题的回答能力,还能辅助中医诊断,提供个性化的医疗建议。


5

中医药古籍数据集


预估大小:80.49 MB

下载地址:https://go.hyper.ai/pyHEs


该数据集包含了约 700 项中医药古籍文本,涵盖了从先秦至清末民国的历代医药典籍。这些文献不仅包括了医学理论、方剂学、药物学等内容,还包含了丰富的临床案例和医学百科知识。


6

中医诊断数据集


预估大小:341.69 MB

下载地址:https://go.hyper.ai/cIHaP


该数据集是一个专注于中医领域的高质量数据集,包含约 1GB 的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集主要由非网络来源的内部数据构成,99% 为简体中文内容,质量优异,信息密度可观,适用于预训练或继续预训练用途。


7

中医对话数据集


预估大小:737.32 MB

下载地址:https://go.hyper.ai/cCrcT


这个中文医疗数据集是一个全面的资源,用于开发和训练能够在医疗领域提供专业对话和建议的语言模型。它结合了多种类型的数据,包括百科知识、教材文本、实际医患对话以及评价数据,旨在提升模型的准确性和实用性。


8

医学推理数据集


下载地址:https://go.hyper.ai/BAVNR


该数据集由香港中文大学和深圳市大数据研究院于 2024 年发布,专为微调 HuatuoGPT-o1 这一医学大语言模型而设计,旨在提升其在复杂医学推理任务中的表现。


9

多语言医学能力测试基准数据集


预估大小:20.69 MB

下载地址:https://go.hyper.ai/ux6FF


该数据集是一个全面多语言医学能力测试基准数据集,由上海交通大学人工智能学院智慧医疗团队于 2024 年开发,旨在评估医学领域多语言模型的发展,涵盖了 6 种语言和 21 种医学子领域。


10

MMedC 大规模多语言医疗语料库


预估大小:31.05 GB

下载地址:https://go.hyper.ai/K8RcQ


该数据集是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。


往期精彩回顾





请备注:”昵称-学校/公司-研究方向“,例如:”张小明-浙大-CV“加群。

也可以加入机器学习交流qq群772479961



阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

医学数据集 中文医疗 人工智能 中医药 医疗AI
相关文章