深度财经头条 07月28日 14:15
产业多方发力高质量数据集 上海建设语料基座释放明确信号|直击WAIC2025
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

世界人工智能大会(WAIC)聚焦AI产业发展,数据作为AI模型和应用的基础,其重要性日益凸显。中国电子云高级副总裁黄锋指出,数据准备占据模型训练80%以上工作量。上海正通过专项工程和标准升级,构建多层次语料供给体系,尤其在具身智能、科学智能等领域。高质量数据集建设面临多重挑战,国家与地方协同布局“人工智能+数据要素”。库帕思科技发布多项语料标准,并构建了全国首个语料运营公共服务统一门户。励讯集团指出数据资源供给机制不健全是语料供给不足的根源。中国电子云推出全链路AI解决方案,包括多模态数据治理平台,旨在将原始数据集转化为AI ready数据。专家强调,企业拥抱AI需找准核心问题、用好高质量数据、微调基础大模型。高质量数据集的建设是AI大模型训练的关键,对智能体应用落地效果至关重要,东航、广州国家实验室等也在积极推进相关数据集建设。

🎯 数据是AI发展的基石:中国电子云高级副总裁黄锋强调,数据准备工作占模型训练总工作量的80%以上,大语言模型本质上是对基础数据知识的压缩和统计模型的体现。高质量的数据集是AI模型和应用能否成功落地的关键,直接影响模型的效果和性能。

🏙️ 上海的语料供给策略:上海在建设语料基座方面采取双管齐下的策略:一方面,通过专项工程加大稀缺语料、思维链数据集的建设,聚焦具身智能和科学智能,做优行业语料;另一方面,强化语料标准建设,升级运营平台,攻关数据合成、思维链数据集成等新技术,构建多层次、标准化的语料供给体系。

🚀 库帕思科技引领语料运营创新:库帕思科技有限公司响应上海市部署,打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放机制。在WAIC2025期间,库帕思发布了《语料库建设导则》以及10项团体标准、3项行业标准和1项指南,推动语料数据方法体系及基础设施的重构,并链接行业生态。

💡 数据市场机制待完善:励讯集团中国区高级副总裁张玉国指出,语料资源长期供给不足的根源在于数据资源供给机制尚不健全。一个成熟的数据市场应支持企业自主采购、加工、标注数据并高效完成合规验证,但目前这一市场链条尚未完全打通。

📊 中国电子云的多模态数据治理:中国电子云面向国家关键行业推出了全链路AI解决方案,其中包含多模态数据治理平台。该平台旨在通过文本解析、关键信息提取、数据标准化、归一化、去重等治理动作,将原始数据集转化为AI ready的数据集,输出高价值、高密度、标准化的数据,直接用于模型训练,并提升模型效果。

✅ 企业拥抱AI的必由之路:中国工程院院士郑纬民总结,企业拥抱AI的关键在于“找准核心问题、用好高质量数据、微调基础大模型”。高质量数据集的建设是AI大模型训练的重头戏,对于实现智能体应用落地效果至关重要,东航、广州国家实验室等众多机构也在积极推进相关数据集建设。


财联社7月28日讯(记者 付静 张校毓)一年一度的AI产业盛会世界人工智能大会(WAIC)正在上海举行,财联社记者现场观察到,人形机器人、AI眼镜等应用的展台前颇为热闹,其背后的数据亦受到多方关注。

“数据既是AI模型的基础,也是应用的基础,数据准备占模型训练80%以上的工作量。大语言模型本质上还是对于基础数据的知识的压缩,其实本质上还是个统计学的模型。”中国电子云高级副总裁黄锋在接受财联社等媒体采访时表示。

WAIC2025期间,上海在建设语料基座方面释放出明确信号:一方面通过进一步加大稀缺语料数据集、思维链数据集建设等方面专项工程,聚焦具身智能、科学智能,做优行业语料,构建多层次语料供给体系;另一方面,强化语料标准建设,升级语料运营平台,进一步攻关数据合成、思维链数据集成等方面新技术,持续优化创新新型数据底座的建设。

据悉,前期上海已做了大量的语料数据库建设,接下来不仅将注重高质量语料,还将布局新的领域,重点在突破具身智能、强推理、稀缺数据集等三个专项。

由于高质量数据集建设面临着目标定位模糊、实施路径碎片化、技术底座薄弱三大难题,国家部委和地方政府注重“人工智能+数据要素”政策协同布局。目前,建设高质量数据集也成为众多领域企业布局AI大模型的一大“重头戏”。

财联社记者最新获悉,上海库帕思科技有限公司(简称“库帕思”)按上海市整体部署打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放的语料运营机制。库帕思曾于WAIC2024期间发布《语料库建设导则》,今年则集中发布了10项团体标准、3项行业标准、1项指南。

WAIC2025语料创新发展论坛 图片来源:财联社记者/摄

库帕思董事长山栋明称,数据正发生一系列变化,如从传统的互联网向学术密集型转变、从两维平面向立体高维转变、从原生数据向合成语料转变、从关注预训练向后训练转变。为此,公司的做法包括重构语料数据的方法体系及基础设施、链接行业生态。

励讯集团(RELX)中国区高级副总裁张玉国在接受财联社记者采访时表示,语料资源长期供给不足,其根源在于数据资源供给机制尚不健全。“一个成熟的数据市场,应能支持企业按照自身需要,自主采购、加工、标注数据并高效完成合规验证。目前这一市场链条尚未打通。”

WAIC2025期间,中国电子云面向国家关键行业推出全链路AI解决方案,亦涵盖多模态数据治理平台。据悉,中国电子云目前与国内超过五家国家实验室和超过十家央企达成了高质量数据集合作意向。

黄锋称,近年大家越来越重视多模态的数据治理平台工具链,但是市面上现在相对成熟的平台不多。“中国电子云多模态数据治理平台的定位,是通过一系列的治理动作把原始的数据集变成AI ready的数据集,包括文本解析、关键信息提取、数据标准化、归一化、去重等工作。平台的产出是高价值、高密度、标准化的数据,可以直接用于模型训练,也能有效提升模型的效果和性能。”

“今年以来B端客户对大模型应用落地意愿增强了,但落地快不快也得看企业自身的数据好不好。”一家AI方案商相关负责人也对财联社记者如此表示。

对于上述现象,中国工程院院士、清华大学教授郑纬民总结为,“企业拥抱AI有章可循:找准核心问题、用好高质量数据、微调基础大模型即可见效。”

高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年4月30日,《高质量数据集建设指南(征求意见稿)》发布。

谈及为何国家数据局强调高质量数据集,黄锋分析称,真正要落地智能体应用时,如果做行业模型所需的数据集没有准备好、从数据知识库的构建到应用开发平台的数据没有准备好,大概率会模型效果不好。

值得注意的是,WAIC期间,不少领域的企业介绍了各自高质量数据集的建设进展。

例如:东航数科董事长高志东称,东航正在着力构建安全、营销、服务、运行、机务、管控等多领域数据集。高志东坦言,在此过程中东航遇到了跨主体数据共享难度大、缺乏统一标准、多源异构数据融合难等挑战。

此外,广州国家实验室助理研究员邵健表示,为解决可穿戴设备“数据质量”问题,当前广州国家实验室正建设一个25万人规模的高质量多模态数据资源库,依托多模态数据和高质量可穿戴数据,希望发掘出能反映呼吸疾病早期进展的数字标志物,实现对于相关病症“预测风险”。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 数据 语料库 WAIC 数据集
相关文章