中国科技报 02月10日
[理 论] 加快建设人工智能高质量数据集
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

文章指出,人工智能正快速发展并重塑经济社会,数据作为其核心要素,高质量数据集的建设至关重要。然而,当前高质量数据供给不足,数据处理技术亟待提升,数据主体和商业模式尚不成熟,相关规划和政策也有待完善。为此,文章建议加快公共数据开放和企业数据流通,攻关行业数据集关键技术,引导企业和商业模式创新,并加大政策支持力度,以多措并举推进高质量数据集建设,从而推动“人工智能+”场景落地,赋能未来产业发展。

🔑当前人工智能发展面临高质量数据供给不足的问题,尤其在通用、垂直及具身智能领域,中文数据质量和数量落后,公共数据开放程度不高,行业数据集匮乏,具身智能交互数据采集困难。

🛠️高质量数据的合成、处理和利用技术亟待提升,需突破深度学习和强化学习生成合成数据的技术瓶颈,并迭代优化结构化、半结构化和非结构化数据的处理技术,以提高数据处理效率。

🤝我国缺乏成熟的“数据+人工智能”模式主体,公共数据授权运营主体仍在培育中,数据集构建和运营利用的商业模式发展不够成熟,需要引导企业和商业模式创新,构建人工智能数据产业生态。

📜高质量数据集的专项规划和支持政策有待完善,缺少面向大模型和具身智能模型训练的数据共享和流通促进机制,限制了模型能力的快速提升,需要加大人工智能高质量数据集建设政策支持力度。

视觉中国供图

    ◎王晓明

    当前,人工智能处在快速发展的关键时期,正在重塑经济社会发展模式。2024年中央经济工作会议指出,开展“人工智能+”行动,培育未来产业。数据作为人工智能发展的三大核心要素之一,是人工智能模型训练的基础要素,也是人工智能模型应用的核心资源,加快建设人工智能高质量数据集,对于推动“人工智能+”场景落地具有重要意义。

    高质量数据集建设存在的问题

    高质量数据供给是推动新一代人工智能加快发展的关键要素。当前,面向新一代人工智能的数据供给仍有不足,数据处理专用技术有待进一步突破,数据产业和数据生态有待丰富,高质量数据集的整体规划和支持政策还有待完善。

    首先,通用领域、垂直领域以及具身智能领域的高质量数据供给仍有不足。一方面,中文公开数据在质量和数量方面落后于英文数据。另一方面,我国公共数据开放利用程度有待提高,各地开放标准不统一,专门面向人工智能发展的高质量行业数据集仍较匮乏。具身智能领域真实交互数据采集不足,主要原因在于智能机器人与环境的交互数据获取困难且成本高昂,同时,企业采集数据缺乏统一的参照标准。

    其次,高质量数据的合成、处理和利用技术亟待提升。利用深度学习和强化学习生成高精确度、多样化合成数据的技术在成熟度和应用范围上急需突破。随着社会自动化和智能化程度的不断提高,对数据处理的要求也不断提升,因此急需针对结构化、半结构化和非结构化数据的处理技术进行迭代优化,进一步提高数据处理效率。

    再次,数据主体和商业模式发展尚不成熟。我国缺乏类似美国Databricks和Snowflake“数据+人工智能”模式的高质量数据汇聚和治理主体,具备大规模数据汇聚管理分析能力的公司数量不足。医疗、法律、保险、金融、工业、科研等多个领域的公共数据授权运营主体目前仍在培育中,数据集构建和运营利用的商业模式发展还不够成熟。

    最后,高质量数据集的专项规划和支持政策有待完善。我国已出台一系列数据发展相关指引政策,但是面向新一代人工智能模型训练和场景应用的高质量数据集专项规划和支持政策尚未出台,其建设、运营、流通、利用等方面举措有待进一步细化。在数据采集方面,各领域数据缺乏适用的标准规范;在数据使用方面,缺少面向大模型和具身智能模型训练的数据共享和流通促进机制,一定程度上限制了模型能力的快速提升。

    多措并举建设高质量数据集

    针对当前存在的资源、技术、模式、制度等方面问题,结合新一代人工智能发展的需要,建议发挥政府和市场的协同作用,多措并举推进高质量数据集建设。

    一是加快公共数据开放和企业数据流通,建设面向新一代人工智能的高质量数据集。建议形成部门、行业、地区共同参与的协同机制,围绕高质量数据集建设,扩大数据供给范围和规模,完善公共及行业数据标准,加速可信数据空间建设。面向医疗、教育、科研、法律、工业、农业、物流、金融、能源、交通等重点领域建设大数据中心及大模型行业应用创新(工程)中心,打破信息孤岛,构建完备数据生态,构建高质量数据集,提升垂直领域人工智能模型能力。着眼自动驾驶、具身智能等未来产业需求,开放相关公共数据,制定行业数据标准,探索企业间数据流通机制,鼓励企业和研究机构创建高质量行业数据集。

    二是围绕建设行业高质量数据集关键技术问题加大攻关力度。面向数据合成和处理,加快开发数据合成、数据治理的关键共性技术;面向数据流通汇聚,大力推广隐私计算、区块链等技术;面向“数据+人工智能”应用模式,着力开发数据管理技术,探索新型模型结构和训练架构。鼓励面向人工智能的数据产品、数据服务企业牵头承担国家重大项目,开展应用基础研究和关键核心技术攻关。推动产学研合作和创新联合体建设,打造数据技术、产品和服务深度融合的新型合作模式。面向重点场景,打造数据技术“测试场”,提供真实数据环境、模拟应用场景,建设中试基地,吸引企业、高校和科研机构参与数据技术的创新和验证,加速新技术推广和应用。

    三是引导企业和商业模式创新,构建人工智能数据产业生态。大力培育人工智能数据资源、技术、服务、应用、安全、基础设施等多领域企业,重点建设面向人工智能行业的数据产业创新平台。鼓励企业基于“数据+人工智能”探索多领域商业模式,支持企业与各方合作,打造基于高质量数据集的产业创新链和生态系统。鼓励企业探索大模型和具身智能应用场景,驱动数据产业发展。支持模型应用、模型开发、数据服务、数据产品等相关企业组建创新联合体,开发高质量数据集,发展“数据即服务”“知识即服务”“模型即服务”等新业态。

    四是加大人工智能高质量数据集建设政策支持力度。面向新一代人工智能技术开发和应用发展需求,完善数据资源构建体系,培育数据产业,支持数据技术发展,系统推进高质量数据集建设,强化行业应用。统筹中央和地方财政资金、产业引导基金和各类政策性投资,加大对高质量数据集建设的投入。鼓励金融机构创新产品和服务,增加对数据相关企业的融资支持。引导社会资本有序参与人工智能高质量数据集的开发利用。    

    (作者系中国科学院科技战略咨询研究院研究员)

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

人工智能 高质量数据集 数据产业 政策支持
相关文章