IT之家 01月11日
中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

中国网络空间安全协会发布中文互联网语料资源平台,提供多标签分类的语料下载。该平台在中央网信办指导下,汇聚了包括协会、国家互联网应急中心、人民网等机构的高质量可信数据,形成120GB、3800万条的中文互联网基础语料2.0。平台共入驻27个语料数据集,总数据量约2.7T,分为基础语料、共享语料和优质样本三类。用户可通过协会网站注册认证后下载。此举旨在为人工智能技术创新和产业发展提供数据支撑。

🌐中文互联网语料资源平台正式发布,支持多种标签分类,方便用户下载使用。

📊平台汇集多方高质量数据,包括中文互联网基础语料2.0,规模达120GB,共3800万条数据。

📚平台入驻27个数据集,总数据量约2.7T,包含基础语料、共享语料和优质样本三类。

🔐用户需注册认证后方可下载语料,确保数据安全可信。

🚀该平台旨在为人工智能技术创新和产业发展提供有力的数据支撑。

IT之家 1 月 11 日消息,中国网络空间安全协会于 1 月 9 日发布公告,面向社会发布中文互联网语料资源平台,支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。

该协会表示在中央网信办指导下,会同国家互联网应急中心,在前期发布中文互联网基础语料 1.0 的基础上,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料 2.0,规模 120GB,数据 3800 万条。

IT之家注:目前平台共入驻 27 个语料数据集,数据总量约 2.7T,主要分三类:

用户登录中国网络空间安全协会网站(https://www.cybersac.cn/ newhome),点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。

网安协会人工智能安全治理专委会负责人表示,数据是发展人工智能的基础关键资源,中文互联网基础语料 2.0 是各界协同共建高质量中文语料的又一重要成果,专委会将持续加强中文互联网基础语料建设,为人工智能技术创新和产业发展提供有力支撑和保障。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语料资源平台 中文互联网语料 人工智能 数据安全 网络空间安全
相关文章