智源研究院 2024年10月25日
智源研究院发布中文互联网语料库CCI3.0 推动数据共建共享
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

智源研究院发布中文互联网语料库CCI 3.0,包括1000GB数据集及498GB高质量子集CCI3.0-HQ。CCI系列数据集下载量超4万次,服务500多个企事业单位的大模型研发,助力中文语料和训练数据建设,支撑人工智能产业发展。

🌐CCI 3.0规模扩大,来源广泛。收录超2.68亿个网页,涵盖多领域,数据规模比CCI 2.0扩大近一倍,数据来源机构扩展至20多家,提升数据覆盖面和代表性。

📝CCI 3.0精细标注,赋能应用。对原始数据进行多维度细粒度分类和详细标记,筛选高价值数据,CCI 3.0 HQ是高质量子集,可满足不同需求。

🎉CCI 3.0效果显著,更懂中文。在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,CCI 3.0 HQ效果更突出。

2024-09-25 11:54 北京

CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发。

近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的2024北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库CCI 3.0(Chinese Corpora Internet,简称 CCI),包括1000GB的数据集以及498GB的高质量子集CCI3.0-HQ。智源研究院于2023年11月首次开源CCI 1.0,并在2024年4月发布CCI 2.0。目前,CCI系列数据集下载量已超过4万次,服务500多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。

CCI 3.0下载地址


Flopsera:

http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3


Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data


Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3


1

规模扩大,来源广泛

CCI 3.0收录超过2.68亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0的数据规模相较于CCI 2.0扩大近一倍,数据来源机构扩展至20多家,显著提升数据覆盖面和代表性。


2

精细标注,赋能应用

CCI 3.0对原始数据进行了覆盖语法、句法、教育程度等10多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。此外,CCI 3.0 HQ是基于70B模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。


3

效果显著,更懂中文

同一500M模型基于不同的数据集从零开始训练100B数据对比实验表明,CCI 3.0在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而CCI 3.0 HQ的效果更加突出。


模型训练效果对比


未来,智源研究院将继续携手行业生态推动语料库共建共享,构建大规模高质量高知识密度的中文数据集,为中国人工智能产业发展做出贡献。


阅 读 更 多




跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

智源研究院 CCI 3.0 中文语料库 人工智能
相关文章