IT之家 01月13日
英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英伟达推出Nemotron-CC大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据,旨在推动大语言模型训练。该数据库基于Common Crawl数据构建,经过严格处理,形成高质量子集Nemotron-CC-HQ。与现有公开数据库相比,使用Nemotron-CC-HQ训练的模型在MMLU测试中性能显著提升。此外,使用Nemotron-CC训练的80亿参数模型在多项基准测试中均超越了基于Llama 3数据集开发的Llama 3.1 8B模型。英伟达采用模型分类器、合成数据重述等技术,确保数据高质量和多样性,并优化了数据处理流程,提高了高质量Token的数量。

💾Nemotron-CC是英伟达发布的大型英文AI训练数据库,总计包含6.3万亿个Token,其中1.9万亿为合成数据,旨在为学术界和企业界提供高质量的训练资源,推动大语言模型的发展。

📊该数据库基于Common Crawl网站数据构建,并通过严格的数据处理流程,提取出高质量子集Nemotron-CC-HQ,保证了数据的质量和纯净度,为模型训练提供了可靠的数据基础。

🚀使用Nemotron-CC-HQ训练的模型在MMLU基准测试中,分数提高了5.6分,超越了目前业界领先的公开英文训练数据库DCLM。使用Nemotron-CC训练的80亿参数模型在MMLU和ARC-Challenge等测试中也超越了基于Llama 3数据集的Llama 3.1 8B模型,展现了其卓越的性能。

💡英伟达在Nemotron-CC的开发中运用了模型分类器、合成数据重述等技术,并降低了传统启发式过滤器的权重,在保证数据多样性的同时,最大限度地提高了高质量Token的数量,避免了对模型精确度的损害。

IT之家 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文 AI 训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。

目前,业界各类 AI 模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称 Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。

在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。

进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARC-Challenge 基准测试中提升 3.1 分,并在 10 项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型

英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。

IT之家注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Nemotron-CC AI训练数据库 大语言模型 英伟达 MMLU
相关文章