谷歌发布史上最大规模的千亿级视觉语言数据集，Scaling Law的潜力或远未见顶

原创嘉鱼 2025-02-14 20:30 北京

2009 年，ImageNet 数据集的发布让深度学习在计算机视觉领域迎来了转折点。这个包含 1,400 万张图像的数据集，不仅推动了卷积神经网络的发展，更开创了用大规模数据训练视觉模型的先河。

2009 年，ImageNet 数据集的发布让深度学习在计算机视觉领域迎来了转折点。这个包含 1,400 万张图像的数据集，不仅推动了卷积神经网络的发展，更开创了用大规模数据训练视觉模型的先河。随后，JFT-300M（3 亿图像）和 JFT-3B（30 亿图像）的相继问世，进一步验证了“数据规模决定模型上限”这一理念。

近年来，随着视觉语言模型（VLM，Visual Language Model）的兴起，研究人员开始关注图像-文本对数据集的构建。从最初的 COCO Captions（包含约 12 万张图像），到微软的 Conceptual Captions（约 330 万对数据），再到 LAION-5B（50 亿对）和谷歌的 WebLI（100 亿对），数据规模在持续突破。而现在，谷歌 DeepMind 团队再次刷新了这一记录。

2 月 11 日，谷歌 DeepMind 在 arXiv 上发布了题为《将视觉语言模型的预训练扩展至千亿级数据》（Scaling Pre-training to One Hundred Billion Data for Vision Language Models）的论文。他们推出了规模空前的视觉语言数据集 WebLI-100B，包含 1,000 亿对图像-文本数据。这个数据集在 WebLI 的基础上构建，不仅保持了原有的高质量抓取策略，还将规模扩大了 10 倍。

那么，将数据规模扩大 10 倍究竟能带来什么样的提升？研究结果发现，在传统的西方中心化任务上，从 100 亿扩展到 1,000 亿的边际效益较小。具体来说：

在 ImageNet 零样本分类任务上，ViT-L/16 模型在 100 亿数据训练时的错误率为 29.7%，扩展到 1000 亿后仅降低到 28.5%。同样的趋势也出现在 CIFAR-100 等其他分类任务上。在 COCO 图像检索任务中，性能提升也相对有限。这些结果通过 Wilcoxon 符号秩检验得到了统计学支持（p 值为 0.9），表明在这些传统任务上的性能差异并不显著。

图丨左侧：将数据从 100 亿扩展到 1000 亿样本，比其他指标更显著地增强了文化多样性和多语言能力；右侧：数据规模影响的示例（来源：arXiv）

然而，在文化多样性相关任务上，大规模数据展现出了意外的价值。研究团队使用 Dollar Street 数据集（一个包含来自 63 个国家的 38,000 张图像的数据集）来评估模型对不同文化场景的理解能力。结果表明：

在 10-shot 分类任务中，ViT-L/16 模型在 1,000 亿数据上单轮训练就达到了 41.7% 的准确率，而同样架构的模型在 100 亿数据上训练 10 个 epoch 只能达到 35.9%。更大的 ViT-H 模型获得了类似幅度的提升。这 5-6 个百分点的绝对性能提升远超传统任务上不到 1% 的增益。Wilcoxon 检验的 p 值为 0.002，表明这种提升具有统计学显著性。

在多语言能力方面，研究者们发现了一个更加引人注目的现象：低资源语言从大规模数据中获得的收益明显高于高资源语言。研究团队使用 Crossmodal-3600 数据集（包含 36 种语言的图像-文本检索任务）进行评估，发现：

以 Telugu 语言为例，尽管它在整个数据集中仅占 0.036% 的比例，但模型性能仍然获得了显著提升。这种“长尾效应”在其他低资源语言（如孟加拉语、菲律宾语、印地语、希伯来语、毛利语和斯瓦希里语）中也普遍存在。

并且，这种差异在模型规模越大时越发明显。项目负责人之一的翟晓华在社交媒体上以 Telugu 语言为例，认为“这突出展示了大规模数据集在改善长尾概念理解方面的力量。即使在数据集中占比极小的语言，也能从中受益。”

图丨相关推文（来源：X）

研究团队还深入探索了数据质量与多样性之间的权衡。他们发现，使用 CLIP 模型进行质量过滤虽然能提升 ImageNet 等传统任务的性能，但会降低 Dollar Street 等文化多样性指标的表现。这个发现促使研究者们提出了一个简单但有效的策略：将低资源语言的采样比例提升到 1%。实验表明，这种重平衡策略虽然会轻微影响英语任务的性能，但能显著改善模型在低资源语言上的表现，最终实现了更平衡的性能分布。

在模型注意力可视化方面，研究发现数据规模的扩大确实帮助模型形成了更细致的理解。例如，在识别“Igorot Dance”（菲律宾伊戈洛特族传统舞蹈）的图像时，在 1,000 亿数据上训练的模型能够更准确地关注传统服饰的细节特征；在识别“Igloo”（因纽特人冰屋）时，模型也能更好地捕捉其独特的穹顶结构特征。