机器之心 04月13日 16:46
3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LLM360团队推出的MegaMath数据集,是目前全球最大的开源数学推理预训练数据集,包含3710亿tokens,涵盖网页、代码和合成数据,旨在提升大模型的数学推理能力。该数据集在规模、质量和多样性上均有所突破,通过多轮筛选、清洗和预训练实验验证,为构建更强大的数学语言模型奠定了基础。MegaMath在Llama-3.2上进行了预训练,并在多个标准数学任务上取得了显著提升,为开源社区提供了宝贵的资源。

💡 MegaMath数据集是目前全球最大的开源数学推理预训练数据集,拥有3710亿tokens,超越了之前的开源数据集,标志着从“只靠网页”到“面向推理”的重大转变。

🌐 该数据集由三部分组成:数学密集网页数据(2790亿tokens)、数学相关代码(281亿tokens)和高质量合成数据(640亿tokens),涵盖了广泛的数学知识和推理场景。

⚙️ 为了构建MegaMath,团队采用了创新的数据处理流程,包括HTML结构优化、两段式提取方法、动态评分和LLM精炼等技术,确保了数据的质量和多样性。

💻 MegaMath-Code数据集包含了数学相关代码,涵盖11种编程语言,有助于提升模型利用代码解决数学问题的能力。

➕ MegaMath在Llama-3.2上进行了预训练,并在GSM8K、MATH等多个标准数学任务上取得了15-20%的绝对提升,证明了其在提升数学推理能力方面的显著效果。

2025-04-13 12:40 北京

全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens。


在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。


近日,LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。




这不仅是首次在规模上超越 DeepSeek-Math Corpus(120B)的开源数据集,更代表从「只靠网页」到「面向推理」的重大跨越。短短数日时间,数据集下载量已经来到 3 万余次,并且持续在 Hugging Face 趋势榜上名列前茅。


MegaMath数据集总览


为什么我们需要 MegaMath?


在现有主流闭源数学语料如 Qwen-2.5-Math(1T)和 DeepSeekMath(120B)持续展现卓越数学能力的同时,开源研究社区长期缺乏等量级、等质量的数学数据。当前可用的开源数据集(如 OpenWebMath、FineMath)规模过小,无法支撑更大规模的模型训练;过滤过度,导致数学样本量缺失多样性不足。


MegaMath和其他数据集的统计数据对比


为解决这一痛点,MegaMath 团队本着「做困难而正确的事情」为目标,以规模 × 质量 × 多样性为核心设计,历时 9 个月时间,构建了全面开放的数学推理数据底座。


MegaMath 数据集共计 3710 亿 tokens,是之前经典开源数学数据,如 OpenWebMath 的约 20 倍。数据集共分为三大部分:



每部分数据均经过多轮筛选、清洗并通过下游预训练实验充分验证,以确保实用性与泛化能力并存。


构建 MegaMath 的秘方


如何构建这样一个庞大的推理数据集呢?作者将他们主要分为 3 块内容,并精心设计了不同的数据「流水线」,确保高效、高质量的数据开发。


高质量的网页数据构建


MegaMath的网页数据处理流程


为了彻底优化数学文本的处理流程,作者重新下载处理了 2014–2024 年间所有的 99 个 Common Crawl 文件包,并对互联网的数学文本提取进行一系列大量的工程优化来确保数据质量:






这一系列的工程优化和技术迭代最终形成了:



精确的数学代码数据召回


MegaMath-Code的多步召回流程


代码数据被广泛验证,有利于提升模型的数学表现、提升模型利用「生成代码 + 执行求解」范式进行解题的能力。


因此,这是一份宝贵的数据领域。MegaMath 在现存最大的代码预训练数据集 Stack v2 中挖掘了数学相关代码块,同时结合团队之前提出的 Programming Every Example(ProX)方法,利用(1)大模型评分(LLM scoring);(2)微调小模型快速筛选(SLM filtering)的方式,高效清洗出了包括科学计算、符号推理、逻辑程序等领域的代码数据,形成 MegaMath-Code,一个包含 28.1B tokens 的数学相关语料,包含了共 11 种编程语言,进一步加强了数据集的丰富程度。


大规模数学数据合成


MegaMath-Synth的三种大规模合成方法


近年来,合成数据已经成为大模型训练不可缺失的一部分数据;尤其是当传统的数据已经被大量发掘和利用的情况下,合成数据代表了一类可持续被开发的高质量数据源。这在之前的开源预训练数据集中,通常是没有被探索的。


MegaMath 团队积极拥抱合成数据,并开源了预训练规模的高质量文本,包含(1)Q&A 问答形式(解决数学题);(2)合成代码(跨语言转为 Python);(3)文本 + 代码交错数据(更贴近真实解题场景);所有样本都经过质量检测(包括代码块的可执行性校验)。团队通过不断优化 Prompt、简化工程设计,达到在消融实验中表现全面优于现有合成的基线


效果如何,表现说话


MegaMath-Llama-3.2 1B / 3B的表现在CoT和PAL测试上均提升显著。


MegaMath 不是单纯地「堆数据」拼大小,而是对每一步都进行了严谨验证以确保数据质量


这包括:(1)文本抽取流程验证;(2)去重策略对比(在机器承受范围内寻求最优的 MinHash 去重策略);(3)fastText 过滤阈值、训练策略调优;(4)代码数据比重 & SLM 召回率消融;(5)合成策略的迭代。


为了检验这些策略,所有的实验都在足够大的尺度下进行了预训练 + 下游评测的验证实验,用来为最终的方案和策略提供足够显著的实验信号。


最终,MegaMath 共进行了超过 50 次的预训练验证,并最终在 Llama-3.2(1B & 3B)上进行了 100B 的预训练


实验表明,MegaMath 能够在 GSM8K、MATH 等数 10 个标准数学任务上取得 15–20% 的绝对提升。这些数字实打实地说明了 MegaMath 数据集在数学推理上的显著效果。


作者的愿景


作者希望,MegaMath 的发布,能在一定程度上推动开源数学预训练数据集在规模、质量与多样性上的进一步发展,也希望 MegaMath 能成为构建更强数学语言模型的一个坚实起点,激发更多来自学术界与工业界的合作与创新。


在迈向更强推理能力与更高智能上限的过程中,MegaMath 只是初步阶段的尝试。作为一个致力于开放科学与开源研究的团队,团队深知这项工作的挑战与局限,也非常感激开源社区给予的诸多启发与帮助。


特别感谢 Hugging Face、DeepSeek、Qwen 等优秀开源团队长期以来提供的模型、工具和数据方案,让团队有机会站在巨人的肩膀上持续打磨和完善这个工作。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MegaMath 开源数据集 数学推理 大模型
相关文章