原创奇绩创坛 2025-04-25 21:35 北京

生成式 AI 的第二幕、数据工程 2.0 的核心变革以及 RL Scaling 展望。

：

近年来，生成式 AI 快速发展，呈现出以知识记忆为主和推理思考为主的两幕重大变革。

作为长期走在大模型前沿的学者，上海交通大学的刘鹏飞教授将生成式 AI 区分为两种不同的发展维度，利用 Scaling Law 与知识节点结构的独特角度深入分析预训练、后训练以及测试时计算训练（Test-time ）对于模型智能程度的提升，详细介绍了其中所蕴含的强化学习扩展（ RL Scaling ）基本原理和 2.0 时代下的大模型数据工程。

本文整理了刘鹏飞教授分享的精选内容，重点介绍了生成式 AI 的第二幕、数据工程 2.0 的核心变革以及未来模型 RL Scaling 的展望。旨在为相关领域创业者带来大模型数据工程与认知工程变革的新思考。

本文提纲如下：

生成式 AI 的第二幕是什么？与第一幕有何本质区别？

为什么 AI 的第二幕就是现在？为什么当下要去谈认知工程？

第二幕的“深度思考”如何实现？技术路径是什么？

在原生数据增长速率无法匹配算力增长的当下，数据工程 2.0 的核心变革是什么？

关于 RL Scaling，除了 Test-time 外，还有哪些模型训练方法？

如何将 RL Scaling 应用到自己的领域中？

关于 RL Scaling 和奖励模型、合成数据的现场讨论

嘉宾介绍：

刘鹏飞是上海交通大学副教授，创智学院导师，清源研究院院长助理，生成式人工智能研究组 GAIR 负责人。专注于自然语言的预训、生成和评估等研究方向，发表学术论文 100 余篇，被谷歌学术引用 19000 余次。ACL 会议史上首次实现连续两年获得 System & Demo Paper Award，提示工程概念最早提出者之一，单篇引用超过 5000 余次。

「奇绩潜空间」欢迎大模型时代创业者、科研学者、高校学生来现场面对面交流。此外我们创建了创业者交流群，添加小助手加入群聊以及获取更多奇绩潜空间往期内容。

﹀

正文

生成式AI的第二幕：认知工程

生成式 AI 的第二幕是什么？与第一幕有何本质区别？

Insight 1: 生成式 AI 第二幕的是指 AI 首次可以进行深度思考，使大模型从一个知识管理工具进化成可以深度思考的认知管理工具。

过去的 AI 只是在管理知识，现在模型甚至可以从简单的管理知识，到进行基于复杂认知的深度思考。

可以例举一个生动的案例，分别向第一幕、第二幕的模型提问——苹果为什么会落下，并观察他们给出的回答。

我们可以从两种回答中清晰看到这两幕 AI 工作逻辑的不同。

第一幕 AI 模型在回答中仅指出“苹果下落是因为万有引力定律”，即只输出知识点；该阶段的大模型整体类似 QA 系统，即在 Pre-training 和 Post-training 的基础下做知识管理。

第二幕 AI 模型开始进行深度思考，关联不同的知识和看法，通过推理式计算和认知学习，大模型由此具备了认知能力。模型甚至具备了很长的思考时间和很深刻的思考程度。

例如，如今所有的公司都需要知识管理，那么我们就可以用大模型而非人力去进行管理。大模型在这里充当了一个技术手段和工具，擅长知识管理，有短暂的思考能力，能够顺利完成管理任务。

第二幕的模型会觉得苹果为什么会落下的问题，会不会和月球为什么会围绕地球转是一样的原理。接着它会由此再去自主深挖更本质的东西，这就造就了深度思考模型，从而可能会带来了一些行为上或者认知上的变化。

如果说第一幕是提示词学习，那么在第二幕的核心研究方向便是认知领域。以下两点值得关注：

需要把人类的认知交给大模型；

需要让大模型在拿到人类最前沿认知之后，自主去搜索新的认知。

关于这两点，就像 AlphaGo 在下棋的第三场比赛的时候，下出一步可能让人类专业棋手都觉得非常非常惊艳的一手。在搜索长程节点的可行路径中，相比于人类，AI 能够能把各个不同学科之间的知识交叉在一起，发现人类发现不了的思路，从而探索出更高级的搜索和解决方案。因此，AI 可能在未来的某个时刻能够爆发出比人类更大的潜力。

Insight 2：生成式 AI 的第一幕在知识层面遥遥领先，甚至超过人类水平，但是在推理层面相对落后。

两幕生成式 AI 核心的四大差异：

模型：第一幕以 GPT-4 和 Llama-3 为核心；第二幕以 GPT o1 和 DeepSeek R1 为核心；

能力：第一幕擅长做知识记忆；第二幕擅长做深度思考；

数据：第一幕主要为 human-generated data（人工数据）；第二幕主要为 AI-generated data（AI 合成数据）

技术栈：第一幕的技术栈是 Pre-training + SFT（监督微调） + RLHF（人类反馈强化学习）；第二幕是 Pre-training + RL Scaling（强化学习扩展），可以选择跳过 SFT。

如今语言模型已经在单纯的知识层面上非常优秀，有的方面甚至超过人类水平。截止到 2024 年 10 月的工作中，生成式 AI 的第一幕不管是在纯文本还是多模态的相关领域里，都取得了非常瞩目的成就。

比如，在 MMLU（2019 年的模型 Benchmark）上，语言模型的性能一直在被拉升，到 2024 年甚至性能达到了 90 的水平。

第一幕的大模型在推理层面表现并不出色，有两个例子可以佐证：

AIME Benchmark（美国高中生数学竞赛），从第一幕几乎最强的 AI 模型——Qwen 2.5 max 的结果来看，在数学领域的应用性能也不是特别好。

OS World Benchmark，可以观察到包括 GPT4o、Claude 这些出色的模型推理能力依然很弱。

在现实生活和实战场景中，复杂推理是非常重要的一项能力指标。不管是数理推理，还是工具调用，或者是智能体处理多个任务并行的能力场景中，我们都会有非常长链条的复杂推理需求。

正如 OpenAI 的一个员工所说，任何要完成的工作都会遇到障碍，而让你绕过这些障碍的是你的推理能力（Any job to be done is going to have obstacles along the way, and the thing that gets you around those obstacles is your ability to reason through them）。

无论如何对于过去、当下以及可见的未来，推理能力是一个非常重要的模型能力，但生成式 AI 第一幕的模型却做得不太好。

为什么 AI 的第二幕就是现在？为什么当下要去谈认知工程？

Insight 1：大模型基础知识一直在改变，预训练数据发生了质的飞跃，推理和思维数据成为赛点。

从 Llama 3, Qwen 2.5 来看，一个最核心的变化是，关于推理和思维的数据在 Pre-training 阶段会被堆叠得越来越多。以数学为例，在 Llama 3, Qwen 2.5 中，只考虑数学领域的 Pre-training data 就已经大于过去 Qwen-1 的整个 Pre-training data 总数。

Insight 2：若要使模型具备思考能力，需给足够多的思考空间

以教育场景为例，当学生已储备解决复杂问题所需的知识体系，但缺乏足够的演算空间（如草稿纸），也无法解题。

类比大模型领域，AI 不能仅具备知识数据，还得需给出足够的推理时间和计算资源。第二幕的第二个支柱在于，为模型提供足够的 token（计算资源）和建立合理的 thinking allocation（思考空间），才能有效支持模型完成复杂的推理任务，从而实现能力跃升。

Insight 3：AI 可以通过特定环境的自我学习开辟新的成长路径，持续进化解决问题的能力。

第三个支柱是一些训练方式的迭代，不管是 RL Scaling 还是 SFT，这些训练方法都能支撑模型在认知工程上做得更好。

自我迭代训练是 AI 模型能力成长的关键，无论是强化学习扩展（RL

Scaling）还是迭代式监督微调/直接偏好优化（Iterative SFT/DPO），其核心机制

都是通过持续的 on policy 训练，使模型能够根据环境反馈进行快速迭代成长。

仅依靠专家人类认知数据来培养模型的复杂认知能力面临着根本性的扩展限制。而自训练技术不仅提供了发展认知能力的替代路径，还通过 AI 自我发现策略创造了实现超人类表现的可能性。值得注意的是，"自我"训练并不意味着所有监督信号都由模型自身生成，而是需要模型积极从环境中寻求反馈以指导其学习过程。

第二幕的“深度思考”如何实现？技术路径是什么？

Insight 1: 智能沿着 Pre-training, Post-training 和 Test-time Scaling 实现跃迁

过去的 AI 研究中，主要是围绕将模型内部压缩出的智能程度作为共性输出，去赋能到更多的领域。而每次的进度都依靠这种智能程度的提升，获得更好的应用体验。

如果把 X 轴看成 Computation Scaling，Y 轴看成 AI Intelligence，可以观察到：

第一阶段，主要依靠预训练（Pre-training）在 Scaling 上做主要的突破。

第二阶段，主要依靠后训练（Post-training）突破 Scaling。

过去做了许多 SFT 数据的收集工作以及传统的 RLHF 工作。这里需要强调，传统的 RLHF 和 RL Scaling 是两个本质不同的概念，RLHF 还是 AI 第一幕中的概念，但 RL Scaling 已经是第二幕的概念了。通过 Post-training 可以让模型形成一些能力，智能程度再提升一些。

第三阶段，主要依靠 Test-time 做 Scaling，可以把已经做过预训练和后训练的遇到平台期的模型智能程度再提高一些。

Insight 2: AI 知识结构从记忆知识点、强化知识关联，向链接远距离知识点发展

预训练阶段，Scaling 的本质是让模型不停地学知识。通过建立无数的语料，使 Next-token-Prediction 能够更准确地预测下一次输出。本质上在一个知识图谱中呈现出来，相当于记忆了很多点（这些点可能是一个概念、人名等等，也可能是不同点之间的关联）。

后训练阶段，Scaling 的本质是有意识去引导已学习到的知识进行关联。通过 SFT 数据以及问答对去引导模型，强行建立和补充一些知识点间的关系。这个过程如果数据量足够多的话，也会带来一些知识的增加，但更多的是带来不同边际关系的增加。

Test-time 阶段，所能建立的是更长程节点知识之间的关系。可以把非常遥远的两个节点之间的关系给打通，实现这一效果的方式往往是通过一个高价值的问题。

而高价值的问题是能够正确找到这些长程节点之间关系的问题，很多时候相距较远的知识之间也许不是没有任何关系，而是通过原有的预训练和后训练方法都无法正确找到一个能够让他们彼此关联的问题。

Insight 3: 高价值问题是推理优化的关键，它激发 AI 探索多元推理链，也能自主发现超越人类认知的创新解法。

从本质上来看，高价值问题具有双重特性，既要能够经受深度思考的检验，又要能够激发持续性的认知探索，从而发现知识体系中远距离节点之间的潜在关联。

Test-time scaling 作为一种建模方法，其核心在于对多样化推理路径的探索与筛选，而这一认知过程始终由高价值问题所驱动。当系统成功构建出有效的推理链条后，将通过 SFT 的方式进行知识固化。

RL Scaling 本质上建立了一个基于规则的奖励机制（Rule-Based Reward）。如果在给定一个过去所有的知识中搜索路径成功了，即意味着发现了连接特定知识节点的认知通路。

值得注意的是，在找到这样的样本的过程中，人类知识可以先告诉他这道数学题怎么解的。但其实如果通过 RL 的自主探索，AI 系统很可能发现超越人类既有认知框架的创新性解决方案或全新思路。

在原生数据增长速率无法匹配算力增长的当下，

数据工程 2.0 的核心变革是什么？

Insight 1: 模型训练语料的总体三大变革——合成化、推理化、稀疏高效化

第一，从原生语料转向合成语料。合成语料不是指生成很多修饰词，也不是完全从 0 到 1 的合成，更不是静态的合成，而是一种基于策略和迭代式的合成数据。

第二，从知识型语料到推理型、认知型转变。提高数据的思维密度是第二幕整体的需求。SFT 的在提高思维密度上实际价值可能相对有限，因为他所扮演的角色像标准化答题训练，可能会限制原创思维的形成。

第三，从密集型语料向稀疏高效型数据转变。第二幕的模型基本非常 data-efficient（数据高效），即单纯一条样本就能发挥出非常大的价值。

模型训练就像老师的一句话往往能够对学生产生深远影响。在 knowledge foundation 建成之后，一条优质的引导（即具备高思维密度的样本），往往会对模型表现产生显著影响。

Insight 2: 合成数据将成为预训练语料 2.0 时代的核心。

1.0 时代：以人工筛选为主，方式直接，属于典型的人力密集型操作；1.0时代的语料非常简单，收集工作极其原始且繁重。

1.5 时代：引入了如 FastText 等自动化过滤机制，同时开始借助大模型本身进行筛选；此时模型训练的技术栈已经变得极为复杂，最终目标已不再仅仅是追求 Benchmark 指标，而是聚焦于训练团队在架构设计的合理性，数据配置的科学性，以至于提高RL Scaling 能力。

2.0 时代：引入了 Reasoning Model 作为数据合成的新维度，整个造数据的过程已经可以由AI自动循环完成了。把推理模型生成的高质量数据加到预训练环节中，效果提升很明显。关键这种提升不是凭借直接 SFT 得来的，而是通过和 RL Scaling 长期配合产生的协同演化，显著加速后续 RL Scaling 收敛速度。

Insight 3: 用策略构建更长更完整的思维链将成为后训练语料 2.0 的关键。

1.0 时代的 CoT 不能直接使用，而主要是在扩展数目。2023 年我们的判断，强推理任务至少需要数十万的样本，但现在这一假设已被颠覆：对于 1000 个样本，我们发现其实也可以解决相当的推理问题。

2.0 时代，我们已经能够实现 data efficient（数据高效）的目标，而这依赖于两个关键基础。

首先，充足的预训练模型知识。预训练模型需要具备足够的知识储备，以支持复杂的推理任务。这种知识储备为后续的微调和扩展提供了坚实的基础。

其次，充分的推理时间和计算资源。即使学生的知识储备足够解决某个复杂问题，如果没有足够的“草稿纸”（即推理时间和计算资源），他们也难以完成任务。因此，提供充足的推理计算能力是实现高效数据利用的关键。

“Less is More” 这一理念在强化学习（RL）和监督微调（SFT）领域同样适用，其核心支撑在于强大的预训练模型和高质量的后训练数据。

Insight 4: 训练语料 2.0 时代，追求更优质的后训练数据质量，持续优化性能。

当然，整个训练流程并非完全由模型独立完成，人类专家的经验和知识在各个环节中始终发挥着重要作用。人类的先验知识与归纳偏差会持续融入模型的训练过程，因此这一系统并非完全自封闭的。

具体而言，人类知识的注入往往集中在 Post-training 环节，甚至在 RL Scaling 阶段，通过引入少量高质量的认知数据来提升模型的能力。当这些人类知识被整合进模型后，进一步利用 Continue Pre-training 或 Pre-training 数据对模型进行再次训练，其能力会得到进一步增强。

由此可见，人类在整个训练过程中始终参与其中，只是随着模型复杂度的提升，对人类专家的要求也在不断提高。尤其是在后期，模型对认知数据的质量要求较高，可能只有领域专家才能提供足够精准和有价值的数据，从而持续优化模型性能。

关于 RL Scaling ，我们继续思考除了 Test-time 外，还有哪些模型训练方法？

Insight：在无数相关问题的讨论中，一个核心共识是，奖励函数（Reward Function）的设计至关重要。

当前，RL Scaling（强化学习扩展）领域已经涌现出许多方法论，我们几乎每天都能在 arXiv 或开源社区中看到大量关于强化学习的最新研究成果和实践经验分享。在这些讨论中，一个核心共识是奖励函数（Reward Function）的设计至关重要。

然而，对于奖励函数的预测与效果评估，目前的研究大多沿着一条清晰的主线展开——即通过不断实验与调整，探索如何更准确地预判奖励的表现，并以此为基础改进模型的学习能力。

基于任务可验证性原则（越容易被验证的任务往往会被优先解决），我们可以从数学和代码这类具有明确答案和验证标准的问题入手，逐步向前推进。对于开放性问题，那些可以通过搜索或现有知识库快速找到答案的问题相对更容易解决。然而，随着问题复杂度的提升，解决难度也会逐渐增加。

最终，可能会面临需要解决开放性研究问题的情况，例如活动发现（Activity Discovery）等。这类问题通常缺乏明确的验证标准，解决方案也更加依赖于创新性思维和探索性研究，因此是整个任务链条中最具挑战性的部分。

如何将 RL Scaling 应用到自己的领域中？

在进入一个全新的领域（无论是医疗还是科学领域）时，系统化的步骤至关重要。

首要任务是定位当前存在的短板 —— 问题根源究竟是知识储备不足，还是思考能力欠缺？

这两类问题对应着不同的解决路径：

知识储备不足的情况。当发现是缺乏相关领域的基础知识时，应当将知识补充作为首要任务。

思考能力欠缺的情况。若已具备充足的知识基础，却在解决复杂问题的思路上遭遇瓶颈，则可以借助 RL Scaling 技术提升模型的推理与决策能力。

关于 RL Scaling 和奖励模型、合成数据的现场讨论

现场提问: 在算力资源等有限（没有千/万卡集群）的条件下，团队应该如何分阶段去做 RL Scaling？

刘鹏飞：首先，确定计算资源配置与框架选型。在模型训练或推理前，需明确计算资源的配置，包括单机或多卡环境。框架的选择同样至关重要，目前开源框架的选择相对有限。

例如，半年前业界广泛使用的字节跳动框架尚未推出。Hugging Face 提供的框架虽然可用，但在推理效率方面表现欠佳。因此，Open HF 的选型需谨慎评估。此外，不同的计算资源（如 4 卡或 8 卡）需要适配不同的并行策略，需提前规划。

其次，制定合理的训练策略（Recipe）。在启动训练前，需明确目标与方法。

例如，若采用 RL Scaling，需清楚其核心目的是提升模型的推理能力，而非盲目进行训练。由于某些问题在基础模型（Foundation Model）的认知层面尚无法解决（类似“猴子随机敲击键盘写出《哈姆雷特》”的低效尝试），建议先构建测试样本集，评估模型是否具备解决该任务的能力。

若发现知识储备不足，可采取一些优化方式。比如 Continue Pre-training（持续预训练）和 RAG（检索增强生成）。

RL Scaling 的核心逻辑在于模型已具备基础问题解决能力，但需进一步提升准确性。因此，应先补充知识，再优化推理能力，可以通过知识蒸馏、监督微调、RL Scaling 等。

其中，蒸馏是推荐的首选方案，因为 RL Scaling 成本较高。若面向应用级需求，建议先通过蒸馏优化模型，构建高质量数据集，并在 Long thought 任务上评估性能。若仍需强化推理能力，可在 Long thought 上应用 RL Scaling，以加快收敛速度。

最后，基座模型的选择至关重要，例如 Qwen（千问）或 Llama。针对中文任务，建议优先选择 Qwen，并尽可能选用较小规模的模型。在选型时，需测试模型是否具备基础推理能力，或直接选用已优化推理能力的版本。

另外还需特别注意，尽量避免选择 1.0 时代模型的 SFT 版本，这类模型在 RL Scaling 任务上通常表现较差，优化空间有限。

现场提问：DPO 的局限性和上限在哪里？GLPO 跟 DPO 之间有哪些关联？应该怎么给算法应用优先级排序？

刘鹏飞：在算法验证优先级方面，DPO 在当前阶段不建议作为主要选择，建议采用以下排序策略——GRPO 应作为首选方案，其次是 PPO。

可以考虑采用迭代式拒绝采样（iterative rejection sampling）方案，其效果类似于迭代式监督微调（iterative SFT）。

DPO 在实际应用中的表现存在明显局限。虽然在第一幕中的效果尚可，但其性能下降速度较快。我们团队对 DPO scaling 技术抱有期待，希望其最终能达到 PPO 或 GRPO 的效果水平。今年 1 月已有学生开展相关实验设计，但截至目前尚未取得理想效果。建议待领域内对 DPO scaling 完成充分验证后，再考虑采用该方案，在此之前应谨慎使用 DPO 技术。

从技术原理来看，DPO 的局限性主要源于其信号反馈机制。它仅提供对比损失（contrastive loss），而缺乏直接的负样本信号。相比之下，GRPO 和 PPO 采用直接的正误判断机制，支持单次更新完成优化。其中，GRPO 采用相对轻量级的价值模型（value model）设计，在保证效果的前提下显著降低了训练成本。

即使 DPO 的效果确实容易被显现，但仅限于第一幕阶段。举例来说，在处理数学问题时，DPO 通常只需 5 次以内的迭代就能达到性能提升，优于完全不迭代的情况。然而 RL 方法（如 PPO）可以进行 1000 次甚至 8000 次迭代训练。

因此，DPO 在规模化性能方面远逊于 PPO。如果追求最佳性能，DPO 已不再是优先考虑的选择。

当前最优模型是在 PPO 基础上改进价值模型架构的版本，其工作稳定性和易用性优于 GRPO。但在整体性能相当的情况下，GRPO 因其成熟的领域适配性（初期稳定性问题已通过领域探索得到解决）而具有更高优先级。需要特别说明的是迭代式拒绝采样方案虽然存在固有局限（缺乏负向奖励信号，仅能优化当前序列似然），但在成本受限时仍值得尝试，因其在特定场景下能提供最佳性价比。

现场提问: 对于复杂没有标准答案的问题，应该怎么设计奖励模型？

刘鹏飞：首先关于如何设计奖励模型。研究团队普遍采取"先易后难"的实施策略，这从近期两篇重要论文中可以得到印证——优先验证那些相对容易实现的技术点。

针对开放域（open domain）的高价值场景验证难题，现有解决方案主要分为两类。

第一类是基于参考的评估（reference-based evaluation）。虽然缺乏标准答案，但可以借助现有开放域 QA 数据集作为参照基准。这种做法实质上是将问题转化为基于参考的评估体系，目前已具备可行性。

第二类是标准挖掘（criterion mining）方法。可以通过两个典型案例来说明。一是学术论文优化案例。通过对比同一论文的不同版本，挖掘质量改进的标准。这些积累的标准最终可以形成系统化的论文写作指导规范。二是 Paperbench 实践，建立完整的代码仓库评估体系，通过数十个乃至上百个评分点，并邀请原作者参与评审，构建论文复现质量的评价标准。

这种方法论对产业界具有重要启示。领域专家的经验可以通过 reward 标准的形式实现价值转化，而不必局限于传统的 SFT 数据标注方式。这种范式转变意味着几个关键点——专家经验可转化为可量化的 reward 标准，减少对标注数据的依赖，提升 RL Scaling 的实施效率，实现领域知识的系统化沉淀。

现场提问：创业公司采用 RL Scaling 的成本现状如何？

刘鹏飞：对于垂直领域创业公司，不建议直接投入 RL Scaling，更推荐选择好的模型去蒸馏，去验证模型的目标领域能力边界以及收益情况。这样做的成本只有蒸馏本身，训练的数据效率也更高。

在 RL Scaling 时代，每个人的优势都会成为胜势的一点，将对行业的独特见解和 insight 转化为 reward model。如果能够转化好，一个人最前沿、最深的的认知，就能干过大厂的几百人。

因为只要转化为 reward model，RL 会以最短路径去优化模型，这样个人的实力就转化成了模型，就算大厂有很多人，未必领域的理解深度会比一个人高。如果体感好的话可能会成为胜势(绝对的优势)。此时就可以使用 RL Scaling，而不再只是标数据，把领域经验转化成 reward model。

其中转化有两种方式。一是转化成 reward model，二是转化成 SFT 数据。转化成 reward model 会比较好比较省事。把最强的专业经验交给模型，有可能以少胜多。此时我才建议用 RL Scaling，因为直接冷启动的成本很高。

如果是自己创业做 RL Scaling，建议使用开源模型，先了解训练 RL Scaling 的配方然后去做会更好，不要重复试错。

现场提问：数据难度的评估没有办法做 model-agnostic，需要模型回答多次来判断数据难度，这样在数据筛选上的成本会不会比较大？

刘鹏飞：目前去评估难度其实挺自动的，可以用比较小的模型，比如千问 7B 的模型，我们来回答 32 次，看他回答得怎么样，是能回答的 1 次还是能回答 31 次，这是成本比较低的方法。

举个例子，前天 Deep Research 发布的 Benchmark，还有Jason Wei（OpenAI大模型专家）的另外一个评估，它的筛选和我们的思路非常像，有三个层的筛选，到最后第三个层已经是人在筛了，因为最后这个级别也是想构建一个更难的，让人去做 10 分钟之内找不到答案，我才能把它给放进来。所以其实它本身就是成本很高的事情，后面做 Benchmark 的成本很高。

现场提问：怎么能够更高效地识别高质量数据？以及你对数据行业最远的愿景是什么样？

刘鹏飞：好消息是数据不需要太多，训练也不需要太多，辛辛苦苦标一条数据，不管是评估还是测试，它的威力是很大的。用模型先去筛选一遍比人筛选的代价已经要低很多了，而这几乎成为标配，因为有可能迭一次模型，很多东西是可以复用的，不用每一次都去采，这也是整个大的趋势：先机器去采，去判断难度，实在不行的话，人去采，去判断一下。不用太担心，现在的模型比较 data efficient 之后，训练时也够用了。

最后一个问题就一句话，它需要和 model training co-design。

现场提问：真实数据和合成数据的成本问题，在未来的三到五年到底是一个什么样的走势？

刘鹏飞：真实数据处理到尽头，我觉得也可以不认同这个观点。唯一的原因就是是，还有很多动态过程数据一直在持续地更新，没有被用尽和被挖掘。是自然界比较静态的数据、互联网数据被挖尽了。

无论是无人驾驶还是科研，还在不断地收集真实数据。真实数据很有意义，因为合成不出来，所以真实数据采得越多越好，而且合成数据也不是从 0 到 1 的，它是和真实数据互补的。

举个例子，可以直接用 agent 去代理完成任务，再用 agent 去合成数据，也可以人工完成再去做数据。但往往是人先完成任务之后，再用 AI 去补全的效果会更好。完全采用 AI 非常的低效。

“真实数据已经被采尽了”，在所有的动态交互过程数据上都不成立。真实数据就永远都是最宝贵的，也是我们源源不断持续去做的。认知工程要求我们要不断地去构建更多的 infrastructure，采集更多以往没有采集的场景下的真实数据。真实数据采完后，训练模型，再通过 agent 去合成数据，但合成的多样性有限，然后再去采集再去合成。二者应该是完美互配的过程。

真实数据很重要，有 Infra 就去收集它，用 AI 去赋能，去洗去补全数据，去更好地使用数据。

现场提问：RL（DeepResearch）+ RAG 应该怎么做？

刘鹏飞：使用 RAG 来补充知识是非常常见的做法，尤其在像深度研究（deep research）和深度搜索（deep search）等任务在进行 RL 训练中。实际上，这些应用中的 RAG 往往更加复杂，需要进行在线检索（Online Search），并且与系统进行交互式使用，从而获取更多实时的知识支持。目前，整个 Deep Research 领域的大多数工作都在朝着这一方向发展，我们最近也有一篇相关的研究成果，详细探讨了这一技术[1]。

对于多智能体 + Deep research，实际上可以直接将一个静态的 RAG 与基础模型结合，并一起进行 RL Scaling 训练。这种方式通常能提供较为稳定的效果，并且是可行的。与传统的 RL 方法相比，唯一的不同就是增加了一个检索（retrieval）过程。

“RAG + Deep Research”本质上就是“RAG + RL”。现在有很多相关的开源代码可以利用，简而言之，若要将强化学习（RL）整合进现有的工作流程，就必须依赖 RL 的框架。目前，我们使用的是字节的 VeRL 框架，基于这个框架，可以搭建一个 RL 训练环境，然后结合 RAG 进行联合训练，这样的方式是可行的。

更多现场精选讨论

1. 一年后，能否用仅用几条或者几十条的少量数据快速构建领域强推理模型？

2. 站在 OpenAI 的角度，他们会如何考虑优化 PPO？

3. 预训练语料第二阶段应该 Scale 什么内容？迭代逻辑是什么？

4. 合成数据是在合还是在创造？是拿帧和帧合，还是拿现有的语法 reasoning 的结构去创造？

5. 推理（reasoning）数据如何向前移？

6. 当下大模型能否解读前沿数学、算法类论文？在数学算法推理问题上，有哪些最新的训练方法？

7. 用开源基座模型在垂类领域搭建推理模型时，是通过构造思维链数据来做 SFT，还是构造 RL 数据来做 RL？

8. 大量的实操经验存在于一线师傅和专家头脑中，如何通过 AI 技术实现经验沉淀？

9. 对于自动驾驶领域，如何平衡真实数据与合成数据的成本问题，未来的三到五年走势是什么样的？

10. 训练环境能否塑造出不同的 AI 系统和研究者能力？

11. 假如您有 30 万美元和一张 H800 去创业，你会怎么做？