O3时代:数据治理与大小模型,如何破解AI发展瓶颈?
©作者| Norlin
来源| 神州问学
引言:
去年底为人工智能带来了清算,科技公司OpenAI因其最新的实验性聊天机器人模型o3在一项标志着人工通用智能(AGI)进展的测试中获得了高分而引起了广泛关注。OpenAI的o3得分为87.5%,远超前人工智能(AI)系统的最高分55.5%。
今天,我们正迈入o3时代。AI形式不再是简单的对话应用,而是逐渐演变为具备复杂推理、自我优化和创新解决方案生成的智能体。
科技快速发展的背景下,新的未来发展趋势也逐渐浮现——自上而下的数据治理策略与大、小模型相结合。这种结合不仅代表了更加高效的数据管理方法,也揭示了未来技术架构的核心:小规模、高效能、灵活适应。AI不再依赖单纯的大规模数据与庞大模型的叠加,而是注重精确的数据管理和训练小模型的灵活性,实现更为精准和高效的任务处理,推动人工智能向更加智能、可控、可持续的目标迈进。
第一部分:o3时代的崛起
OpenAI o3是OpenAI o1的下一个版本,跳过o2是为了避免潜在冲突。o3在多项基准测试中给出了令人惊讶的结果,其中有四项基准测试尤其值得关注。
第一项测试:研究生级别的GPQA(A Graduate-Level Google-Proof Q&A Benchmark),防谷歌作弊问答测试。博士在其专业领域的准确率能到65%,但是非自己研究领域的专家在不受限访问互联网后准确率仅为34%,而o3首次以87%的准确率超越了人类专家。
第二项测试:前沿数学(Frontier Math),这是一组由数学家设计的极其难解的私人数学问题。在o3之前没有任何AI得分超过2%,o3答对了25%。
第三项基准测试:ARC-AGI,一个著名的“fluid intelligence”测试。o3的成绩断层式领先,在标准计算条件下获得了75.7%的分数,高计算量版本的o3甚至达到了87.5%的高分。
第四项测试:编码测试。o3在编码测试(SWE-bench Verified)中比o1的成绩高出22.8%,并且在Competition Code(Codeforces)中超过了OpenAI的首席科学家。
结合OpenAI的主张、行业专家们的猜测,特别是参与了o3基准测试,Keras 之父François Chollet分析,o3似乎进行几个重大的改进。
1、o3引入了一种 “程序合成”的新能力: 它能动态地将预训练期间学到的模式、算法或方法组合到新的配置中。最重要的是,程序合成允许o3解决它在培训中从未直接看到过的任务,例如,解决高级编程挑战或应对需要超越机械记忆的全新逻辑难题,这标志着它与早期的语言模型(如GPT系列)之间的分野。François Chollet将这种能力比喻为厨师用熟悉的食材组合起来制作独特的菜肴一样。
2、o3采用 “自然语言程序搜索”来进行推理: 这个方法依赖于思维链(CoTs),即逐步生成自然语言指令来解决问题。在推理过程中,o3会生成多个解决路径,并评估每一个路径的可行性,最终选出最符合现实需求的方案。类似于人类在面对复杂问题时,先进行多种方案的探索,再从中挑选最优解。如DeepMind在围棋中所展示的,通过强大的算力可以探索足够多的可能性,最终找到最适策略。
3、o3在推理过程中使用了一种内部集成的评估模型: 对每个解决方案进行评估。这使得o3不仅能够生成解决方案,还能够像人类一样进行自我检验,选择最符合实际的结果,变得能够处理更复杂的多步骤问题。
4、o3的一个重要创新是能够执行其生成的程序: 利用CoT来作为问题解决的工具。o3不仅能通过CoT逐步推理,还能将其作为可重复利用的构建模块,生成多个不同的解决方案。随时间推移,o3还能将这些解决方案作为经验进行学习,从而不断优化自己的能力,类似于人类通过经验积累和总结提高智慧。
综上,o3采用了深度学习驱动的程序搜索方法,进一步提高了它在复杂问题解决中的表现。它在生成多个解决路径时,依赖于在训练过程中学到的模式来评估每条路径的可行性。恰与人工智能向AGI(通用人工智能)演进的三大核心命题——持续学习、通专融合、长期记忆演化——形成深刻呼应。然而,这种“内部评估”方法可能会在面对实际问题时存在一定的局限性,因为它未必能应对现实场景中不可预见的挑战。同时,由于评估模型依赖于专家标注,o3的扩展性也面临一定的挑战,包括高昂的计算成本、数据质量的缺口以及高管人才的流失等。
第二部分:o3时代的数据治理战略
此前我们强调“人-数据”的理念,而现在变成了“人-数据-智能协同”的理念。大模型和数据治理是一个闭环,不断迭代,两者互相依存,相互辅助。 “自上而下”的数据治理战略成为未来发展的重要趋势。企业等各级决策者已经开始将数据视为一项战略资产。自上而下的数据治理战略强调从整体系统的高层次视角出发,制定全面的数据治理政策,确保数据的统一性和一致性,并在此基础上细化至各个具体的实施细节。
数据治理分为“自上而下”策略和“自下而上”策略:
“自下而上”策略的特点是:细节着手,然后向上发展,最终形成一个全面的图景或解决方案,多用于软件开发和项目规划等领域。但随着技术的发展,企业需要处理的数据种类和应用场景越来越复杂,这种战略难以应对复杂的跨领域需求;尤其对于大规模企业来说,容易造成重复工作和资源浪费。
“自上而下”策略的优势是:全局先行。可以明确数据处理的目标和方向,避免各部门或团队在数据治理上出现碎片化或重复建设的现象。通过高效的数据治理和标准化的流程,各层级的人员能够在数据使用上形成合力,帮助企业更高效地利用数据资源,降低运营成本。能够帮助高层从全局层面把握数据流动和分析的方向,从而促进数据驱动的决策制定,为企业提供良好的决策支持和战略性思维。
在数据量爆炸式增长的时代,确保数据的质量、隐私保护和安全性成为了自上而下数据治理中的核心内容。对于大模型而言,数据治理不仅需要确保数据的准确性、完整性和可靠性,还要确保与人类价值观对齐,并强化隐私保护和安全性。为了让大模型更好地服务于人类社会,应当遵循“3H”原则,确保大模型在处理数据时不仅具备高度的精准性,还能避免滥用和泄露隐私数据,严格遵循数据隐私保护规定,最大限度地减少数据偏差和误用风险。
第三部分:小参数大语言模型的复兴
清华的研究中心撰写了《LLM时代小模型的应用潜力与挑战》研究报告(以下简称《报告》)。《报告》通过分析国内外小参数大语言模型的发展现状与具体案例探讨了其应用潜力与面临的挑战,为我国AI行业发展提供了参考建议。
随着大模型的不断进化与应用,小参数大语言模型的复兴成为新的趋势,人们不再只关注大模型的应用,而是将大小模型结合,促使性能更加完善。与传统大模型相比,小参数大语言模型凭借其轻量化、可控性强和低延迟的优势,越来越受到各行各业的青睐。 尤其在资源受限的环境下,展现出强大的适应性和应用潜力,在物联网、医疗健康、智能硬件、边缘计算、教育行业场景中都有着许多成功案例。
1、小模型的显著优势是其轻量级特性。较于大模型占用更少的计算、存储资源。它能够在计算能力有限的设备上高效运行,极大地降低了硬件的要求,并提高了响应速度。这使得小模型特别适合在实时性要求较高且资源紧张的环境中使用。
2、小模型的可控性和定制化更强:小模型通常具有更高的可调性,开发者可以根据特定应用的需求调整模型架构、参数数量以及训练数据,以实现定制化效果。相对于大模型,小模型可以针对具体任务进行更精细的优化。
3、小模型通常具备低延迟的特性。能够在边缘设备上实时处理数据,快速响应外部事件,这对于需要高效、实时反应的应用场景至关重要。
去年,苹果发布小模型OpenELM,是一款专门针对手机等移动设备的模型。模型包含2.7亿、4.5亿、11亿和30亿共4个不同参数版本,共包括4个预训练模型和4个指令调优模型,提供生成文本、代码、翻译、总结摘要等功能。OpenELM 的创新之处在于:它的性能优于使用公开数据集进行预训练的现有开源大模型,如下表1所示。例如,具有 11 亿个参数的 OpenELM 性能优于 OLMo。
新加坡科技设计大学的研究团队推出了一款名为TinyLlama的语言模型。该语言模型的参数量为 11 亿,在大约 3 万亿个 token 上预训练而成。此外,TinyLlama还采用了一些先进的优化技术,如Flash Attention 2、FSDP和xFormers,使得其在每个A100-40G GPU上训练时的吞吐量达到了每秒24000个token。
但是,在特定场景下小模型表现出较低的泛化能力,甚至产生不准确的预测、生成内容以及幻觉;模型通常设计为专门处理特定领域或任务,难以应对跨领域的复杂问题。因此,在当前大模型时代,大小模型呈现出即合作又相互竞争的状态。在未来发展阶段,小模型所蕴藏的无尽潜能,亟待我们深入探索与发掘。可能会出现更多针对某一细分领域的小模型,将垂直行业与人工智能深度结合,促使各行业的智能化加速推进。
第四部分:全局数据治理战略+小参数大语言模型
o3时代将大数据与小模型、小模型和大模型紧密结合,推动构建既具有泛化性又具备专业能力的AI系统。这一趋势的推动力主要来自以下两个方面:
数据驱动的个性化应用: o3能够通过小模型在专业领域数据中找到精准的规律,并为不同行业提供定制化的解决方案。例如:在医疗领域,通过对患者数据的分析,o3或许可以构建个性化的治疗方案并实现精准医学,而这需要小模型的高效处理能力和低延迟。
优化计算与存储成本: 大模型通常需要强大的计算能力和大量的存储空间,这对许多企业尤其是中小型企业来说是一大挑战。而小模型基于其轻量化和高效性的优势,可以显著降低计算和存储成本。这使得更多的企业能够在资源有限的情况下,利用AI技术实现数字化转型和创新。
近日,DeepSeek-R1大模型的发布及其配套论文引发了业界广泛关注。该研究不仅提出了创新的模型架构,还通过知识蒸馏技术成功衍生出六个轻量化小模型,如DeepSeek-R1-Lite系列。
根据论文披露,DeepSeek-R1的核心竞争力源于其顶层数据治理框架:研究团队首先构建了跨领域、多模态的统一数据湖,通过严格的质量控制、去噪清洗和标准化标注,形成了高质量训练数据集。这种自上而下的全局数据治理战略确保了数据的一致性、安全性与可复用性,为模型训练提供了可靠的基础设施。
因此,小参数大语言模型+全局数据治理战略实践的价值在于:
1.数据驱动的模型协同: 顶层数据战略解决了小模型训练中的“碎片化数据”痛点;统一的治理体系,如特征对齐,使得蒸馏后的小模型能直接复用高质量数据管线,避免重复治理成本。
2.效率与性能的平衡: 论文中实验表明,六个小模型在参数量减少80%的情况下,仍能通过知识蒸馏保留大模型90%以上的核心性能,同时推理速度提升5-10倍,印证了“大模型集中训练、小模型分散部署”的技术经济性。
3.合规与敏捷的统一: DeepSeek-R1的数据治理框架内置了权限控制和合规审计模块,确保小模型在医疗、金融等敏感场景中符合数据本地化与隐私保护要求,而小模型的快速迭代能力,如联邦学习微调,进一步支持了业务敏捷性。
结语:
“全局数据治理战略”与“大、小模型”的结合,不仅是技术效率的优化,更是智能化社会的基础设施革命。通过全局数据治理,企业得以打破数据孤岛、确保合规性与安全性;而小模型则渗透至终端场景,将数据价值转化为实时、低耗的智能服务。这种“中枢-边缘”协同模式,正推动AI从集中式算力垄断走向分布式普惠赋能。
当然,技术与战略的进步必须与伦理责任同行。小模型的广泛部署需直面隐私保护、算法偏见、能源消耗等挑战——唯有将公平性、透明性、环境友好性嵌入技术设计(如联邦学习提升隐私、绿色AI降低碳足迹),才能实现真正的可持续发展。
未来,随着边缘计算、神经架构搜索(NAS)和开放式数据生态的成熟,小模型将不再是大模型的“附属品”,而是场景智能的核心载体。