DeepTech深科技 04月09日 18:56
又一家叫“Deep”的大模型公司浮出水面,谷歌老将创业公司开源混合推理模型,据称超越同规模DeepSeek-R1与Qwen
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

由 DeepMind 前产品经理和谷歌工程师创立的 Deep Cogito 公司,发布了其首个开源大型语言模型系列 Cogito v1。该系列模型采用创新的“混合”架构,能够在快速响应的标准模式和深度推理模式之间切换,以更高效地处理不同复杂度的任务。Cogito v1 基于 Llama 和 Qwen 模型进行微调,涵盖了 3B 到 70B 的多种参数规模,均已开源。该模型的核心在于迭代蒸馏与放大(IDA)的训练方法,通过自我改进实现超人智能。测试结果显示,Cogito 模型在性能上超越了同等规模的开源对手,并在推理模式下进一步提升,尤其在工具调用方面表现出色。

🧠 **混合架构:** Cogito v1 模型采用“混合”架构,能够在标准模式和推理模式之间灵活切换。标准模式用于快速响应简单问题,推理模式则投入更多计算资源进行深度思考,从而提升回答质量。

💡 **IDA 训练方法:** Deep Cogito 采用迭代蒸馏与放大(IDA)的训练方法,该方法通过“放大”步骤利用更多计算资源生成更优解,再通过“蒸馏”步骤将更优解内化到模型参数中,实现模型的自我提升。

🚀 **性能表现:** Cogito 模型在标准模式下已超越同等规模的开源对手,在启用推理模式后性能进一步提升。例如,Cogito 8B 模型在 MMLU 测试中得分达 80.5%,超过 Llama 3.1 8B 模型 12.8 个百分点。

🛠️ **工具调用:** Cogito 模型在原生工具调用方面表现出色。例如,Cogito 3B 模型支持四种工具调用任务,而 Llama 3.2 3B 不支持工具调用。Cogito 8B 在所有工具调用类型上得分超过 89%。

🌟 **未来展望:** Deep Cogito 计划发布更大规模的模型,包括 109B、400B 和 671B 的混合专家模型。他们还将继续探索 IDA 及其他后训练自我改进方法,以实现通用超级智能的目标。

KIK 2025-04-09 16:45 北京

由 DeepMind 前产品经理谷歌资深工程师联手创立的美国旧金山初创公司 Deep Cogito 近日正式结束“隐身”状态,发布了其首个开源大型语言模型系列——Cogito v1。该系列模型的核心亮点在于其创新的“混合”架构,允许模型在




由 DeepMind 前产品经理谷歌资深工程师联手创立的美国初创公司 Deep Cogito 近日正式结束“隐身”状态,发布了其首个开源大型语言模型系列——Cogito v1。该系列模型的核心亮点在于其创新的“混合”架构,允许模型在需要快速响应的标准模式和需要深度思考的推理模式之间灵活切换,旨在以更高效的方式应对不同复杂度的任务。


(来源:Deep Cogito)


和 Claude 3.7 以及未来的 GPT-5 一样,Cogito v1 系列模型也结合了标准(非推理)组件和推理组件。这意味着模型在面对简单、直接的问题时,可以迅速给出答案;而在遇到需要深入分析的复杂查询时,则能“切换”到推理模式,投入更多计算资源进行思考和自我反思,从而生成更高质量的回复。


Deep Cogito 本次发布了基于 Meta 的 Llama 和阿里巴巴 Qwen 预训练模型进行微调的 Cogito v1 系列,涵盖了 3B、8B、14B、32B 和 70B 五种参数规模,所有模型均已开源(项目地址:https://huggingface.co/deepcogito)。


Deep Cogito 的核心创新在于其采用的训练方法——迭代蒸馏与放大(IDA,Iterated Distillation and Amplification)。公司在其官方介绍中指出,当前大模型训练范式往往受限于“监督者”(无论是人类标注者还是更强大的教师模型)的能力上限。为了突破这一限制,实现真正的超人智能(Superintelligence),模型需要具备超越监督者的自我改进能力。


IDA 正是为此设计的一种策略,其灵感部分来源于 DeepMind AlphaGo 的“自对弈”机制,并将其应用于自然语言处理。该方法包含一个核心的循环过程:首先通过“放大”步骤,利用更多计算资源(例如,让模型进行更长时间的思考或调用子程序)来生成一个比模型当前能力更优的解决方案或推理过程;接着,在“蒸馏”步骤中,将这个通过额外计算获得的、更高质量的“思考过程”及其结果,“提炼”并内化回模型自身的参数中。


通过不断重复这两个步骤,模型在每次迭代中自我提升,其能力边界逐渐由可用的计算资源和 IDA 方法的效率决定,而非受限于最初的监督者水平。Deep Cogito 表示,采用 IDA 方法,一个小型团队仅用约 75 天就开发出了 Cogito v1 系列模型,这显示了该方法在时间和资源效率上的优势,尤其相较于传统的基于人类反馈的强化学习或直接从更大模型蒸馏的方法。


在性能表现方面,根据公司发布的基准测试结果,所有尺寸的 Cogito 模型在标准模式下已经超越同等规模的开源对手,而在启用推理模式后性能进一步提升。具体来看,Cogito 3B 模型在 MMLU 测试中的得分比 Llama 3.2 3B 高出 6.7 个百分点(65.4% vs. 58.7%),在 Hellaswag 测试中高出 18.8 个百分点(81.1% vs. 62.3%);在启用推理模式后,MMLU 成绩进一步提升至 72.6%,ARC 达到 84.2%。


Cogito 8B 模型在 MMLU 测试中得分达 80.5%,超过 Llama 3.1 8B 模型 12.8 个百分点;在 MMLU-Pro 上领先超过 11 个百分点,ARC 测试达到 88.7%。启用推理模式后,MMLU 成绩提升至 83.1%,ARC 达到 92.0%,在几乎所有类别上都超过了 DeepSeek R1 Distill 8B,除了在 MATH 基准测试中 Cogito 得分较低(60.2% vs. 80.6%)。


图丨 Cogito 8B 的性能表现(来源:Deep Cogito)


中型模型方面,Cogito 14B 和 32B 模型在综合基准测试中比 Qwen2.5 同等规模模型高出约 2-3 个百分点,其中 Cogito 32B 在推理模式下 MMLU 达到 90.2%,MATH 基准测试达到 91.8%。


最大的 70B 模型表现也可圈可点,Cogito 70B(标准模式)在 MMLU 测试中比 Llama 3.3 70B 高出 6.4 个百分点(91.7% vs. 85.3%),在综合基准测试得分上超过 Llama 4 Scout 109B 模型(54.5% vs. 53.3%)。与 DeepSeek R1 Distill 70B 相比,Cogito 70B(推理模式)在通用和多语言基准测试中表现更强,MMLU 达到 91.0%,MGSM 达到 92.7%。


图丨 Cogito 70B 的性能表现(来源:Deep Cogito)


除了一般基准测试外,Deep Cogito 还评估了其模型在原生工具调用方面的表现。结果显示,Cogito 3B  原生支持四种工具调用任务(简单、并行、多重和并行多重),而 Llama 3.2 3B 不支持工具调用。Cogito 3B 在简单工具调用上得分达 92.8%,在多重工具调用上超过 91%。Cogito 8B 在所有工具调用类型上得分超过 89%,明显优于 Llama 3.1 8B(35% 至 54% 之间)。


关于公司背景,Deep Cogito 于 2024 年 6 月在美国加州注册成立,总部位于旧金山。根据其 LinkedIn 页面和相关报道,公司由两位联合创始人领导:CEO Drishan Arora 曾是谷歌的高级软件工程师,曾领导谷歌生成式搜索产品的大模型建模工作;另一位创始人 Dhruv Malhotra 曾在谷歌 AI 实验室 DeepMind 担任产品经理,负责生成式搜索技术。而这家公司的名称 Deep Cogito,也很难不让人去遐想其与 DeepMind 的关系(Cogito 是拉丁语 Cogitare 的第一人称形式,意为“我思考”)。


公司目前已经获得了包括 South Park Commons 在内的风投支持,目标是打造“通用超级智能”(general superintelligence)——能够在大多数领域优于人类并有能力发现我们尚未想象的全新能力的 AI 系统。他们将 IDA 视为实现这一目标的有效路径,因为它有望摆脱对人类智慧上限的依赖,实现可扩展的自我完善。


Deep Cogito 计划在未来几周或几个月内发布更大规模的模型,包括参数量达到 109B、400B 和 671B 的混合专家模型(MoE,Mixture of experts)。同时,他们将继续通过延长训练周期来更新现有模型的检查点,并持续探索 IDA 及其他互补的后训练自我改进方法。


参考资料:

1.https://www.deepcogito.com/research/cogito-v1-preview


运营/排版:何晨龙






01/ 浙大团队打造新型仿生神经元,可重构生成丰富脉冲发放行为,有望实现类脑计算高效部署

02科学家开发世界首例东亚特异性遗传模型,约12%东亚人群携带该遗传变异,助力治疗慢性髓性白血病

03/ 美国生物数据库禁止中国用户使用,业内人士:中国早有应对预案

04/ DeepMind预计AGI或在2030年来临,指出4种降低AI错误的方法,针对错位问题提出两道防线

05/ 科学家设计三维力自解耦触觉传感器,将数据采集流程“化繁为简”,可用于测量机器人力分布

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Deep Cogito Cogito v1 开源大模型 IDA 训练方法
相关文章