机器之心 前天 18:24
从高考到实战,豆包大模型交卷了
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

火山引擎在Force 2025大会上发布了一系列AI产品和升级,包括豆包大模型1.6、Seedance 1.0 Pro视频生成模型等,展现了其在AI领域的全面布局。豆包1.6在性能上取得显著提升,并支持多模态理解和GUI操作。Seedance 1.0 Pro在视频生成方面表现出色,媲美甚至超越了现有领先模型。此外,火山引擎还发布了实时语音模型、播客模型以及AI基础设施套件,旨在构建AI云原生生态,推动AI技术的实际落地。

🚀 豆包大模型1.6版本性能显著提升,达到世界前沿水平,支持256K上下文,并掌握多模态理解和GUI操作。

🎬 Seedance 1.0 Pro视频生成模型发布,支持无缝多镜头叙事、多动作及随心运镜,在视频生成方面表现出色,与Veo3和可灵2.0等模型竞争。

🗣️ 火山引擎发布实时语音模型,面向B端企业开放,并推出了播客专用模型,丰富了AI应用场景。

🛠️ 火山引擎构建了AgentKit、TrainingKit和ServingKit三大AI基础设施套件,分别用于智能体、模型训练和模型服务,推动AI云原生发展。

🧠 火山引擎强调“AI云原生”概念,旨在优化AI工作负载的云端构建和部署,重新定义AI基础设施,为智能体时代做好准备。

机器之心报道

编辑:Panda


高考余热尚在,依然还是有不少博主和媒体在测试各家 AI 模型解答最新高考题的能力。而现在,一个正被火热评测的主流模型迎来了重磅升级!


事情发生在昨天、北京国家会议中心、火山引擎原动力大会 Force 2025 现场。


火山引擎一口气发布了豆包大模型 1.6、Seedance 1.0 Pro、AI 云原生平台等多项新产品或升级,涉及语言、多模态理解、GUI 操作、代码、视频生成、语音、播客、基础设施,再加上之前发布的豆包 Seedream3.0 生图模型和豆包音乐模型,堪称火山引擎「十项全能」的「AI 盛宴」。


首先也是最重要的,必然是豆包大模型 1.6(Doubao-Seed-1.6)(以下简称豆包 1.6),其包含三个主要版本:标准版 Doubao-Seed-1.6、深度思考强化版 Doubao-Seed-1.6-thinking 以及极速版 Doubao-Seed-1.6-flash。


性能上,不管是一般任务还是推理基准,豆包 1.6 都进步明显,达到了世界前沿水平,跻身第一梯队;也是国内首个支持 256K 上下文的思考模型系列,并且已经掌握了多模态理解和 GUI 操作两大重要技能!



另外,火山引擎也晒出了豆包大模型在最新高考试卷上的成绩。如下图所示,其中左侧的高考全国新一卷数学单科成绩正是来自于我们之前的评测,但被测豆包是前一代的 Doubao-1.5-thinking-vision-pro,但它已能达到 144 高分,并列国内模型第一。而右侧则给出了豆包 1.6 和去年版本在海淀模拟全卷上的成绩,可以看到豆包的成绩已经从能读重本升级成了能上清北的水平了。



豆包 1.6 虽然丰盛可口,但也只是这场 AI 盛宴上的主菜之一。在火山引擎 Force 大会上,我们还看到了豆包视频生成模型 Seedance 迎来了正式版本 1.0 Pro,其支持无缝多镜头叙事、多动作及随心运镜以及稳定运动与真实美感。在 Artificial Analysis 视频竞技场中,Seedance 1.0 Pro 的表现甚至超过了当前领先的 Veo3(去除音效) 和可灵 2.0。(虽然下图 Seedance 的名称中没有 Pro,但确为同一模型。)


Artificial Analysis 视频竞技场文生视频和图生视频排行榜前十名


在音频方面,火山引擎宣布已经备受用户欢迎的实时语音模型开始通过火山引擎面向 B 端企业用户开放。另外,我们也看到火山引擎之前发布的面向播客的专用模型也出现了在 Force 大会的舞台上 —— 已可在扣子空间体验。另外,我们也在 Force 2025 的视频直播页面看到了默默工作的豆包同声传译的身影。


在 AI 基础设施方面,火山引擎围绕 AI 应用的实际需求,打造了三个套件:AgentKitTrainingKit 和 ServingKit。顾名思义,这三个套件的作用分别是智能体、模型训练和模型 serving。


整场 Force 大会下来,我们最大的感受是火山引擎对「AI 云原生」概念的反复强调。简单来说,「AI 云原生」是指将云原生理念应用到 AI 领域,专注于 AI 工作负载的云端构建和部署;其核心理念是以 AI 负载为中心,重新优化计算、存储与网络架构,让 GPU 可直接访问存储和数据库,降低 IO 延迟,并提供高速互联和端到端安全保护。事实上,正如我们以前多次报道的那样,「AI 云原生」已经成为火山引擎「下一个十年」所遵循的云计算新范式。


作为火山引擎这场 AI 盛宴的前排「食客」,我们也是第一时间进行了品尝。下面就来看看机器之心的一手实测,看看火山引擎究竟是否「十项全能」。


一手实测

每道菜都很香


话不多说,开始品尝。


豆包 1.6:版本号提升 0.1,能力迈进一大截


自豆包 1.5 于 1 月下旬发布以来过去了还不到 5 个月,豆包大模型的版本号虽然仅提升了 0.1,但其能力的深度与广度都迎来了重大提升。在火山引擎的 AI 体验中心,我们对这款与 OpenAI o3-pro 和 Mistral 的 Magistral 这两款推理模型同一天问世的系列模型进行考校。


感兴趣的用户也可访问体验中心,选择模型后亲自尝试:

https://exp.volcengine.com/ark?model=doubao-seed-1-6-250615


首先用一个常规测试题来测试下标准版 Doubao-Seed-1.6:


使用 Python 编写一个贪吃蛇游戏,要求蛇撞墙后会死亡,游戏场景中还有一些撞到会死亡障碍物,整体色彩丰富一些。


Doubao-Seed-1.6 用时 277 秒完成了这个任务。接下来将代码复制到 Trae 看看运行效果:



Doubao-Seed-1.6 毫无压力地一次性完成了整个任务,结果甚至有点超出预期。更早之前我们在其它模型上测试类似的编程任务时,还常会遇到一些报错或者游戏参数设置不合适(比如蛇的速度过快)的问题,而这一次,我们无需对代码进行任何修改!


接下来考验一下 Doubao-Seed-1.6 的推理能力。先来一个 24 点问题:


使用这 5 个数构建三个不同的等式,使等式的值等于 24。要求每个等式中每个数至少用一次:2、3、5、13、29。可使用任何高等数学方法。


618 秒后,我们得到了答案。



经验证,这三个答案全都正确并且是超额完成了目标:在每个等式中都使用了每个数并且每个数都使用了一次。


在一个 AI 爱好者群里,我们看到有群友说,豆包 1.6 是第一个能通过非编程式推理成功解决五位数密码推理问题的国产模型,所以这一次我们也把开启深度思考的 Qwen3 和 DeepSeek-R1 拉到一起进行同台竞技。


7 8 6 3 5 (有 3 个数字是正确的,但位置都不对)

1 6 3 8 4 (有 1 个数字正确且位置对,有 1 个数字正确但位置不对)

9 2 7 4 1 (有 2 个数字正确且位置对,有 1 个数字正确但位置不对)

5 6 4 8 3 (有 1 个数字正确且位置对,有 1 个数字正确但位置不对)

6 7 1 5 3 (有 2 个数字正确且位置对,有 2 个数字正确但位置不对)

推理出这五位数是什么?


先剧透一下,正确答案是 1 2 7 5 3。


我们的三位 AI 选手在拿到这个问题之后都进行长时间的思考,深度思考版 Qwen3-235B-A22B 消耗了 38,912 token 后率先给出了一个结果,但并不正确。


Qwen3 的解答


第二完成任务的是 Doubao-Seed-1.6,用时 353 秒,并且结果正确。


Doubao-Seed-1.6 的解答


从其思考过程可以看到,Doubao-Seed-1.6 首先会对条件进行分析,并从中确定出最重要的条件,然后基于此再执行进一步推理。如此就能水到渠成地得出正确答案。对本题解决思路感兴趣的读者可访问这里:

https://www.volcengine.com/experience/ark/share/exsc-202506121206-%5BHqK0STXzPXIl6AxyAB93-%5D



DeepSeek-R1 的思考时间最长,耗时 1051 秒,但也仅仅给出了一个「尽管有部分偏差,但整体符合多数线索」的答案。是的,这个答案并不正确。


DeepSeek-R1 的解答


接下来,我们再试试豆包 1.6 的多模态理解能力。比如如果我们想给自己的博客建一个漂亮的 Landing 页面,而我们又不想进行复杂的代码编写和参数调整,我们完全可以简单手绘一张图,然后让豆包直接帮我们生成想要的结果。打开 Canvas,上传手绘草图,然后简单说出我们的需求:



我想制作一个动态网页,这是我手绘的设计稿,请生成这个页面。



结果?相当出人意料。或许是因为笔者的手书实在惨不忍睹,豆包 1.6 在解读图片时领会错了含义,竟然在近 5 分钟后生成了一个相当不错的机械波动态演示网页。该网页支持正弦波、方波、三角波、锯齿波的演示,并支持波速、振幅和频率调节。效果相当不错。感兴趣的用户也可以访问这里进行尝试:

https://www.volcengine.com/experience/ark/share/mcs-202506112116-%5BMvSEQxz8V52WBHGe5qCer%5D


我们又尝试了其他手绘草稿,但豆包 1.6 未能完全准确地复现出我们手绘的网页形式(不过也确实给出了一些相当可用的结果),存在过度解读现象 —— 生成的结果会增加许多额外的信息或采用完全不同的设计。我们猜想这可能涉及到多模态语言模型的幻觉问题,这方面还需要豆包模型和学术界做进一步的研究探索。


豆包 1.6 还具有边想边搜、深度研究能力,能独立思考、规划、使用搜索等各种研究工具。举个例子,昨日 Meta 宣布了 148 亿美元重金投资 Scale AI,引发市场关注,而我们可以借助豆包 1.6 的工具使用和深度研究能力帮助我们了解这件事可能对 AI 行业产生什么影响,以及可能导致哪些股票上涨或下跌。


上下滑动查看

可以看到,由于这是刚刚发生不久的事件,并不在豆包 1.6 的记忆之中,因此它在执行这个任务时,首先会进行搜索和分析,形成对事件的基本了解,然后会根据任务规划接下来将要执行的任务步骤,之后再具体执行执行步骤。


最后,对于前些天的高考数学卷评测中让受测的所有多模态大模型折戟的第 6 题,我们又拿来检验了一下 Doubao-Seed-1.6 系列模型的表现。




如果只提供问题截图+一句话提示「解答这道数学题」,豆包 1.6 仍未能正确解答这个问题。大概是因为这种坐标系和细线、箭头对模型来说确实比较难识别。


Doubao-Seed-1.6-thinking 解答 2025 年高考全国一卷数学第 6 题的过程


从这个问题的解答以及前面的网页生成示例看,多模态推理模型依然还有进步空间。


Seedance 1.0 Pro:比肩前沿的视频生成模型


接下来,通过即梦 AI,我们抢先内测了火山引擎新发布的比肩 Veo3 和可灵 2.0 的 Seedance 1.0 Pro。


先来一个简单的场景,看看 Seedance 1.0 Pro 的动态一致性表现。


提示词:一个小男孩在海边迎着风放风筝,风筝突然被风吹飞,绳子挣脱,他追着风筝跑。



可以看到,Seedance 1.0 Pro 在细节与真实感上已经达到了非常拟真的程度,我们甚至能看到小男孩跑动时头发自然的摆动。


接下来,加入镜头切换的元素,测试一下 Seedance 1.0 Pro 的叙事控制、空间一致性和镜头语言理解能力:


开场为背后跟拍镜头:女孩穿着赛博朋克风外套在未来城市中行走,霓虹灯反射在街面。

切换至主观视角:她看着广告牌中一段闪现的神秘图像。

转为航拍全景镜头:俯瞰整个街区,光流动,车辆自动穿行。

最后切到近景侧面:女孩走入一扇自动门,镜头停留在门缓缓关闭的瞬间。



是的,这个提示词很复杂,因此我们选择了生成 10 秒长度的视频,而 Seedance 1.0 Pro 虽然没能做到完全遵循指令,但在镜头切换上的表现却着实让人惊叹。


然后,我们想看看 Seedance 1.0 Pro 能否很好地应对高速运动测试场景。这一次,直接让 Doubao-Seed-1.6-flash 为我们快速编写一个提示词吧:



选择其中第三个,交给 Seedance 1.0 Pro 看看。



可以看到,即使对于高速运动场景,Seedance 1.0 Pro 也能一次性生成相当出色的结果。顺便一提,这一次我们还加上了 AI 音效。


最后,也必须试试 Seedance 1.0 Pro 基于参考图像生成视频的能力。是时候让朋友家的边牧出场了,看看它能否在 Seedance 1.0 Pro 的魔法下变成一个年轻小伙。



有点瑕疵,但整体来说相当成功。


不止文本与视觉,还有语音


除了豆包 1.6 系列模型和用于生成视频的 Seedance 1.0 Pro,火山引擎在此次 Force 大会上还发布了一个类似 NotebookLM 的播客模型,可以根据用户提供的资料以及网络信息生成自然流程的对话式播客节目。


另外,火山引擎也宣布已经备受用户欢迎的实时语音模型开始通过火山引擎面向 B 端企业用户开放,现在开发者也能在自己的应用中集成这个既能说方言,还能讲悄悄话和唱歌的 AI 了。


整体看来,在豆包这个品牌下,火山引擎要做的并不是面向单个任务或模态的单点突破,而是面向真实世界的全面智能体。


由于火山引擎这一次更新了不少产品和服务,所以我们的实测也只能做到点到为止,包括豆包+Trae、MCP 和 PromptPilot 等诸多能力我们都没有进行测试。事实上,火山引擎还专门打造了一个应用实验室,可让用户尝试针对不同场景开发的智能体应用。这些模型和技术的真正潜力还需要等待作为用户的你亲自去挖掘。


https://console.volcengine.com/ark/region:ark+cn-beijing/application


如此 AI 盛宴

火山引擎是怎么做出来的?


在经历了火山引擎在我们的视觉和听觉感官上的多重炫技之后,我们不禁会想:在当今这个嘈杂纷扰、让人目不暇接的 AI 领域,为什么是火山引擎做出了这么多广受欢迎的模型和产品?


归根结底,在于火山引擎在技术上的「饱和投入」,而这些投入在整体上又可划分为火山引擎智能算法负责人吴迪曾谈到今年的 AI 技术发展的「三条主线」。


首先,第一条主线是「推理+视觉」范式的发展。吴迪指出:「如果仅仅是把推理和思考放在文本上,还不能完全发挥模型应有的智能;当我们把推理和思考用在视觉理解上,就会解锁更广泛的应用场景。」现在,豆包的模型能力已经基本上能实现有效的视觉理解了,但行业的应用还有待涌现。这也将是火山引擎今年将重点关注的发展路线。


第二条主线则是视频生成走向实用。这条主线的标志性事件是谷歌 Veo3 模型的上线,其在做到了高质量视频生成的同时还能同时生成恰到好处的语音和音效。而更早一些的 Veo2 与可灵 2.0 则已经开始让视频生成不再局限于娱乐和研究领域,而是开始真正进入实际生产环境,被用于制作广告短片甚至生产专业视频内容。


而第三条主线就是多步骤复杂任务,这也就是当今大热的「智能体(Agent)」概念。不同于生成式 AI,智能体 AI 不只是会生成用户查询的结果,更是会实实在在地执行具体的任务,甚至主动对用户的任务进行拆解、处理和优化。这一条主线正在火热发展中,但直到今天为止,大部分相关产品和服务都还处于探索阶段。吴迪预计多步骤复杂任务会在今年最后 3 个月左右逐渐走向成熟,并且这有望带来一个全新的产业。



事实上,这些技术发展的主线趋势也反映在了云服务商的 token 使用量上。吴迪表示,推理 + 视觉、视频生成、和工具使用将成为今年 token 用量增长的主要来源,甚至带来增长斜率的拐点。


当然,这三大主线本身也是由大量更底层的技术进步交织而成的。在 Force 2025 大会上,我们也看到了火山引擎近段时间已经上线部署的一些重要技术进展。


比如在智能体开发方面,火山引擎实现了对 MCP 协议的全面整合,将智能体开发体系、云服务和大模型工具链接到了一起,其中还集成了近 200 种优质的生态服务,支持用户快速跳转至火山方舟或 Trae、Cursor 等支持 MCP 协议的开发工具,帮助用户快速进行端到端 AI 应用开发。



火山引擎也构建了自己的 PromptPilot 服务。这是大模型应用落地的「领航员」,可以把模糊的诉求变为具象化的目标并自动撰写和优化提示词。比如,在产生 badcase 时,它代替我们分析与检测每一条 badcase,并实现提示词的自动优化。



而要让智能体发挥真正的价值,知识管理也至关重要。火山引擎的 AI 知识管理可理解和处理文字、图片、视频及超大文件,并支持本地内容理解 + 互联网信息补充以及进行交互式推理。



另外,为了让智能体 AI 真正有能力完成各式复杂的任务,尤其是对准确度要求非常高的任务(比如医疗和法律),后训练也非常关键,而强化学习已经成为最重要的后训练策略之一。针对这一需求,字节跳动去年开源了强化学习框架 veRL,并收获了开源社区的广泛好评 ——star 量已经超过 9300。几天前,火山引擎发布了 veRL v0.4.0 版,实现了对 DeepSeek 671B 和 Qwen3 235B 等大型 MoE 模型的支持,并且可通过 SGLang 支持带有工具调用和多轮 RL 的样本级 rollout。


截图自 veRL 项目:https://github.com/volcengine/veRL


数据方面,火山引擎为企业打造的新一代 AI 原生数据基建:多模态数据湖,可帮助企业打造出适应智能体时代的数据基础设施,将数据转变为驱动 AI 模型训练与决策的核心燃料。火山引擎还针对企业的需求打造了新一代企业级 AI 数字专家,其能够主动思考、洞察、分析与行动,从而为企业构建自主进化数据大脑。


而火山引擎为 AI 基础设施构建的三大套件 AgentKitTrainingKit 和 ServingKit 也蕴含着巨大潜力。



其中,AgentKit 和 TrainingKit 是在 Force 大会上最新发布的。前者提供了强大的智能体开发底座,可通过极致弹性沙箱保障工具生态安全高效运行、并搭配开箱即用的记忆管理机制和智能体全链路观测等核心能力,助力企业高效构建、部署、运维复杂智能的企业级智能体。后者则是火山引擎面向预训练打造的云原生训练套件,提供了集群诊断、故障自愈、HPN 高性能智算网络、veCCL 集合通信优化、BCC 拥塞控制算法、veRL 框架集成、训推引擎集成等能力。


ServingKit 则已在今年 4 月上线,其提供了涵盖大模型推理部署加速、推理性能优化和运维可观测的推理服务全生命周期优化方案,且可灵活集成到客户自有推理系统和业务系统中。


而这些也只是火山引擎面向「AI 云原生」时代的创新的一部分。打开火山引擎官网产品页面,你能看到这家正蓬勃发展的云服务商为满足 AI 应用的各式需求所开发的各种产品和解决方案,从中我们也能看到它的壮志雄心。


火山引擎官网截图,来自:https://www.volcengine.com


在 Agent 时代

火山引擎率先交出了可落地的答卷


随着模型能力不断向多模态、长链条任务延展,大模型产品也正从语言对话的交互阶段,迈向更复杂、更贴近实际的智能体形态。火山引擎此次集中发布的一系列模型和工具,不只是一种「能力炫技」,而更像是在寻找一个更通用、更具落地性的 AI 能力框架。在快速演化的技术潮流中,它提供了一份相对清晰的阶段性答案。


与「模型先行、应用滞后」的行业惯性相比,火山引擎在应用场景的覆盖面和产品化节奏上走得更快了一步。从豆包 App 里的生成体验到企业客户可调用的服务接口,从文本、图像到视频和语音的统一调度…… 可以看到火山引擎对 AI 实际落地路径的某种认识:面向落地的 AI 才是好 AI。


本次 Force 大会中提到的「AI 云原生」,虽仍处于概念逐步落地的过程中,但其指向的方向具有共识意义 ——AI 基础设施需要被重新定义。未来的智能应用,不只是「调用模型」,更是构建、部署和管理大量动态智能体的过程。而围绕这个目标,无论是火山引擎发布的三大开发套件,还是 veRL 等强化学习组件,都是在为下一阶段的 AI 产品形态做准备。


当然,每一代技术热潮都会带来一批「十项全能」的主角。模型好不好用、用不用得起、能不能持续演进…… 是所有玩家都必须面对的现实考题。而火山引擎显然已经做好了准备,正如字节跳动 CEO 梁汝波说的那样:「我们将长期投入,让火山引擎成为深受客户信赖的云服务平台。」高考刚刚过去,豆包以「全能」为题交上了一份答卷;但真正的竞争刚刚开始,未来几年将是整个行业从「考场比拼」走向「实战落地」的关键阶段。而这,可能才是智能体时代真正值得关注的拐点。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

火山引擎 豆包大模型 Seedance AI云原生 智能体
相关文章