智源社区 前天 16:15
AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动在火山引擎原动力大会上发布了豆包大模型1.6,一款国内首个多模态、支持256k上下文长度的模型。该模型在高考实测中表现出色,展现了强大的推理能力,尤其在物理、数学等科目上取得了优异成绩。此外,豆包大模型家族还新增了Seedance 1.0 pro、语音播客模型和实时语音模型。火山引擎也发布了多模态数据湖、Data Agent、AgentKit等工具,构建AI云原生基础设施,助力企业智能化转型。

🖼️ 豆包大模型1.6是国内首个多模态大模型,支持文本、图像、视频等多模态理解,并具备GUI操作能力,这意味着它不仅能“看”,还能“动手”,展现了强大的综合能力。

💯 在高考实测中,豆包大模型1.6在物理、数学等科目上表现出色,展现了强大的推理能力,尤其在处理带图物理题和几何题时,能够给出详细的解题步骤和正确答案。

🐱 豆包1.6的多模态图像能力令人印象深刻,能够准确识别猫的品种、小熊猫和浣熊等,甚至能根据图像信息推断出地点,展现了强大的视觉理解能力。

🎬 豆包1.6具备视频理解能力,能够分析视频内容,生成剧本,甚至能够识别和描述MacOS 26的Dock栏视频,展示了在视频领域的应用潜力。

🚀 火山引擎发布多款产品,包括多模态数据湖、Data Agent、AgentKit等,构建AI云原生基础设施,为企业提供从数据到决策的全链路智能化解决方案,加速AI在各行业的应用。

编辑:编辑部 YZXN

还得是字节,一下子能掏出这么多好东西。

就在刚刚,火山引擎原动力大会上发布的豆包大模型1.6,是国内各家SOTA模型中首个多模态模型,也是国内首个支持256k上下文长度的思考模型。

此外,豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型也都在火山引擎上全量上线。

这让豆包大模型家族凭借全模态支持、全尺寸覆盖和超高的性价比成为行业领先的顶尖模型。

其中,豆包大模型1.6除了支持深度思考、多模态理解,还能进行GUI(图形界面)操作,这意味着豆包既有「眼睛」,还能「动手」。

性能上,无论是数学、推理还是多模态,都妥妥的国际第一梯队水平。

现在新推出的模型推理能力都很强了,拉出来解个数学题啥的应该问题不大。

豆包大模型1.6做今年的海淀模拟全卷,就取得了理科706、文科712的高分!

相比之下,去年的豆包只有600分左右的成绩,真是进步巨大。

看起来这么厉害,高考刚刚结束,来实测一下这次的豆包1.6是不是「真的」能考上清北。

高考题测试推理能力


首先从比较少有人测的物理开始。

看看豆包能否搞定带图的物理题目。

来看一道今年刚刚出来的物理真题,这是一道压轴题,关于大气压强的。

光看到题目,大部分小伙伴可能已经投降了,让我们期待一下豆包大模型1.6「学霸」的表现。

稳定又惊艳!

连续两次测试都得到完美的正确答案。

可以看到,每一个小问,豆包大模型1.6都会给出思路分析、关键步骤以及最终答案,相当的详细。

而且,回答中对于公式的渲染也没有任何的问题,看起来舒服又专业,大大的点赞👍。

上下滑动查看

思考的过程也非常流畅,没有拖泥带水的感觉,消耗的token量很少。

上下滑动查看

值得一提的是,豆包1.6可以启动AUTO模式——模型会自动判断当前问题是否需要启用「思考」,这样不仅可以针对简单题目省去不必要的思考时间来提高效率,并且还能大幅减少token的消耗。

不难发现,豆包1.6在思考模式下的思维链非常简洁清晰,既没有大段毫无意义的废话,也不会陷入自我怀疑夸张不停地重复。

一步一步做完,最后再检查一遍,就直接「出炉」了。

接下来我们测试了网上讨论很多的一道考生做起来很简单,但大部分模型都全军覆没的图表题。

在这道需要精准识别坐标和向量方向的推理题中,豆包1.6的表现依旧惊艳,可以通过逻辑清晰的5个步骤解答出正确答案。

但需要说明的是,豆包1.6在回答这道问题时并不稳定,大概是图像箭头的识别容易混淆。

上下滑动查看

看来上面这道题豆包已经可以解出来了,那么只能请出今年高考的数学压轴题了!

豆包这次的思考时间明显变长,足足耗时505秒,看着长长的思考列表,不得不感叹这也太强了,这么长的思维链竟然没有断开。

思考过程也更加复杂,不仅要记住三个小问题,还要一个个攻破。

仅仅是一小部分的思考过程(上下滑动查看)

在实测过程,还意外的捕捉到了豆包1.6「啊哈时刻」,和之前DeepSeek-R1论文中的简直如出一辙。

最后来展示下豆包给出的答案,和目前流传的答案对比,也是完全正确。

上下滑动查看

此外,这次全国卷中还有一道带有图片的几何大题,我们也让豆包1.6来挑战一下。

这次豆包仅用83秒就完成了解答,在和网上的答案进行比对后,豆包再次答对。

上下滑动查看 

高考化学题目也不在话下(对不起,我的化学已经完全还给老师了,这是什么天文符号啊)。

在经过180秒的思考后,豆包完成了这道题目(有没有大学霸帮忙看看,豆包做的对不对)。

图像识别和分类


实测豆包1.6多模态图像能力,真的被震惊,甚至比ChatGPT 4o原生图像能力还要强大。

如果让你分辨这些猫猫的品种,后两种肯定难不倒你,但是前两个大概率会猜错。

但是豆包1.6只用了不到40秒就完全回答正确!要知道小熊猫和浣熊是非常容易认错的。

豆包的思考过程非常的详细,已经能够「细致到」识别动物头顶的小撮发色、眉眼的纹路以及一点点漏在外面的粉色舌头。

上下滑动查看

还有最近很火的看图猜地点玩法,下面这张图几乎没有任何额外的有效信息,即使是专业玩家也无法准备定位。

意外的是,豆包竟然猜了个大差不差。

结果这就离谱,豆包竟然根据植物分辨出了南北,还根据环境中的电线猜出了城市道路。

最后定位于北方城市公园(真的就是北京某个公园,有没有大佬猜出这是哪里的),还给出了可能的选项,真的要给跪了,太强了。

视频理解能力


豆包1.6多模态大模型现在还可以直接理解视频,你敢信?!

上传一个太阳系的视频,豆包就能给出这个视频的完整分析。

豆包就像一个编剧一样,将视频内容完全地转化为了剧本。

上下滑动查看

在字节的官方描述中,豆包1.6的视频理解不仅可以提取视频信息、描述视频内容,还可以根据视频创作文案,还能审核。

上传一个最新出炉的MacOS 26的最新Dock栏视频,豆包竟然也能识别。

甚至还给出了每个App的详细描述,以及视频画面中鼠标的位置变动,这样看起来这个功能真的有点科幻了!

GUI操作


在智能体越来越流行的当下,能让智能体「动起来」也变得越来越重要。

豆包大模型1.6凭借强大的视觉深度思考和精准的视觉定位能力,能让智能体轻松与浏览器和其他软件互动,高效完成各种任务。

它对GUI(图形界面)的操作,远不止代替人点击几下APP界面那么简单,而是能打破传统APP和界面的限制,更智能、自动化地满足人们的真实需求。

比如,豆包大模型可以调用豆包APP,自动上传小票、自动识别小票的消费地与金额,甚至还能进行汇率换算、整理到Excel表格里。

火山引擎加速进击AI云市场

如今,火山引擎已经在快速进击AI云市场。

过去两年多,字节自研的豆包大模型和火山引擎的AI云原生基础设施,已经获得不少市场的认可。

如今,他们的优势还在进一步扩大。

豆包的优势


首先,豆包1.6模型的超高性价比,扩大了竞争优势。

现在,豆包大模型的日均Tokens使用量,已经达到了16.4万亿,占中国公有云大模型服务调用量的第一,市场份额直接达到了46.4%。

随着深度推理模型的发布,AI工具的Tokens消耗增加了4.4倍;K12的在线教育场景增加了12倍;新出现的智能巡检、图片信息理解等场景,也迅速单日破百亿Tokens。

同时,豆包大模型的应用,还在加速渗透企业生产场景。

比如在消费电子行业,全球有Top 10手机厂商中有9家都选择了火山引擎;在汽车行业,它已经助力了8成主流启程的AI升级;在金融领域,它服务了70%的系统重要性银行;在教育,火山引擎已经和北大等超5成的985高校达成合作。

Agent开发平台


很多人说,25年很可能是中国的智能体应用元年。在这个阶段,深度思考、多模态理解和工具的基础调用,是模型进化的关键方向。

而在AI时代,大模型要做好强推理、多模态、低成本,才能支持好Agent的大规模应用。

同时,厂家也需要提供强化学习、Prompt优化、MCP Hub、知识库、运行沙盒等种种开发平台和工具,才能基于模型做好Agent的开发。

总之,构建高生产力的Agent,既要用好AI,也需要做好AI。

为此,火山引擎提供了一系列工具,其中MCP和知识管理,属于「用好AI」的层面,而PromptPilot和强化学习,则属于「做好AI」的范围。

MCP

围绕MCP协议,火山引擎致力于链接开发、生态和云服务这三大要素,目的是将其串联起来。

现在,火山引擎的MCP Hub,已经和AI原生IDE Trae、火山方舟体验中心、Cusor以及扣子打通,可以一键选择200多个丰富的MCP协议和服务。

它集成了还火山引擎的云服务,帮助用户快速进行端到端AI应用开发。开发者通过MCP,就可以控制火山引擎的大部分云服务组件,把创意变成成熟的产品了。

PromptPilot

同时,火山引起还推出了大模型应用的重要领航员——Prompt Pilot。

在第一步,它就可以让开发者以最自然的语言来表达一个模糊的需求,在简单互动中得到一个初步增强后的Prompt。

然后,它还能在互动中,帮助用户明确理想的回答和评估标准。

另外,它还能让开发者通过good case和bad case的对比,表达自己对哪一版更满意,通过自动比较分析,积累出更完整的真实意图。

在这个过程中,它还能实现提示词的自动优化。

好消息是,现在PromptPilot已经面向所有用户全面开放了!豆包大模型再加上PromptPilot,将意味着模型潜能的极致挖掘。

AI知识管理

同时,今天火山引擎还发布了AI知识管理产品。

首先,它可以消化全部的信息模态,能支持文本、图像、视频等多模态的对话式输入,还能把输出的数据组织为更为易于理解的图表。

其次,它可以将企业和平台的本地资源和互联网的内容结合,以企业内部信息为主,以互联网搜索为辅,呈现出更立体的结果,内外联动,瞬时可查。

另外,它还能进行可交互的推理——「做个计划」,过程还可修正,就好像你正在和同事协作一样。

veRL强化学习框架

如今,强化学习的应用会越来越重要,多步骤复杂任务的成熟和落地,已经是2025年的重要趋势。

不过,强化学习的落地,始终面临着很多挑战,有很多门槛。

为此,字节跳动开发了veRL强化学习框架,并在2024年1月正式开源。

它可以轻松扩展各种强化学习算法,将现有LLM基础设施与模块化API进行无缝集成,还拥有极致的吞吐性能,支持复杂工具的使用场景。

现在,它已在Github社区获得8.6k stars,已经有将近30个行业工具、框架基于其发展。它已是学术界、产业界最受欢迎的RL框架之一。

数据


大数据上,AI时代数据的量级和类型都在发生变化。

从结构化数据,到非结构化数据,再到以多模态数据为主,如何为AI构建多模态数据湖,就成为了新的挑战。

多模态数据湖

为此,火山引擎专为企业打造了新一代AI原生数据基建——多模态数据湖。

它能支持GPU和CPU的异构计算,大幅提升资源使用率,灵活支持多种开源系统,还能和火山的机器学习平台和方舟平台一键打通。

这样,用户就能通过可视界面操作数据,筛选出高质量的数据导入到方舟平台,进行下一步的应用和精调。

由此,数据就从过去的单纯支撑商业智能报表,转变为驱动AI模型训练与决策的核心燃料。

Data Agent

很多企业都希望,能用AI给每个员工配置一个数字专家。基于这样的观察,火山引擎推出了Data Agent产品。

这个企业级的AI数字专家,能够主动思考、洞察、分析与行动,构建自主进化数据大脑。

比如,现在你需要做今年的618规划,分析过去的促销需求。这个任务过去需要多个分析师花10多天完成,现在Data Agent在一个小时内,就能给出对应的结果。

由此,Data Agent让每个员工都能像专家一样思考,让企业竞争力得到质的飞跃。

AI Infra


在AI时代,要以大规模GPU推理为核心来构建新一代的计算、存储和网络系统。

火山方舟上,豆包和DeepSeek的性能之所以达到业界最佳,背后都是下面这些基础设施的功劳。

AgentKit发布

AgentKit是围绕着Agent打造过的工具和平台进行的一个整体的SDK封装。

依托字节跳动大量AI应用研发经验,它提供了强大的Agent开发底座。

它通过极致弹性沙箱,保障了工具生态安全高效运行,还搭配开箱即用的记忆管理机制和Agent全链路观测等核心能力。

由此大幅降低了Agent开发的复杂性,帮助企业聚焦核心、提高效率。

TrainingKit发布

模型的训练正在向预训练和后训练转移,以RL为代表的后训练,对基础设施提出了更高的要求。

火山引擎的云原生训练套件TrainingKit,面向预训练提供集群诊断、故障自愈等能力,助力实现高达99%+ETTR。

因为提供了HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法,它助力实现了高达60%+MFU。

面向后训练,它提供了veRL框架集成、训推引擎集成,Sandbox百万核秒并发能力,助力后训练吞吐提升,有效提升了后训练的效果。

ServingKit推理套件

ServingKit提升了模型在推理过程中的效率问题,特别是通过支持各种开源框架的优化。

目前,它已经为互联网、物流、汽车等诸多行业头部客户提供了强大的AI基础设施。

总之如今这个时代,在基础架构层面,计算、大数据、安全都在发生巨大变化。

这一系列新的技术栈,就是所谓的AI云原生,它是企业在AI时代构建好Agents创新的关键。

而火山引擎提供的一系列产品,就能为企业保驾护航。


三条技术主线,火山走在最前沿


2025年的AI赛道,依旧热闹非凡。

OpenAI谷歌争相发布旗舰模型,Anthropic、微软等国内外科技巨头纷纷追赶,AI百家争鸣成为常态。

难道在这条路上,只有异而没有同吗?

火山引擎智能算法负责人吴迪点明了三条清晰主线。不管市场噪音多大,今年这三大主线是不会错的。

多模态推理:从「文本脑」到「视觉脑」

AI推理能力和深度思考早已融为一体,对模型理解至关重要。

然而,仅靠文本推理远远不够。

真正的智能爆发,需要「视觉理解」的加持,包括图片、视频,让AI像人一样「看懂」世界。

因此,2025年多模态理解,将成为行业核心突破点。

豆包1.6正是这一趋势下的先锋,凭借文本、图像、视频综合理解力,解锁一系列丰富的场景。

不过,吴迪也坦言,行业应用尚未全面爆发,将是今年亟待攻克的难题。

视频生成:从「玩具」到生产力

2024年底,全球视频生成模型,还停留在「玩具」阶段,难以进入实际生产。

但到了今年,情况彻底改观。

以谷歌Veo2、Veo3、可灵2.0、豆包Seedance为代表,让整个行业看到,视频生成技术已迈入实用门槛。

或许到了年底,AI视频生成将广泛渗透到短视频广告、电商宣传、专业内容创中。

这次我们也看到了,豆包Seedance 1.0 Pro尤其注重镜头语言和智能理解,生成的视频不仅画面真实,还能捕捉指令背后隐性语义。

比如,一位醉汉在雪地中行走输出中,它会自动呈现蹒跚步伐和复杂表情,堪称「AI导演」。

多步骤复杂任务:不仅会答题,还会干活

如今,我们已经从生成式AI迈向了Agentic AI时代。

可以这么理解,生成式AI给你一段代码,还得自己手动跑;而Agentic AI直接帮你把活干完了。

多步骤复杂任务,正是这一转型的核心,常听的Tool Use、Computer Use都是这一类型。

目前,豆包大模型1.6的GUI能力,已能自主操控APP,比如刷抖音点赞,妥妥一个小能手。

除了以上三点,还有一个值得注意的现象是——2025年token用量将迎来爆发式增长。

核心驱动因素,来自多模态推理和工具使用场景。一个基础任务可能消耗10万token,更别提视频生成这类巨耗计算资源的场景了。

更重要的是,强化学习需求的崛起,将重塑算力格局。

吴迪透露,2024年上半年,火山方舟的SFT算力占比高达30%,如今降至5%。

随着复杂任务的普及,强化学习算力需求,将在26年秋季逼近预训练水平。

半年前,火山引擎开源的veRL框架,以高精度、易用性、高吞吐量,成为了强化学习领域的全球标杆。

火山引擎Force大会,不仅知识技术秀场,更是AI产业的风向标。

豆包大模型1.6以「清北级」实力,轻松破解高考难题,展现多模态AI无限可能。

从「看懂」图,到「干完」复杂任务,豆包1.6用硬核表现告诉我们——

AI不只是工具,更是能思考、能行动的「超级助手」。

火山引擎更是以AI云原生为引擎,携veRL框架和MCP生态,帮助企业从数据到决策全链路智能化,稳稳占据了MaaS市场头把交椅。

未来,随着Seedance 1.0 Pro、语音播客模型、实时语音模型推向落地,相信行业能够解锁更多应用场景。

内容中包含的图片若涉及版权问题,请及时与我们联系删除

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

豆包大模型1.6 多模态 火山引擎 AI云原生 Agent
相关文章