刘高畅/李可夫 2025-05-28 17:33 浙江
豆包低调干大事
核心观点
豆包推出视频通话功能,多模态入口划时代更新。5月23日,豆包App实时通话功能全面升级,新增视频聊天问答功能。用户在工作、生活、学习场景中遇问题,可随时通过视频与豆包对话获取解答。视频通话功能使用便捷,只需将豆包App更新至最新版后,于对话框选择“打电话”,点击“视频通话”即可开启。技术层面,视频通话功能基于豆包视觉理解模型的重大升级,具备多模态信息融合处理、复杂任务处理及实时联网检索三大核心能力,实现从静态图像到动态视频的跨越。技术团队优化模型架构,将平均响应延迟控制在 800毫秒内,且模型具备情境保持能力,为场景化AI交互筑牢基础。AI交互从“一问一答”到实时“看+听”跨越,有望催生更多应用创新。相比传统AI助手一问一答的交互方式,豆包视频通话功能通过视觉信息的引入构建自然语境,降低了用户描述需求,整理prompt的门槛。与普通图像识别相比,其连续互动特性允许用户在对话中补充信息,助力 AI 修正理解偏差,使交互更自然精准。据网经社,在博物馆场景中,用户提问准确率较纯语音输入提升 40%;多模态交互令老年用户使用意愿提高65%。我们认为此次升级标志着AI交互的重大突破,随着模型与硬件技术的持续发展,未来有望催生更多创新交互方式与应用场景。建议关注:
算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、海南华铁、潍柴重机、科华数据、大位科技、新易盛、中际旭创、胜宏股份、玉柴国际、亿田智能、宏景科技、云赛智联、圣阳股份、润建股份、弘信电子、有方科技、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、杰创智能、朗科科技等。
Agent:金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、赛意信息、麦迪科技、用友网络、宇信科技、京北方、中科金财、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。
军工AI:品高股份、普天科技、能科科技、海格通信等
风险提示:
报告正文
01
基础模型在细分领域微调
豆包App实时通话功能升级,支持视频聊天问答
5月23日,豆包App实时通话功能升级,支持视频聊天问答。本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。将豆包app更新到最新版后,打开豆包对话框,选择“打电话”按钮,点击右侧“视频通话”选项,即可开始和豆包视频对话。
图表图表1:豆包视频通话入口 |
|
资料来源:豆包公众号,国盛证券研究所 |
据豆包公众号,公园游玩不清楚花草知识,逛博物馆不认识各类文物,图书馆看书不知道哪本评分高,逛菜市场不熟悉搭配做法,都可以打开视频,问问豆包。
图表2:公园游玩不清楚花草知识可以打开视频问问豆包 |
资料来源:豆包公众号,国盛证券研究所 |
图表3:逛博物馆不认识各类文物可以打开视频问问豆包 |
资料来源:豆包公众号,国盛证券研究所 |
图表4:图书馆看书不知道哪本评分高可以打开视频问问豆包 |
资料来源:豆包公众号,国盛证券研究所 |
图表5:逛菜市场不熟悉搭配做法可以打开视频问问豆包 |
|
资料来源:豆包公众号,国盛证券研究所 |
豆包视频通话功能背后是核心技术突破与架构升级。此前在2024年12月18日,字节发布了豆包视觉理解模型,让用户可以同时输入文本和图像相关的问题,模型能够综合理解并给出准确的回答。据网经社,此次上线的视频通话功能建立在豆包视觉理解模型的重大升级基础上。该模型展现出三大核心技术能力:多模态信息融合处理能力,可以同步解析视觉画面与语音输入;复杂任务处理能力,能够完成从景点讲解到微积分解题等差异化需求;实时联网检索能力,确保提供信息的准确性与时效性。
相比去年底的图片理解功能,此次升级实现了从静态图像到动态视频的跨越。技术团队通过优化模型架构,将平均响应延迟控制在800毫秒以内,使交互过程接近自然对话。特别值得注意的是模型的情境保持能力,能够在连续视频流中持续跟踪对话主题,这种技术突破为真正的场景化AI交互奠定了基础。
视频通话功能是多模态重大突破,有望解锁更多应用创新。据极客公园观点, 传统的大模型 AI 助手的交互是“一问一答”式的,用户输入 prompt然后AI生成反馈,一大矛盾在于,整理编写prompt 是有门槛的,描述清楚需求难度并不低,而视觉信息的引入,则为人机交互建立了一个“语境”,且这个语境的建立不需要任何门槛,用户不再需要精确描述问题,只需展示所处环境,AI就能主动理解需求背景。据网经社数据显示,在博物馆测试场景中,使用视频功能的用户提问准确率比纯语音输入提升40%,显著降低了交互门槛。交互方式上由于实现了从文本输入到多模态交互的转变,老年用户测试组的使用意愿提升65%。同时豆包的视频通话功能相比普通的图像识别,连续互动的优势也至关重要。基于单张图像的理解和推理,很可能出现各种理解偏差、错误。有了视频模式之后,即便豆包给出了一个比较可疑的回应,也可以通过换个角度,提供更多信息,来给豆包进行更多思考和修正的机会。豆包的视频通话功能通过连贯的互动加上视觉理解,让用户和 AI 交互的过程变得更自然了,可以通过不断补充、解释,来接近自己想要的那个目标。这种用户和AI互相引导,对 propmt进行不断修正,能极大增加 prompt 输入的带宽和精确度。
我们认为,从豆包的视频通话功能令AI的交互实现了从“一问一答”到实时“看+听”的跨越,未来随着模型能力的进一步发展,以及硬件的发展例如AI眼镜等,人类与AI的交互方式有望出现更多创新,进而带来各种新的应用场景。
02
投资建议
建议关注:
算力:寒武纪、海光信息、阿里巴巴、奥飞数据、协创数据、海南华铁、潍柴重机、科华数据、大位科技、新易盛、中际旭创、胜宏股份、玉柴国际、亿田智能、宏景科技、云赛智联、圣阳股份、润建股份、弘信电子、有方科技、深信服、神州数码、深桑达、品高股份、金山云、南都电源、云天励飞、优刻得、云从科技、浪潮信息、中科曙光、太极股份、首都在线、杭钢股份、数据港、南兴股份、华策影视、顺网科技、恒为科技、网宿科技、杰创智能、朗科科技等。
Agent:金山办公、泛微网络、金蝶国际、鼎捷数智、拓尔思、赛意信息、麦迪科技、用友网络、宇信科技、京北方、中科金财、致远互联、金桥信息、汉得信息、朗新集团、上海钢联、新致软件、同花顺、信雅达、萤石网络、润达医疗、中科金财、恒生电子、星环科技、卫宁健康、创业慧康、软通动力、光云科技、科大讯飞、万兴科技、海天瑞声、创业黑马、迈富时、小商品城、金证股份、顶点软件、朗新集团、晶泰控股、佳发教育、嘉和美康、新大陆、新开普等。
军工AI:品高股份、普天科技、能科科技、海格通信等
03
风险提示
AI技术迭代不及预期风险:若AI技术迭代不及预期,则对产业链相关公司会造成一定不利影响。
经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响。
行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。
具体分析详见2025年5月28日发布的报告《划时代的多模态入口》
分析师 刘高畅 分析师执业编号S0680518090001
特别声明:《证券期货投资者适当性管理办法》于2017年7月1日起正式实施。通过微信形式制作的本资料仅面向国盛证券客户中的专业投资者。请勿对本资料进行任何形式的转发。若您非国盛证券客户中的专业投资者,为保证服务质量、控制投资风险,请取消关注,请勿订阅、接受或使用本资料中的任何信息。因本订阅号难以设置访问权限,若给您造成不便,烦请谅解!感谢您给予的理解和配合。
重要声明:本订阅号是国盛证券计算机团队设立的。本订阅号不是国盛计算机团队研究报告的发布平台。本订阅号所载的信息仅面向专业投资机构,仅供在新媒体背景下研究观点的及时交流。本订阅号所载的信息均摘编自国盛证券研究所已经发布的研究报告或者系对已发布报告的后续解读,若因对报告的摘编而产生歧义,应以报告发布当日的完整内容为准。本资料仅代表报告发布当日的判断,相关的分析意见及推测可在不发出通知的情形下做出更改,读者参考时还须及时跟踪后续最新的研究进展。
本资料不构成对具体证券在具体价位、具体时点、具体市场表现的判断或投资建议,不能够等同于指导具体投资的操作性意见,普通的个人投资者若使用本资料,有可能会因缺乏解读服务而对报告中的关键假设、评级、目标价等内容产生理解上的歧义,进而造成投资损失。因此个人投资者还须寻求专业投资顾问的指导。本资料仅供参考之用,接收人不应单纯依靠本资料的信息而取代自身的独立判断,应自主作出投资决策并自行承担投资风险。
版权所有,未经许可禁止转载或传播。