原创 WaytoAGI 2025-04-21 22:54 浙江
多模态、推理模型和MCP,会让AI应用进入下一个里程碑。
上周四,社区小伙伴们@AJ、@彬子、@一泽Eze、@CY、@银海等人,受邀去参加了火山方舟线下Meetup。
刚听说有这个活动时,很多小伙伴连夜从外地赶来,迫不及待想看看这次火山方舟又要带来哪些惊喜!
很有意思的是,隔壁的会场是公开发布会,而我们这场小范围的闭门会议则主要面向开发者,专注于体验火山方舟新功能的细节。
这次Meetup主要是三部分内容:
- MCP应用-DeepSearch豆包深度思考模型AI硬件体验
其中让大家都十分感兴趣的是MCP应用-DeepSearch的体验,银海老师也记录了自己的使用体验和感受👇🏻
DeepSearch 是一款火山方舟专为处理复杂问题而精心设计的高效工具,集成了联网搜索、知识库、网页解析、Python 代码执行器等丰富的 MCP 服务。
你可以用它来深度挖掘信息,尤其是在学术研究、企业决策,或者是产品调研场景中,它都能提出切实可行的解决策略。
在火山方舟-应用广场中,排在第一位的就是(阅读原文直达应用广场)
它也支持本地部署,有开源教程↓
Github:https://github.com/volcengine/ai-app-lab/blob/main/demohouse/deep_search_mcp/backend/README.md
点进应用后,就能直接开始体验应用。输入问题,它先开始对任务进行拆解,并调用集成的 MCP 服务自动执行,最后输出结果。
以简单的旅行攻略为例,它把问题拆解为了4层,包含经典景点、美食推荐、住宿推荐、交通方式,每一层的信息都很丰富全面。
在右侧能看到调用了哪些 MCP 服务,比如这个问题,能看到只使用了“联网搜索”。
目前的 MCP 服务包含了检索工具、信息处理、实用工具,和云服务-存储,据说后面还会开放更多 MCP 服务接入,期待一下!
最终的结果生成速度也很快,整个过程小几分钟就能完成,而且内容十分全面。详细行程+吃住行都有考虑到,还根据不同预算推荐了不同的酒店、美食。
在生成内容中随便揪了几个门票价格来交叉确认,也都是准确的。
唯一有点误差的是雷峰塔开放时间,正确的时间应该是08:00-20:00(5月1日至10月31日),不过网上搜到的非官方信息更加凌乱。
银海老师还测试了另一个例子:“怎么购买特斯拉 Model Y 更有性价比?”。
结果不光找到了最优的购车政策,还把各地的补贴信息整理得明明白白,真心实用!
使用DeepSearch场景交互
体验 DeepSearch 深度推理功能时,发现它和前段时间爆火的 Manus 有点像,都能联网搜索、查看历史记录啥的。
虽然有些功能还在完善中,但已经能帮上不少忙,日常调研和检索效率确实提高了不少。
另外,值得一提的是火山引擎的应用广场,这里还展示了很多开箱即用的工具和功能,使开发者能够快速体验新发布的功能,而且整个应用广场的源码都已经在 Github 开源了。
说实话,在某些细节上,我确实有点小震撼。
DeepSearch 不仅能完成基础的搜索任务,还能通过 Thinking 和 Summary 的方式不断补充上下文信息。更厉害的是,在 Prompt 开启的过程中,它还会自动优化用户的提问方式,帮助用户做出更加精准的决策。
后来我仔细研究了一下 DeepSearch 的架构图,发现它的设计真的很巧妙。
MCP Client 作为工具集成的核心组件,通过工程化的方法,把整个流程进行了更加精细的拆解和优化,不仅集成效率高,各个环节的配合也很稳。
好消息是,火山方舟近期也将会上线 MCP Hub,这种模式不仅能为开发者提供更大的能力和信息支持,还能实现开箱即用,直接调用平台上的各种功能,进一步提升应用的价值空间。
火山Al+云,整个云一套MCP Client、一套MCP Hub、一套MCP Server标准,与开放生态兼容。
火山引擎这套MCP全家桶(Client+Hub+Server)和开放生态配合,直接推动整个AI生态的繁荣,形成一个良性循环。感觉AI应用的开发会迎来新一波爆发期,开发者搞创新肯定更带劲了。
从商业策略来看,个人觉得火山引擎方舟平台的做法还是比较清晰的,他们不仅在技术上做好了充分的准备,也在生态建设上有明确的思路。
通过开源代码和模板应用的方式,火山方舟为开发者提供了免费的资源模型,同时借此建立了一个更大的开源生态。
目前来看他们的商业模式基于大模型的资源消耗进行计费,而应用模板本身并不收费。这样的策略让我不禁联想到Dify的做法,Dify通过开源共建、授权证书付费、ISV交付私有化部署付费等方式,在 AI 工程平台全球化发展下,最终获得了全球市场的认可。
此外,火山引擎开发者社区还推出的面向AI时代开发者的扶持与共创计划,旨在吸引更多资深开发者,特别是AI应用和AI脚手架等领域的开发者。
还让人还比较惊喜的是,只要你具备一定的开发经验和创作经验,并愿意持续通过的创作或活动等方式分享自己经验,就可以加入“开发者领航计划”。
通过为开发者提供激励和曝光机会,火山社区助力他们在行业中获得更多影响力,进一步推动AI开发者生态的健康发展,真是让人非常期待啊!
另外是豆包发布了深度思考模型(Doubao-1.5-thinking-pro)和全新的视觉思考模型(Doubao-1.5-vision-pro)。
很多博主的也出了详细测评,这里就不过多介绍了,简单来说就是:
- 效果好:在数学、代码、科学等专业领域的表现,达到或接近全球第一梯队水平;延迟低:模型用的MoE架构,总参数为200B,激活参数仅20B;支持多模态:视觉和文本融合,能让模型像人一样,基于所见进行思考。
视觉思考模型也有个很有意思的应用场景,尤其是对养宠物的人来说,上传一套监控视频,搜索猫咪今天做了什么,它就能用时间轴的形式,把猫咪一日行程整整齐齐地列出来,十分清晰。
最后就是AI硬件部分了,现场大家都动手体验了一把 AI 硬件开发。
先准备服务器和开发板,再配置好服务器端的代码和服务,最后给设备写入程序并测试,整个制作过程体验下来很欢乐,体验感拉满!
这个是火山引擎 RTC(实时通信)技术与嵌入式芯片厂商,合作推出了一套 AI 语音交互解决方案,目的是让人机交互更加流畅自然。
在上面 Github 也有相关烧录的相关代码,感兴趣的小伙伴可以去看看。
虽然理论上看起来很容易,但实际要做好却不太容易。就像许键老师的AI硬件DIY虽然没成功哈哈,但是他觉得模块化小巧的设计还是很cute的,很适合嵌入到各种设备中。
整场活动参与下来,社区小伙伴们都很兴奋,也纷纷写下了自己的体验感受。
独立开发者,WaytoAGI 共建者,MyShell 头部创作者和认证讲师
这次很荣幸受邀参加火山新模型和产品的发布。火山新发的 Thinking 模型以更小参数的 MoE 架构和 10% 的激活策略,实现了更强的 Reason 能力。在很多任务上表现印象深刻的完整性。
在 DeepSearch 的体验中,很好的使用了 Thinking 模型的 Planning 的逻辑,并表现出多轮 Search 来完善数据链的严谨性。最后借助 Python 编码能力编写成 可直接运行的 Html 网页。效果令人满意。
AI 产品、TED讲者、WaytoAGI Agent版主、AI公司联创、终身学习的践行者
开发者大会给我一种很明显的感受:模型和云厂商在今年都开始通过撬动开发者生态来推动智能体落地。尤其是几乎所有代码都开源让我感受到了火山的决心。
快速的一个感受:
豆包的思考模型速度挺快的,在deep search的使用中没有明显的阻滞感觉
豆包视觉模型给我精确定位出我要找的某个物体在图片中的坐标位置,给browser use创造了更精准的基础
硬件没体验成功,但是模块化小巧的设计还是很cute的,很适合嵌入到各种设备中。期待下次会场能有更好的网络可以深度体验。
另外就是期待能在以后的开发者大会上从火山学习到更多智能体落地的技术,获得更多火山对开发者们的支持。
AI 产品经理、提示词工程师
火山开发者活动安排得很棒,线下体验的模型和相关应用比较丰富。
特别值得一提的是,火山的产研团队都有负责人在场,所以问题反馈和疑问交流就很顺畅。赞~
连续创业,AI出海,大理黑客与画家主理人
有很多重要的事情刚开始被称为玩具,但每一次发布都是时代浪潮的一次推波助澜,多模态、推理模型和MCP会让AI的应用进入下一个里程碑,很高兴有机会见证了字节在这方面的贡献。
火山方舟这次甩出的不只是几款新模型,而是给每个普通开发者递了一把梯子。
这把梯子,是能直接复用的开源模板,是开箱即用的MCP工具链,更是让"技术平权"不再是一句空话的承诺。
参会开发者:AJ、彬子、一泽Eze、许键、腾焱、CY、银海、yee老师
内容整理:银海、yee老师、小谷