原创元子 2024-12-27 23:57 北京

看完发布会不得不说，字节真是跑得太快了。既如此，皆为逐浪而来，何妨共看潮头！

作为一名个人开发者，我有幸参与了火山引擎的年度大会。这不仅仅是一场技术分享会，更是一次AI时代的深度探索之旅。　

"又一个AI大模型发布会?"　

这是我收到火山引擎Force原动力大会开发者论坛邀请函时的第一反应。　

作为一个经历了从ChatGPT爆火、Claude崛起到Gemini发布的开发者，我对各类AI发布会已经产生了一丝"审美疲劳"。　

毕竟,现在谁不在讲AI呢?从大厂到创业公司,从技术大会到产品发布,AI似乎成了一个万能的标签。可真正能让开发者眼前一亮的产品和工具, 又有多少?　

当我认真听完整场分享时, 才发现自己的偏见。　

主论坛饕餮盛宴

‍

这次火山引擎Force原动力大会开发者论坛是在10点开始拉开帷幕的，基本上坐得满满当当，还好来的早一些，我坐到了靠近中间的位置，也因此，有幸整个分享都听得、看得很清楚。　

start with 豆包，大模型时代来了

何谓普惠，即让普通人得到实惠。　

在这个大模型时代，开发者的定义正在被重新定义。不再局限于传统意义上的程序员，任何想要借助AI提升工作效率的人，都可能成为一名"开发者"。从设计师到教育工作者，从运营到产品经理，AI正在让创造力突破技术门槛的限制。　

开场的例子确实极好地展示了这一点——和府捞面的设计师、2人团队基于扣子，搭建了顾客点评分析智能体，将客情分析的运维活全包了；而设计师则利用图像流能快速试错，更轻易地尝试不同的灵感和创意。　

所以，百万级别的营销成果，竟然两个人就够了。　

火山方舟应用实验室：让专业的产品做专业的事情

火山方舟应用实验室我确实没有用过，但是这次的展示让我眼前一亮。　

作为一套开源的高代码SDK和企业级示例模板，它不仅提供了完整的场景化解决方案，更重要的是降低了大模型开发的门槛。　

一个让我印象深刻的例子是视频生成。传统上，一段高质量的动画制作往往需要十几个工作日，需要美工、策划的密切配合。而现在，基于方舟的模型和模板应用，只需要几分钟就能完成。这就是他们所说的"高难度、高代码、高价值"。　

更让我惊喜的是它的灵活性。方舟团队说"我们先走 80%,剩下 20% 由客户自定义"。比如客户想在生成的视频中加入背景音乐，只需要在开源代码基础上插入几行音乐生成的逻辑即可。　

这种思路太棒了，因为客户永远比平台更了解自己的业务——比如，我更知道自己的孩子希望在读AI 绘本时听什么声音，而平台相当于把这些扩展的自定义能力下放给我自己，又给了我足够的基础支持。

火山方舟接口 API：更高的定制

API 更多就是针对我们开发者，而作为开发者，我特别关注它的几个核心能力:　

LLM/VLM API支持从单轮对话到视频理解的全方位场景；

Cache API能将多轮对话的延迟降低50%，成本降低70%

全周期安全可信方案确保数据安全，从数据进入到离开方舟的全过程都不留痕迹

听完分享后，我意识到，火山方舟应用实验室和火山方舟接口 API 的设计，从这里开始就考虑了可审计问题，这也非常ToB，是从有到优的重要实践。一件事做到是能力到了，一件事做好，就是整体方案的考虑了。　

虽然作为个人开发者，我可能用不上这么专业的功能，但是我能看到它对企业级应用的巨大价值。特别是在教育行业，像"小熊遇到了什么问题"这样的短片生成一条龙服务，让优质教育内容的生产变得更加高效。

火山方舟 AI 搜推引擎：从搜索开始，所有人的刚需

搜索几乎是所有人的刚需，我捏的第一个 Agent就是为了解决自我的搜索问题，现在每一个搜索引擎在最上面都加了一个 “AI搜索”的结果。　

但是火山引擎的交互让我很惊喜，它支持的输入端显而易见的更多——文本、图像、音频、视频等多模态对话式，而演讲中提到了性能的强大。　

ToC的搜索，豆包已经做得比半年前好了太多，我感觉火山方舟 AI 搜推引擎更重要地是把“推荐”同时放了进来，像抖音一样，更懂我们。　

不过这一项大规模的更多应当用在 ToB, 据说在电商领域有特别的沉淀，非常期待能继续听到它的应用案例。

豆包MarsCode + 扣子 1.5 ：普惠下行

我很认可分享者的这句话，“开发工具的提升是因为自然语言和开发语言的逻辑抽象性不同，自然语言有不可拼接性，但开发语言不是。”　

最让我兴奋的是扣子1.5版本的重大更新。作为一个重度用户，我亲眼见证了它从简单的对话机器人平台，进化成了一个完整的AI应用开发平台:　

Project IDE + UI Builder让不会编程的人也能搭建完整的前后端应用；

更灵活的数据读写能力；

一键发布为微信小程序、抖音小程序、H5页面；

多模态能力升级，比如通过与火山引擎RTC产品的结合，实现了超低延时、智能打断、抗弱网智能对话。

另外，把扣子和豆包MarsCode 放在一起看，我有了新的期待 - 如果能把豆包MarsCode 的代码能力和扣子的代码节点相结合，对于我们这样的普通开发者来说，将是又一次降低门槛的重大突破。　

扣子 1.5的发布和豆包MarsCode 的加持，真的是大大降低了开发门槛。　

而且另一个让我有想象力的事情是，既然视频模型也上了，那么直接看屏幕、再进行troubleshooting或者编码，这就变得顺滑又可扩展——屏幕读取 + 图像/视频理解 + AI代码填充，一个没那么专业、但讲的清楚自己需求的产品经理，或许都已经能够站在真正用户的立场上，开发出好的新产品了。　

另外，豆包MarsCode在代码补全、Bug 修复、代码问答等编程的各个阶段提供协助支持，确实用起来很丝滑，只是，直接搜"MarsCode"容易搜到很多类似产品，这里把网址放上大家可以一起玩：

https://www.marscode.cn/workbench　

DataLeap：用开放生态建设，为数据研发提效

字节系的数据能力建设一向是做得非常好的，但是作为站在外面、只是听说的人，没想到他们做得这么好。　

作为支撑数据飞轮2.0的核心产品，DataLeap的全新开放平台让我眼前一亮。它提供了完整的IDE和流水线插件体系，以及丰富的开放能力。最棒的是，开发者只需要按照开发手册，就能低成本、快速完成插件开发。　

插件、百宝箱意味着可以复用现成的能力，而它的数据管理方法论也做得非常好 - 流水线扩展、数据研发、治理的能力都可以极简部署。其中提到的“智能运维助手”，对运维人员来说，这是个巨大的利好，能实现主动解析错误日志、进行任务错误诊断、变慢诊断等，进一步释放了运维基础工作，有效提升效率。　

曾经厚颜研究过一点点数据平台，我意识到，如果Dataleap真的和演讲分享里展现得这样利好，它真的就让我充满想象力了——这几乎是将团队协作和行业knowhow让客户自己来，但是其他字节的数据研发、治理能力，都作为产品和模板沉淀下来了，真的是太厉害了。　

作为一个经常和数据打交道的开发者，我已经迫不及待想尝试这些新功能了。DataLeap不仅让团队协作变得更容易，更重要的是把字节积累的knowhow都通过产品和模板的形式开放出来，这才是真正的技术普惠。　

边缘场景：端边云协同的到位支持

一直看的终端，这把是第一次了解边缘场景的特性。　

因为算力问题和真实的速度成本限制，大模型跑在端上是一件很费劲的事情，所以最好是在云上使用、然后结果返回到端。　

当认真听了这段分享之后，才发现边缘场景不止于此，它不止是服务器，更多是整个平台的能力。比如边缘智能平台和物联网平台，显然把字节对行业、对资源的使用效率和方法论包了进去。虽然我是第一次接触边缘场景，但在分享里我得知，这已经是再次升级的成果。　

这是个策略问题——将所有逻辑推理全放到云也成本高的，甚至也没必要。因为大模型的微调本质，就是各个垂类的训练，再加上在垂直领域的切割——这种方式可以极好地降低模型部署的大小。　

而要更快一步的话，可以放在“边”上。查过之后我了解到，这个和运营商部署基站算一个原理。　

工程化部署的模板和优化基本都已经有了，几个例子也挺有意思的。　

比如游戏高光时刻，就是推理在边缘+ 展示在终端，毕竟作为游戏里的陪练和高光切割，响应一定要快，不然游戏的那个剧情点就过去了。　

另一个例子是座舱里所有传感器收集信息，做车载智能体了解整个车里什么情况。涉及到隐私问题，分别处理边和端也很有道理。　

原来我认为这个离开发者有点远，现在我意识到，可能并没有这么远，而这些基建的提升，意味着AI和物理世界的链接会越来越快地被打通。　

另外从这个边缘场景来看，下一步的爆发感觉工厂、工业化会有一波好的应用。　

RTC：打通真正和人“交流”

这块的分享重点应该在多模态了，相当于实时对话。　

again, 对人类来说，打字和说话是两种完全不同的输出和思考方式，2秒响应和10秒响应的感受是完全不一样的，所以我非常看好这一块的发展。　

但是因为这一切都是包装起来的，作为个人开发者视角，这一部分的分享，我更多只看到的是功能展示，所以专门去看了一下具体的落地案例。　

但是前面有一个非常好的例子，其实已经提过了，就是游戏的陪玩。　

如果陪玩跟不上用户的操作，那确实就变得没有意义了。但是如果能在2-3 秒内及时响应，甚至可以指导玩家的技术了。我发挥一下想象力，有针对菜鸟玩家的温柔款和针对进阶老鸟的高级提升版，那门槛略高的游戏将会迎来一次门槛革新。　

另外还有一个我很惊艳的例子，不是在上午的分享里、反而是下午的扣子开发者日，我看到了猫王的案例——为自己搭建一个专属智能体音响。这个音响又可以自定义声音，所以异地的孩子、父母备真的非常需要这款没有屏幕点击、而是用语音驱动的产品。　

从以上几个例子来说，依靠火山引擎 RTC 技术超低延时-更流畅、智能打断-更自然、抗弱网-更可靠 3个特点，至少我直观地感受到，它潜力巨大。　

早鸟的随便逛逛

展区打卡 ——火山引擎的优秀应用

这次的主论坛开始时间是10点，从9点就到了的我开始提前逛展区。因为前一天有事未到，所以错失了18号的盛会，听小伙伴提过展区会非常拥挤，早来的好处就是让我慢慢逛完了整个展区，并且提前打好了7个打卡点，领到了我的小杯子~　

首先我们就说道说道这个打卡和整个会议议程小程序，其实挺精美的，我当时觉得一次性的东西，搞得这么精美，定位、图册都上了是不是有点浪费，但事后在扣子分论坛的时候，我才晓得这个就是快速拿扣子搭出来的——试想，这是个模板的话，是不是以后所有的展商活动，这块的运营成本就一下子下来了呢？　

所以会后给官方提的第一个小建议就是这个小程序的模板求发布~期待官方听到我的声音：）　

语音的震撼——豆包语音大模型，拥有自己的专属音色

是的，展台其实很多，而且全部都是火山引擎系列产品，走马观花第一轮下来，我印象最深刻的展区其实是豆包大模型区域右侧的“语音大模型”。　

那里有个小姐姐在唱歌，我对音乐本身兴趣就很大，之前也是suno（大模型生成音乐）的重度用户，于是凑近了细看，然后就被工作人员介绍，可以给十年后的自己打电话——这我就来劲了，我每一年都会给未来的自己写一封信、给过去的自己回一封信，用的电子邮件，来得早没人跟我抢，于是我也拿起了这个电话。　

哈哈下面这个拿电话的不是我，但是就是这个展位，在唱歌的小姐姐背后。　

我随意说了一句“你好啊，在吗？”，大约等待时间是5-6秒，我确实听到了话筒那端传来了我的声音。后面才知道，这和之前展区打卡一样，是扣子做的，真的很神。　

其实声纹复制早在7月试着开发一些科普性的bot时，就有考虑过，但是一则是价格，一则是方便程度，让我放弃了实践的打算。　

是的，在当时，复制一个声音的音色大概需要录制二十几句话，行业价格大概在100块左右，这就性价比不高了。但是现在，我震惊地发现，已经这么便捷高效了——一句不是默认、预设的话，一个打招呼，它在5秒钟之内就给我复制好了，真的特别厉害。　

不算新点子，毕竟各种导航就可以录制声音来使用，我爸爸的导航系统用的就是我的声音，毕竟这种能力完全依赖APP，录制起来也不方便，甚至一度是收费功能。　

在豆包大模型将成本和便捷程度降到这个程度时，我当时就有无限的想象了，作为一个沪飘，作为一个为了给爸妈科普AI而开始使用扣子的玩家，我多么希望我捏给爸妈的bot可以直接使用我的音色呢？　

同理可证，这可是实实在在的刚需。　

耳机——豆包LLM能力的再次扩展

展区实在是太丰富了，一一列举根本说不完，像是图像理解和拍照一键AI这个已经是常规操作了，而视频大模型的发布更深一步增加了信息处理的水平和数量，但作为日常不怎么处理图片和视频的我来说，震撼却没有太多的实践经验。　

但是与声音结缘的我，还有一个印象深刻的东西——对，就是下面这款耳机。　

这个耳机我是从豆包APP的界面知道的——豆包APP设置里面有连接特定耳机“Ola Friend”，当我使用的时候还好奇过，这会儿总算是用上了。不是入耳式，佩戴感挺好，后台打开豆包APP就可以唤醒。我一开始觉得这有点像初级的语音硬件产品，真切试下来发现还是不一样的，就搜个气温、天气、百度搜索的问题，豆包本身顺滑程度就吊打主流常见语音硬件产品，再加上模型能力，复杂的问题一点点能用语音跟它聊，怎么不是一种真切的想象力呢？　

——毕竟，对人类来说，打字和说话是两种完全不同的输出和思考方式，至少我自己在说话的时候迸发出来的灵感比打字还要多。　

乘兴而来，兴尽而归

下午是一群开发者聚会在一起，我因为是扣子的用户，所以选择了扣子的专场分享。分论坛可谓爆满，毕竟有些来得晚的小伙伴甚至只能站着。　

在下午这场分享中，我和其他开发者脑暴了一个小产品，听到了2个真正个人开发者的成功案例，链接到30+的个人开发者，甚至在发言环节有幸得到了一个“Ola Friend” ——亲测好用，有机会之后再分享，哈哈哈。　

因为专门分享过一次扣子开发者日了，所以这里就不再赘述，只是这张照片，我想留句在分享中听到的话：　

这是一群扣子的研发人和扣子精神股东间的共同进步！

饕餮盛宴就这样结束，甚至有点意犹未尽。　

大模型的能力、迭代、飞速发展，让我之前搭建的代码和工作流都变得及其容易复制。但是就是这是在这样的浪潮里，我意识到持续迭代、持续学习的重要性，同时也让我看到AI普惠普通人的一天越来越近。　

我不想灌什么鸡汤；

但是技术的进步就是时代最大的浪潮。　

皆为逐浪而来，何妨共看潮头！　

跳转微信打开