原创 元子 2024-12-27 23:57 北京
看完发布会不得不说,字节真是跑得太快了。既如此,皆为逐浪而来,何妨共看潮头!
作为一名个人开发者,我有幸参与了火山引擎的年度大会。这不仅仅是一场技术分享会,更是一次AI时代的深度探索之旅。
"又一个AI大模型发布会?"
这是我收到火山引擎Force原动力大会开发者论坛邀请函时的第一反应。
作为一个经历了从ChatGPT爆火、Claude崛起到Gemini发布的开发者,我对各类AI发布会已经产生了一丝"审美疲劳"。
毕竟,现在谁不在讲AI呢?从大厂到创业公司,从技术大会到产品发布,AI似乎成了一个万能的标签。可真正能让开发者眼前一亮的产品和工具, 又有多少?
当我认真听完整场分享时, 才发现自己的偏见。
主论坛饕餮盛宴
这次火山引擎Force原动力大会开发者论坛是在10点开始拉开帷幕的,基本上坐得满满当当,还好来的早一些,我坐到了靠近中间的位置,也因此,有幸整个分享都听得、看得很清楚。
start with 豆包,大模型时代来了
何谓普惠,即让普通人得到实惠。
在这个大模型时代,开发者的定义正在被重新定义。不再局限于传统意义上的程序员,任何想要借助AI提升工作效率的人,都可能成为一名"开发者"。从设计师到教育工作者,从运营到产品经理,AI正在让创造力突破技术门槛的限制。
开场的例子确实极好地展示了这一点——和府捞面的设计师、2人团队基于扣子,搭建了顾客点评分析智能体,将客情分析的运维活全包了;而设计师则利用图像流能快速试错,更轻易地尝试不同的灵感和创意。
所以,百万级别的营销成果,竟然两个人就够了。
火山方舟应用实验室:让专业的产品做专业的事情
火山方舟应用实验室我确实没有用过,但是这次的展示让我眼前一亮。
作为一套开源的高代码SDK和企业级示例模板,它不仅提供了完整的场景化解决方案,更重要的是降低了大模型开发的门槛。
一个让我印象深刻的例子是视频生成。传统上,一段高质量的动画制作往往需要十几个工作日,需要美工、策划的密切配合。而现在,基于方舟的模型和模板应用,只需要几分钟就能完成。这就是他们所说的"高难度、高代码、高价值"。
更让我惊喜的是它的灵活性。方舟团队说"我们先走 80%,剩下 20% 由客户自定义"。比如客户想在生成的视频中加入背景音乐,只需要在开源代码基础上插入几行音乐生成的逻辑即可。
这种思路太棒了,因为客户永远比平台更了解自己的业务——比如,我更知道自己的孩子希望在读AI 绘本时听什么声音,而平台相当于把这些扩展的自定义能力下放给我自己,又给了我足够的基础支持。
火山方舟接口 API:更高的定制
API 更多就是针对我们开发者,而作为开发者,我特别关注它的几个核心能力:
LLM/VLM API支持从单轮对话到视频理解的全方位场景;
Cache API能将多轮对话的延迟降低50%,成本降低70%
全周期安全可信方案确保数据安全,从数据进入到离开方舟的全过程都不留痕迹
听完分享后,我意识到,火山方舟应用实验室和火山方舟接口 API 的设计,从这里开始就考虑了可审计问题,这也非常ToB,是从有到优的重要实践。一件事做到是能力到了,一件事做好,就是整体方案的考虑了。
虽然作为个人开发者,我可能用不上这么专业的功能,但是我能看到它对企业级应用的巨大价值。特别是在教育行业,像"小熊遇到了什么问题"这样的短片生成一条龙服务,让优质教育内容的生产变得更加高效。
火山方舟 AI 搜推引擎:从搜索开始,所有人的刚需
搜索几乎是所有人的刚需,我捏的第一个 Agent就是为了解决自我的搜索问题,现在每一个搜索引擎在最上面都加了一个 “AI搜索”的结果。
但是火山引擎的交互让我很惊喜,它支持的输入端显而易见的更多——文本、图像、音频、视频等多模态对话式,而演讲中提到了性能的强大。
ToC的搜索,豆包已经做得比半年前好了太多,我感觉火山方舟 AI 搜推引擎更重要地是把“推荐”同时放了进来,像抖音一样,更懂我们。
不过这一项大规模的更多应当用在 ToB, 据说在电商领域有特别的沉淀,非常期待能继续听到它的应用案例。
豆包MarsCode + 扣子 1.5 :普惠下行
我很认可分享者的这句话,“开发工具的提升是因为自然语言和开发语言的逻辑抽象性不同,自然语言有不可拼接性,但开发语言不是。”
最让我兴奋的是扣子1.5版本的重大更新。作为一个重度用户,我亲眼见证了它从简单的对话机器人平台,进化成了一个完整的AI应用开发平台:
Project IDE + UI Builder让不会编程的人也能搭建完整的前后端应用;
更灵活的数据读写能力;
一键发布为微信小程序、抖音小程序、H5页面;
多模态能力升级,比如通过与火山引擎RTC产品的结合,实现了超低延时、智能打断、抗弱网智能对话。
另外,把扣子和豆包MarsCode 放在一起看,我有了新的期待 - 如果能把豆包MarsCode 的代码能力和扣子的代码节点相结合,对于我们这样的普通开发者来说,将是又一次降低门槛的重大突破。
扣子 1.5的发布和豆包MarsCode 的加持,真的是大大降低了开发门槛。
而且另一个让我有想象力的事情是,既然视频模型也上了,那么直接看屏幕、再进行troubleshooting或者编码,这就变得顺滑又可扩展——屏幕读取 + 图像/视频理解 + AI代码填充,一个没那么专业、但讲的清楚自己需求的产品经理,或许都已经能够站在真正用户的立场上,开发出好的新产品了。
另外,豆包MarsCode在代码补全、Bug 修复、代码问答等编程的各个阶段提供协助支持,确实用起来很丝滑,只是,直接搜"MarsCode"容易搜到很多类似产品,这里把网址放上大家可以一起玩:
https://www.marscode.cn/workbench
DataLeap:用开放生态建设,为数据研发提效
字节系的数据能力建设一向是做得非常好的,但是作为站在外面、只是听说的人,没想到他们做得这么好。
作为支撑数据飞轮2.0的核心产品,DataLeap的全新开放平台让我眼前一亮。它提供了完整的IDE和流水线插件体系,以及丰富的开放能力。最棒的是,开发者只需要按照开发手册,就能低成本、快速完成插件开发。
插件、百宝箱意味着可以复用现成的能力,而它的数据管理方法论也做得非常好 - 流水线扩展、数据研发、治理的能力都可以极简部署。其中提到的“智能运维助手”,对运维人员来说,这是个巨大的利好,能实现主动解析错误日志、进行任务错误诊断、变慢诊断等,进一步释放了运维基础工作,有效提升效率。
曾经厚颜研究过一点点数据平台,我意识到,如果Dataleap真的和演讲分享里展现得这样利好,它真的就让我充满想象力了——这几乎是将团队协作和行业knowhow让客户自己来,但是其他字节的数据研发、治理能力,都作为产品和模板沉淀下来了,真的是太厉害了。
作为一个经常和数据打交道的开发者,我已经迫不及待想尝试这些新功能了。DataLeap不仅让团队协作变得更容易,更重要的是把字节积累的knowhow都通过产品和模板的形式开放出来,这才是真正的技术普惠。
边缘场景:端边云协同的到位支持
一直看的终端,这把是第一次了解边缘场景的特性。
因为算力问题和真实的速度成本限制,大模型跑在端上是一件很费劲的事情,所以最好是在云上使用、然后结果返回到端。
当认真听了这段分享之后,才发现边缘场景不止于此,它不止是服务器,更多是整个平台的能力。比如边缘智能平台和物联网平台,显然把字节对行业、对资源的使用效率和方法论包了进去。虽然我是第一次接触边缘场景,但在分享里我得知,这已经是再次升级的成果。
这是个策略问题——将所有逻辑推理全放到云也成本高的,甚至也没必要。因为大模型的微调本质,就是各个垂类的训练,再加上在垂直领域的切割——这种方式可以极好地降低模型部署的大小。
而要更快一步的话,可以放在“边”上。查过之后我了解到,这个和运营商部署基站算一个原理。
工程化部署的模板和优化基本都已经有了,几个例子也挺有意思的。
比如游戏高光时刻,就是推理在边缘+ 展示在终端,毕竟作为游戏里的陪练和高光切割,响应一定要快,不然游戏的那个剧情点就过去了。
另一个例子是座舱里所有传感器收集信息,做车载智能体了解整个车里什么情况。涉及到隐私问题,分别处理边和端也很有道理。
原来我认为这个离开发者有点远,现在我意识到,可能并没有这么远,而这些基建的提升,意味着AI和物理世界的链接会越来越快地被打通。
另外从这个边缘场景来看,下一步的爆发感觉工厂、工业化会有一波好的应用。
RTC:打通真正和人“交流”
这块的分享重点应该在多模态了,相当于实时对话。
again, 对人类来说,打字和说话是两种完全不同的输出和思考方式,2秒响应和10秒响应的感受是完全不一样的,所以我非常看好这一块的发展。
但是因为这一切都是包装起来的,作为个人开发者视角,这一部分的分享,我更多只看到的是功能展示,所以专门去看了一下具体的落地案例。
但是前面有一个非常好的例子,其实已经提过了,就是游戏的陪玩。
如果陪玩跟不上用户的操作,那确实就变得没有意义了。但是如果能在2-3 秒内及时响应,甚至可以指导玩家的技术了。我发挥一下想象力,有针对菜鸟玩家的温柔款和针对进阶老鸟的高级提升版,那门槛略高的游戏将会迎来一次门槛革新。
另外还有一个我很惊艳的例子,不是在上午的分享里、反而是下午的扣子开发者日,我看到了猫王的案例——为自己搭建一个专属智能体音响。这个音响又可以自定义声音,所以异地的孩子、父母备真的非常需要这款没有屏幕点击、而是用语音驱动的产品。
从以上几个例子来说,依靠火山引擎 RTC 技术超低延时-更流畅、智能打断-更自然、抗弱网-更可靠 3个特点,至少我直观地感受到,它潜力巨大。
早鸟的随便逛逛
展区打卡 ——火山引擎的优秀应用
这次的主论坛开始时间是10点,从9点就到了的我开始提前逛展区。因为前一天有事未到,所以错失了18号的盛会,听小伙伴提过展区会非常拥挤,早来的好处就是让我慢慢逛完了整个展区,并且提前打好了7个打卡点,领到了我的小杯子~
首先我们就说道说道这个打卡和整个会议议程小程序,其实挺精美的,我当时觉得一次性的东西,搞得这么精美,定位、图册都上了是不是有点浪费,但事后在扣子分论坛的时候,我才晓得这个就是快速拿扣子搭出来的——试想,这是个模板的话,是不是以后所有的展商活动,这块的运营成本就一下子下来了呢?
所以会后给官方提的第一个小建议就是这个小程序的模板求发布~期待官方听到我的声音 :)
语音的震撼——豆包语音大模型,拥有自己的专属音色
是的,展台其实很多,而且全部都是火山引擎系列产品,走马观花第一轮下来,我印象最深刻的展区其实是豆包大模型区域右侧的“语音大模型”。
那里有个小姐姐在唱歌,我对音乐本身兴趣就很大,之前也是suno(大模型生成音乐)的重度用户,于是凑近了细看,然后就被工作人员介绍,可以给十年后的自己打电话——这我就来劲了,我每一年都会给未来的自己写一封信、给过去的自己回一封信,用的电子邮件,来得早没人跟我抢,于是我也拿起了这个电话。
哈哈下面这个拿电话的不是我,但是就是这个展位,在唱歌的小姐姐背后。
我随意说了一句“你好啊,在吗?”,大约等待时间是5-6秒,我确实听到了话筒那端传来了我的声音。后面才知道,这和之前展区打卡一样,是扣子做的,真的很神。
其实声纹复制早在7月试着开发一些科普性的bot时,就有考虑过,但是一则是价格,一则是方便程度,让我放弃了实践的打算。
是的,在当时,复制一个声音的音色大概需要录制二十几句话,行业价格大概在100块左右,这就性价比不高了。但是现在,我震惊地发现,已经这么便捷高效了——一句不是默认、预设的话,一个打招呼,它在5秒钟之内就给我复制好了,真的特别厉害。
不算新点子,毕竟各种导航就可以录制声音来使用,我爸爸的导航系统用的就是我的声音,毕竟这种能力完全依赖APP,录制起来也不方便,甚至一度是收费功能。
在豆包大模型将成本和便捷程度降到这个程度时,我当时就有无限的想象了,作为一个沪飘,作为一个为了给爸妈科普AI而开始使用扣子的玩家,我多么希望我捏给爸妈的bot可以直接使用我的音色呢?
同理可证,这可是实实在在的刚需。
耳机——豆包LLM能力的再次扩展
展区实在是太丰富了,一一列举根本说不完,像是图像理解和拍照一键AI这个已经是常规操作了,而视频大模型的发布更深一步增加了信息处理的水平和数量,但作为日常不怎么处理图片和视频的我来说,震撼却没有太多的实践经验。
但是与声音结缘的我,还有一个印象深刻的东西——对,就是下面这款耳机。
这个耳机我是从豆包APP的界面知道的——豆包APP设置里面有连接特定耳机“Ola Friend”,当我使用的时候还好奇过,这会儿总算是用上了。不是入耳式,佩戴感挺好,后台打开豆包APP就可以唤醒。我一开始觉得这有点像初级的语音硬件产品,真切试下来发现还是不一样的,就搜个气温、天气、百度搜索的问题,豆包本身顺滑程度就吊打主流常见语音硬件产品,再加上模型能力,复杂的问题一点点能用语音跟它聊,怎么不是一种真切的想象力呢?
——毕竟,对人类来说,打字和说话是两种完全不同的输出和思考方式,至少我自己在说话的时候迸发出来的灵感比打字还要多。
乘兴而来,兴尽而归
下午是一群开发者聚会在一起,我因为是扣子的用户,所以选择了扣子的专场分享。分论坛可谓爆满,毕竟有些来得晚的小伙伴甚至只能站着。
在下午这场分享中,我和其他开发者脑暴了一个小产品,听到了2个真正个人开发者的成功案例,链接到30+的个人开发者,甚至在发言环节有幸得到了一个“Ola Friend” ——亲测好用,有机会之后再分享,哈哈哈。
因为专门分享过一次扣子开发者日了,所以这里就不再赘述,只是这张照片,我想留句在分享中听到的话:
这是一群扣子的研发人和扣子精神股东间的共同进步!
饕餮盛宴就这样结束,甚至有点意犹未尽。
大模型的能力、迭代、飞速发展,让我之前搭建的代码和工作流都变得及其容易复制。但是就是这是在这样的浪潮里,我意识到持续迭代、持续学习的重要性,同时也让我看到AI普惠普通人的一天越来越近。
我不想灌什么鸡汤;
但是技术的进步就是时代最大的浪潮。
皆为逐浪而来,何妨共看潮头!