通往AGI之路 2024年12月29日
个人如何在AI时代崛起?我在火山引擎 Force 原动力大会找到了答案
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

个人开发者参与火山引擎大会,涵盖多个领域成果。如大模型时代的新定义、多种实用工具及技术的展示等,展现了AI时代的深度探索与创新。

🎯大模型时代开发者定义被重新定义,AI助力各行业提升效率。

🚀火山方舟应用实验室提供开源SDK和模板,降低开发门槛。

💻火山方舟接口API具备多种核心能力,对企业级应用价值巨大。

🔍火山方舟AI搜推引擎支持多模态对话,更懂用户需求。

🧩扣子1.5版本重大更新,与豆包MarsCode结合降低开发门槛。

原创 元子 2024-12-27 23:57 北京

看完发布会不得不说,字节真是跑得太快了。既如此,皆为逐浪而来,何妨共看潮头!

作为一名个人开发者,我有幸参与了火山引擎的年度大会。这不仅仅是一场技术分享会,更是一次AI时代的深度探索之旅。 

 

"又一个AI大模型发布会?" 

这是我收到火山引擎Force原动力大会开发者论坛邀请函时的第一反应。 

作为一个经历了从ChatGPT爆火、Claude崛起到Gemini发布的开发者我对各类AI发布会已经产生了一丝"审美疲劳"。 

 

毕竟,现在谁不在讲AI呢?从大厂到创业公司,从技术大会到产品发布,AI似乎成了一个万能的标签。可真正能让开发者眼前一亮的产品和工具, 又有多少? 

当我认真听完整场分享时, 才发现自己的偏见。 

 

主论坛饕餮盛宴


这次火山引擎Force原动力大会开发者论坛是在10点开始拉开帷幕的,基本上坐得满满当当,还好来的早一些,我坐到了靠近中间的位置,也因此,有幸整个分享都听得、看得很清楚。 

 

start with 豆包,大模型时代来了

何谓普惠,即让普通人得到实惠。 

在这个大模型时代开发者的定义正在被重新定义。不再局限于传统意义上的程序员任何想要借助AI提升工作效率的人都可能成为一名"开发者"。从设计师到教育工作者从运营到产品经理AI正在让创造力突破技术门槛的限制。 

开场的例子确实极好地展示了这一点——和府捞面的设计师、2人团队基于扣子,搭建了顾客点评分析智能体,将客情分析的运维活全包了;而设计师则利用图像流能快速试错,更轻易地尝试不同的灵感和创意。 

所以,百万级别的营销成果,竟然两个人就够了。 

 

火山方舟应用实验室:让专业的产品做专业的事情

 火山方舟应用实验室我确实没有用过,但是这次的展示让我眼前一亮。 

作为一套开源的高代码SDK和企业级示例模板它不仅提供了完整的场景化解决方案更重要的是降低了大模型开发的门槛。 

 一个让我印象深刻的例子是视频生成。传统上一段高质量的动画制作往往需要十几个工作日需要美工、策划的密切配合。而现在基于方舟的模型和模板应用只需要几分钟就能完成。这就是他们所说的"高难度、高代码、高价值"。 

更让我惊喜的是它的灵活性。方舟团队说"我们先走 80%,剩下 20% 由客户自定义"。比如客户想在生成的视频中加入背景音乐只需要在开源代码基础上插入几行音乐生成的逻辑即可。 

这种思路太棒了因为客户永远比平台更了解自己的业务——比如,我更知道自己的孩子希望在读AI 绘本时听什么声音,而平台相当于把这些扩展的自定义能力下放给我自己,又给了我足够的基础支持。

 

火山方舟接口 API:更高的定制

API 更多就是针对我们开发者,而作为开发者我特别关注它的几个核心能力: 

听完分享后,我意识到,火山方舟应用实验室和火山方舟接口 API 的设计,从这里开始就考虑了可审计问题,这也非常ToB,是从有到优的重要实践。一件事做到是能力到了,一件事做好,就是整体方案的考虑了。 

虽然作为个人开发者我可能用不上这么专业的功能但是我能看到它对企业级应用的巨大价值。特别是在教育行业像"小熊遇到了什么问题"这样的短片生成一条龙服务让优质教育内容的生产变得更加高效。

火山方舟 AI 搜推引擎:从搜索开始,所有人的刚需

搜索几乎是所有人的刚需,我捏的第一个 Agent就是为了解决自我的搜索问题,现在每一个搜索引擎在最上面都加了一个 “AI搜索”的结果。 

但是火山引擎的交互让我很惊喜,它支持的输入端显而易见的更多——文本、图像、音频、视频等多模态对话式,而演讲中提到了性能的强大。 

ToC的搜索,豆包已经做得比半年前好了太多,我感觉火山方舟 AI 搜推引擎更重要地是把“推荐”同时放了进来,像抖音一样,更懂我们。 

不过这一项大规模的更多应当用在 ToB, 据说在电商领域有特别的沉淀,非常期待能继续听到它的应用案例。

豆包MarsCode + 扣子 1.5 :普惠下行

我很认可分享者的这句话,“开发工具的提升是因为自然语言和开发语言的逻辑抽象性不同,自然语言有不可拼接性,但开发语言不是。” 

最让我兴奋的扣子1.5版本的重大更。作为一个重度用户我亲眼见证了它从简单的对话机器人平台进化成了一个完整的AI应用开发平台: 

另外,把扣子豆包MarsCode 放在一起看我有了新的期待 - 如果能把豆包MarsCode 的代码能力扣子的代码节点相结合,对于我们这样的普通开发者来说将是又一次降低门槛的重大突破。 

扣子 1.5的发布和豆包MarsCode 的加持,真的是大大降低了开发门槛。 

而且另一个让我有想象力的事情是,既然视频模型也上了,那么直接看屏幕、再进行troubleshooting或者编码,这就变得顺滑又可扩展——屏幕读取 + 图像/视频理解 + AI代码填充,一个没那么专业、但讲的清楚自己需求的产品经理,或许都已经能够站在真正用户的立场上,开发出好的新产品了。 

另外,豆包MarsCode在代码补全、Bug 修复、代码问答等编程的各个阶段提供协助支持确实用起来很丝滑,只是,直接搜"MarsCode"容易搜到很多类似产品,这里把网址放上大家可以一起玩:

 https://www.marscode.cn/workbench 

DataLeap:用开放生态建设,为数据研发提效

字节系的数据能力建设一向是做得非常好的,但是作为站在外面、只是听说的人,没想到他们做得这么好。 

作为支撑数据飞轮2.0的核心产品DataLeap的全新开放平台让我眼前一亮。它提供了完整的IDE和流水线插件体系以及丰富的开放能力。最棒的是开发者只需要按照开发手册就能低成本、快速完成插件开发。 

插件、百宝箱意味着可以复用现成的能力它的数据管理方法论做得非常好 - 流水线扩展、数据研发、治理的能力都可以极简部署。其中提到的“智能运维助手”,对运维人员来说这是个巨大的利好能实现主动解析错误日志、进行任务错误诊断、变慢诊断等,进一步释放了运维基础工作,有效提升效率。 

曾经厚颜研究过一点点数据平台我意识到,如果Dataleap真的和演讲分享里展现得这样利好,它真的就让我充满想象力了——这几乎是将团队协作和行业knowhow让客户自己来,但是其他字节的数据研发、治理能力,都作为产品和模板沉淀下来了,真的是太厉害了。 

作为一个经常和数据打交道的开发者我已经迫不及待想尝试这些新功能了。DataLeap不仅让团队协作变得更容易更重要的是把字节积累的knowhow都通过产品和模板的形式开放出来这才是真正的技术普惠。 

 

边缘场景:端边云协同的到位支持

一直看的终端,这把是第一次了解边缘场景的特性。 

因为算力问题和真实的速度成本限制,大模型跑在端上是一件很费劲的事情,所以最好是在云上使用、然后结果返回到端。 

当认真听了这段分享之后,才发现边缘场景不止于此,它不止是服务器,更多是整个平台的能力。比如边缘智能平台和物联网平台,显然把字节对行业、对资源的使用效率和方法论包了进去。虽然我是第一次接触边缘场景,但在分享里我得知,这已经是再次升级的成果。 

这是个策略问题——将所有逻辑推理全放到云也成本高的,甚至也没必要。因为大模型的微调本质,就是各个垂类的训练,再加上在垂直领域的切割——这种方式可以极好地降低模型部署的大小。 

而要更快一步的话,可以放在“边”上。查过之后我了解到,这个和运营商部署基站算一个原理。 

工程化部署的模板和优化基本都已经有了,几个例子也挺有意思的。 

比如游戏高光时刻,就是推理在边缘+ 展示在终端,毕竟作为游戏里的陪练和高光切割,响应一定要快,不然游戏的那个剧情点就过去了。 

另一个例子是座舱里所有传感器收集信息,做车载智能体了解整个车里什么情况。涉及到隐私问题,分别处理边和端也很有道理。 

原来我认为这个离开发者有点远,现在我意识到,可能并没有这么远,而这些基建的提升,意味着AI和物理世界的链接会越来越快地被打通 

另外从这个边缘场景来看,下一步的爆发感觉工厂、工业化会有一波好的应用。 

 

RTC:打通真正和人“交流”

这块的分享重点应该在多模态了,相当于实时对话。 

again, 对人类来说,打字和说话是两种完全不同的输出和思考方式,2秒响应和10秒响应的感受是完全不一样的,所以我非常看好这一块的发展。 

但是因为这一切都是包装起来的,作为个人开发者视角,这一部分的分享,我更多只看到的是功能展示,所以专门去看一下具体的落地案例。 

但是前面有一个非常好的例子,其实已经提过了,就是游戏的陪玩。 

如果陪玩跟不上用户的操作,那确实就变得没有意义了。但是如果能在2-3 秒内及时响应,甚至可以指导玩家的技术了。我发挥一下想象力,有针对菜鸟玩家的温柔款和针对进阶老鸟的高级提升版,那门槛略高的游戏将会迎来一次门槛革新。 

另外还有一个我很惊艳的例子,不是在上午的分享里、反而是下午的扣子开发者日,我看到了猫王的案例——为自己搭建一个专属智能体音响。这个音响又可以自定义声音,所以异地的孩子、父母备真的非常需要这款没有屏幕点击、而是用语音驱动的产品。 

从以上几个例子来说,依靠火山引擎 RTC 技术超低延时-更流畅、智能打断-更自然、抗弱网-更可靠 3个特点,至少我直观地感受到,它潜力巨大。 

 

早鸟的随便逛逛

展区打卡 ——火山引擎的优秀应用

这次的主论坛开始时间是10点,从9点就到了的我开始提前逛展区。因为前一天有事未到,所以错失了18号的盛会,听小伙伴提过展区会非常拥挤,早来的好处就是让我慢慢逛完了整个展区,并且提前打好了7个打卡点,领到了我的小杯子~ 

首先我们就说道说道这个打卡和整个会议议程小程序,其实挺精美的,我当时觉得一次性的东西,搞得这么精美,定位、图册都上了是不是有点浪费,但事后在扣子分论坛的时候,我才晓得这个就是快速拿扣子搭出来的——试想,这是个模板的话,是不是以后所有的展商活动,这块的运营成本就一下子下来了呢? 

所以会后给官方提的第一个小建议就是这个小程序的模板求发布~期待官方听到我的声音 :) 

 

语音的震撼——豆包语音大模型,拥有自己的专属音色

是的,展台其实很多,而且全部都是火山引擎系列产品,走马观花第一轮下来,我印象最深刻的展区其实是豆包大模型区域右侧的语音大模型 

那里有个小姐姐在唱歌,我对音乐本身兴趣就很大,之前也是suno(大模型生成音乐)的重度用户,于是凑近了细看,然后就被工作人员介绍,可以给十年后的自己打电话——这我就来劲了,我每一年都会给未来的自己写一封信、给过去的自己回一封信,用的电子邮件,来得早没人跟我抢,于是我也拿起了这个电话。 

哈哈下面这个拿电话的不是我,但是就是这个展位,在唱歌的小姐姐背后。 

我随意说了一句“你好啊,在吗?”,大约等待时间是5-6秒,我确实听到了话筒那端传来了我的声音。后面才知道,这和之前展区打卡一样,是扣子做的,真的很神。 

其实声纹复制早在7月试着开发一些科普性的bot时,就有考虑过,但是一则是价格,一则是方便程度,让我放弃了实践的打算。 

是的,在当时,复制一个声音的音色大概需要录制二十几句话,行业价格大概在100块左右,这就性价比不高了但是现在,我震惊地发现,已经这么便捷高效了——一句不是默认、预设的话,一个打招呼,它在5秒钟之内就给我复制好了,真的特别厉害。 

不算新点子,毕竟各种导航就可以录制声音来使用,我爸爸的导航系统用的就是我的声音,毕竟这种能力完全依赖APP,录制起来也不方便,甚至一度是收费功能。 

在豆包大模型将成本和便捷程度降到这个程度时,我当时就有无限的想象了,作为一个沪飘,作为一个为了给爸妈科普AI而开始使用扣子的玩家,我多么希望我捏给爸妈的bot可以直接使用我的音色呢? 

同理可证,这可是实实在在的刚需。 

耳机——豆包LLM能力的再次扩展

展区实在是太丰富了,一一列举根本说不完,像是图像理解和拍照一键AI这个已经是常规操作了,而视频大模型的发布更深一步增加了信息处理的水平和数量,但作为日常不怎么处理图片和视频的我来说,震撼却没有太多的实践经验。 

但是与声音结缘的我,还有一个印象深刻的东西——对,就是下面这款耳机。 

这个耳机我是从豆包APP的界面知道的——豆包APP设置里面有连接特定耳机“Ola Friend”,当我使用的时候还好奇过,这会儿总算是用上了。不是入耳式,佩戴感挺好,后台打开豆包APP就可以唤醒。我一开始觉得这有点像初级的语音硬件产品,真切试下来发现还是不一样的,就搜个气温、天气、百度搜索的问题,豆包本身顺滑程度就吊打主流常见语音硬件产品,再加上模型能力,复杂的问题一点点能用语音跟它聊,怎么不是一种真切的想象力呢? 

——毕竟,对人类来说,打字和说话是两种完全不同的输出和思考方式,至少我自己在说话的时候迸发出来的灵感比打字还要多。 

 

乘兴而来,兴尽而归

下午是一群开发者聚会在一起,我因为是扣子的用户,所以选择了扣子的专场分享分论坛可谓爆满,毕竟有些来得晚的小伙伴甚至只能站着 

在下午这场分享中,我和其他开发者脑暴了一个小产品,听到了2个真正个人开发者的成功案例,链接到30+的个人开发者,甚至在发言环节有幸得到了一个“Ola Friend” ——亲测好用,有机会之后再分享,哈哈哈。 

因为专门分享过一次扣子开发者日了,所以这里就不再赘述,只是这张照片,我想留句在分享中听到的话: 

这是一群扣子的研发人和扣子精神股东间的共同进步!

饕餮盛宴就这样结束,甚至有点意犹未尽。 

大模型的能力、迭代、飞速发展,让我之前搭建的代码和工作流都变得及其容易复制。但是就是这是在这样的浪潮里,我意识到持续迭代、持续学习的重要性,同时也让我看到AI普惠普通人的一天越来越近。 

我不想灌什么鸡汤;

但是技术的进步就是时代最大的浪潮。 

皆为逐浪而来,何妨共看潮头! 

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

火山引擎 AI技术 开发者 大模型 降低门槛
相关文章