原创 WaytoAGI小谷 2025-07-07 18:30 浙江
共学聚焦于阿里云百炼平台的全栈能力,围绕三大核心主题:智能体搭建、多模态RAG应用、硬件交互开发做了系统讲解。
7月1日-3日,阿里云联合通往AGI之路、DataFunTalk,共同发起了一场连续3天的线上共学计划。
这次共学直播聚焦于阿里云百炼平台的全栈能力,围绕三大核心主题——智能体搭建、多模态RAG应用、硬件交互开发做了系统讲解。
百炼平台:https://bailian.console.aliyun.com/?tab=app#/app-center
错过直播也没关系!现在在「通往AGI之路」视频号就能查看完整直播回放。
接下来为你介绍下,这三天主要讲了哪些内容。
共学Day 1
阿里云百炼Agent从模板到商业化变现全链路教学
在第一场共学直播中,WaytoAGI社区的AI智能体设计师云中江树,和阿里云飞天实验室高级产品专家远长、支付宝高级产品专家沐桔,一起围绕Agent商业化、支付宝打赏服务、智能体搭建的话题进行了分享。
阿里云这次不是光讲理论,而是把做Agent的流程、平台能力和变现路径都拆开讲了。尤其是后面提到的MCP服务和支付宝打赏部分,对开发者非常友好。
云中江树展示了在阿里云百炼平台搭建「抖音小助手」智能体的过程,它能自动获取无水印视频、提取文案、润色标题等。
如何3步创建一个能赚钱的“抖音小助手”?
- 1. 准备工作:开通支付宝AI收服务
需要做的准备工作,就是开通「支付宝AI收」功能,开通后相当于你的Agent正式有了收款能力。其他用户喜欢你的智能体,就可以给你打赏。
- 2. 智能化提升:设置提示词与功能增强
在百炼平台主界面,右上角选择新增应用,并填入应用名称、选择模型,再调配参数就能设置完成。
这里云中江树推荐了通义千问Qwen-plus模型,这也是阿里云推出的先进大语言模型,具有强大的理解和生成能力,特别适合处理复杂的内容分析和创作任务。
模型参数的配置同样重要,最大回复长度设置为4,096个字符,足够处理大部分的视频文案和内容分析需求。携带上下文轮数设置为9轮,这意味着智能体能够记住最近9轮的对话内容。
然后,你需要通过提示词(Prompt)为它设定“人设”。这里提到了一个很实用的“三板斧”结构:
- 角色(Role):你是谁?(例如:你是一个抖音运营助手)技能(Skill):你能做什么?(例如:能提取无水印视频、能分析视频文案)限制(Constraint):你不能做什么?(例如:不要回答和抖音无关的问题)
而且你还可以启用提示词优化功能,它会自动优化你的提示词表达,提升整体的交互效果。
- 3. 功能扩展:添加MCP服务
另外你还可以给智能体添加不同的MCP服务。
它相当于是智能体的技能包,对于“抖音小助手”来说,除了抖音的相关功能,你可以在MCP广场添加联网搜索、支付宝AI收服务,确保所有的功能模块能够正常协作运行。
现在在阿里云百炼-应用广场,就能看到江树老师发布的“抖音小助手”了,你可以直接点开使用。
直播最后,阿里云还透露了对于阿里云百炼和支付宝未来的规划,例如探索订阅制、返佣等更多元的商业化方式,给开发者提供更多选择,继续扩大Agent的能力边界等。
共学Day 2
千万级多模态RAG原理与应用深度解读
在第二天的直播共学中,阿里云飞天实验室高级产品专家远长和通义实验室科学家瑞雪,一起分享了阿里云百炼平台在企业级RAG(检索增强生成)能力上的全面升级。
简单说,RAG就像是大模型的“外置大脑”,能帮大模型先从数据库里翻资料,再来写回答,能降低幻觉,提高回答准确性。
比如企业里最常见的问题是:知识形态杂乱、信息更新频繁、缺乏深度理解。这时候,RAG技术就能派上用场。
它的做法就像是先翻资料、再给答案,能从企业已有的知识库中找到最相关的信息,再让大模型生成回答。
这样不仅减少了大模型幻觉,还能把企业原本沉睡的知识变成能被AI随时调用的资源,真正把数据的价值释放出来。
这次升级主要是为了解决RAG在实际业务应用中的难点和问题,为企业提供更高效、更精准的信息检索与生成服务。
另外,阿里云还在直播中介绍了多模态数据处理、实时同步机制、系统优化以及评测方法等多个方面。内容十分干货硬核,强烈建议感兴趣的小伙伴观看回放。
共学 Day3
阿里云百炼低延迟多模态交互硬件开发全解析
最后一天的共学内容,是把前两天的所有云端“软实力”,真正落地到触手可及的硬件上,让AI拥有“身体”和“声音”。
通义实验室技术专家邵松松、FamidO创始人兼架构师虚舟,一起对阿里云百链低延迟多模态交互硬件的开发进行了深度解析。
过去想做个智能硬件,需要懂硬件、懂声学、懂视觉、懂云端AI,对小团队或个人开发者来说几乎不可能。
不过阿里云这次带来了全新的一站式多模态交互开发套件,开发者无需再东拼西凑,里面集成了:
- 百炼的插件资源和Agent能力通义系的模型支持Cozy Voice情感语音合成
这个套件的核心,是解决了以往智能硬件最影响体验的两个问题:
- 1. 让对话更自然:它实现了极低的响应延迟(约1秒),并且支持随时“语音打断”。这意味着你和它的交流,不再是“我问一句,你答一句”的呆板模式,而更接近人与人之间随时插话的流畅感。2. 让声音有感情:套件里包含了一项名为Cozy Voice的情感语音合成技术。它可以模仿特定音色、带有情绪起伏的自然人声。这对于儿童故事机、情感陪伴机器人这类产品来说,无疑是体验上的巨大飞跃。
直播中还展现了一个面向儿童的AI硬件案例,当听到提问后,这个设备不仅能用充满童趣的声音回答,屏幕上还能实时生成与答案相关的图片。
看完了这个案例,我们再回到开发者的视角,这个套件最大的价值就是降低AI硬件开发门槛。
直播中提到一个惊人的数据:基于这套SDK,为一个安卓硬件做适配,最快只需要3到4天的时间。
这意味着,中小企业、个人开发者也能轻松打造出一个功能强大、体验流畅的AI硬件,AI硬件不再是科技巨头的专利。
OK,以上就是这3天共学计划的大概介绍。
通过这3天的共学,我们从一个能创造价值的Agent出发,深入到一个更博学的企业级大脑,最终见证了它如何拥有可交互的实体。
而且为了让开发成本更低,百炼平台还上线了千万级Token节省计划:
最低20元就能抵3000万Tokens,非常适合初创项目或中小团队试水使用👇🏻
https://click.aliyun.com/m/1000405207/