原创 WaytoAGI小谷 2025-07-07 18:30 浙江

共学聚焦于阿里云百炼平台的全栈能力，围绕三大核心主题：智能体搭建、多模态RAG应用、硬件交互开发做了系统讲解。

7月1日-3日，阿里云联合通往AGI之路、DataFunTalk，共同发起了一场连续3天的线上共学计划。

这次共学直播聚焦于阿里云百炼平台的全栈能力，围绕三大核心主题——智能体搭建、多模态RAG应用、硬件交互开发做了系统讲解。

百炼平台：https://bailian.console.aliyun.com/?tab=app#/app-center

错过直播也没关系！现在在「通往AGI之路」视频号就能查看完整直播回放。

接下来为你介绍下，这三天主要讲了哪些内容。

共学Day 1

阿里云百炼Agent从模板到商业化变现全链路教学

在第一场共学直播中，WaytoAGI社区的AI智能体设计师云中江树，和阿里云飞天实验室高级产品专家远长、支付宝高级产品专家沐桔，一起围绕Agent商业化、支付宝打赏服务、智能体搭建的话题进行了分享。

阿里云这次不是光讲理论，而是把做Agent的流程、平台能力和变现路径都拆开讲了。尤其是后面提到的MCP服务和支付宝打赏部分，对开发者非常友好。

云中江树展示了在阿里云百炼平台搭建「抖音小助手」智能体的过程，它能自动获取无水印视频、提取文案、润色标题等。

如何3步创建一个能赚钱的“抖音小助手”？

准备工作：开通支付宝AI收服务

需要做的准备工作，就是开通「支付宝AI收」功能，开通后相当于你的Agent正式有了收款能力。其他用户喜欢你的智能体，就可以给你打赏。

智能化提升：设置提示词与功能增强

在百炼平台主界面，右上角选择新增应用，并填入应用名称、选择模型，再调配参数就能设置完成。

这里云中江树推荐了通义千问Qwen-plus模型，这也是阿里云推出的先进大语言模型，具有强大的理解和生成能力，特别适合处理复杂的内容分析和创作任务。

模型参数的配置同样重要，最大回复长度设置为4,096个字符，足够处理大部分的视频文案和内容分析需求。携带上下文轮数设置为9轮，这意味着智能体能够记住最近9轮的对话内容。

然后，你需要通过提示词（Prompt）为它设定“人设”。这里提到了一个很实用的“三板斧”结构：

角色（Role）：

你是谁？（例如：你是一个抖音运营助手）

技能（Skill）：

你能做什么？（例如：能提取无水印视频、能分析视频文案）

限制（Constraint）：

你不能做什么？（例如：不要回答和抖音无关的问题）

而且你还可以启用提示词优化功能，它会自动优化你的提示词表达，提升整体的交互效果。

功能扩展：添加MCP服务

另外你还可以给智能体添加不同的MCP服务。

它相当于是智能体的技能包，对于“抖音小助手”来说，除了抖音的相关功能，你可以在MCP广场添加联网搜索、支付宝AI收服务，确保所有的功能模块能够正常协作运行。

现在在阿里云百炼-应用广场，就能看到江树老师发布的“抖音小助手”了，你可以直接点开使用。

直播最后，阿里云还透露了对于阿里云百炼和支付宝未来的规划，例如探索订阅制、返佣等更多元的商业化方式，给开发者提供更多选择，继续扩大Agent的能力边界等。

共学Day 2

千万级多模态RAG原理与应用深度解读

在第二天的直播共学中，阿里云飞天实验室高级产品专家远长和通义实验室科学家瑞雪，一起分享了阿里云百炼平台在企业级RAG（检索增强生成）能力上的全面升级。

简单说，RAG就像是大模型的“外置大脑”，能帮大模型先从数据库里翻资料，再来写回答，能降低幻觉，提高回答准确性。

比如企业里最常见的问题是：知识形态杂乱、信息更新频繁、缺乏深度理解。这时候，RAG技术就能派上用场。

它的做法就像是先翻资料、再给答案，能从企业已有的知识库中找到最相关的信息，再让大模型生成回答。

这样不仅减少了大模型幻觉，还能把企业原本沉睡的知识变成能被AI随时调用的资源，真正把数据的价值释放出来。

这次升级主要是为了解决RAG在实际业务应用中的难点和问题，为企业提供更高效、更精准的信息检索与生成服务。

另外，阿里云还在直播中介绍了多模态数据处理、实时同步机制、系统优化以及评测方法等多个方面。内容十分干货硬核，强烈建议感兴趣的小伙伴观看回放。

共学 Day3

阿里云百炼低延迟多模态交互硬件开发全解析

最后一天的共学内容，是把前两天的所有云端“软实力”，真正落地到触手可及的硬件上，让AI拥有“身体”和“声音”。

通义实验室技术专家邵松松、FamidO创始人兼架构师虚舟，一起对阿里云百链低延迟多模态交互硬件的开发进行了深度解析。

过去想做个智能硬件，需要懂硬件、懂声学、懂视觉、懂云端AI，对小团队或个人开发者来说几乎不可能。

不过阿里云这次带来了全新的一站式多模态交互开发套件，开发者无需再东拼西凑，里面集成了：

百炼的插件资源和Agent能力

通义系的模型支持

Cozy Voice情感语音合成

这个套件的核心，是解决了以往智能硬件最影响体验的两个问题：

让对话更自然：

它实现了极低的响应延迟（约1秒），并且支持随时“语音打断”。这意味着你和它的交流，不再是“我问一句，你答一句”的呆板模式，而更接近人与人之间随时插话的流畅感。

让声音有感情：

套件里包含了一项名为

Cozy Voice

的情感语音合成技术。它可以模仿特定音色、带有情绪起伏的自然人声。这对于儿童故事机、情感陪伴机器人这类产品来说，无疑是体验上的巨大飞跃。

直播中还展现了一个面向儿童的AI硬件案例，当听到提问后，这个设备不仅能用充满童趣的声音回答，屏幕上还能实时生成与答案相关的图片。

看完了这个案例，我们再回到开发者的视角，这个套件最大的价值就是降低AI硬件开发门槛。

直播中提到一个惊人的数据：基于这套SDK，为一个安卓硬件做适配，最快只需要3到4天的时间。

这意味着，中小企业、个人开发者也能轻松打造出一个功能强大、体验流畅的AI硬件，AI硬件不再是科技巨头的专利。

OK，以上就是这3天共学计划的大概介绍。

通过这3天的共学，我们从一个能创造价值的Agent出发，深入到一个更博学的企业级大脑，最终见证了它如何拥有可交互的实体。

而且为了让开发成本更低，百炼平台还上线了千万级Token节省计划：

最低20元就能抵3000万Tokens，非常适合初创项目或中小团队试水使用👇🏻

https://click.aliyun.com/m/1000405207/

阅读原文

跳转微信打开

共学Day 1

阿里云百炼Agent从模板到商业化变现全链路教学

如何3步创建一个能赚钱的“抖音小助手”？

共学Day 2

千万级多模态RAG原理与应用深度解读

共学 Day3

阿里云百炼低延迟多模态交互硬件开发全解析

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签