掘金 人工智能 05月30日 08:53
Dify搭建AI图片生成助手中的坑!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文分享了使用Dify搭建AI图片生成助手的实战经验,深入探讨了在Dify中搭建过程中可能遇到的问题和解决方案,例如组件失效、魔法限制、本地部署复杂等。文章重点介绍了如何选择合适的文生图组件,避开“硅基流动”的坑,并详细讲解了调用Doubao文生图工具时需要注意的细节,以及Dify Agent应用的创建、提示词的编写、图片风格的优化和不当请求的拒绝等。帮助读者避开各种陷阱,快速上手AI技术。

💡 **选择合适的文生图组件:** 避开需要魔法或本地部署的组件,推荐使用不需要魔法的云端大模型,如Doubao、智普AI、讯飞星火等。

⚠️ **避开“硅基流动”的坑:** 硅基流动部分大模型已下线,导致调用失败,应避免使用。

🔑 **调用Doubao文生图工具的关键:** 需在火山方舟平台开通服务并获取API Key,注意API Key的正确获取方式,避免401错误。

✍️ **提示词工程的重要性:** 提示词是Agent的灵魂,越具体的提示词输出效果越好,可以通过系统提示词设定默认风格,优化图片生成效果。

🚫 **拒绝不当请求:** 通过编写约束或调用敏感词库,使Agent拒绝与绘画无关或不合理的内容,提升用户体验。

使用 Dify 搭建 AI 图片生成助手并不是什么难事,而且不需要你会编程知识,也能轻松实现。

但是,Dify 在搭建 AI 图片生成助手的过程中会遇到很多坑,例如以下这些:

所以,接下来本文就带你来避开这些坑。

1.搭建AI图片生成助手

在 Dify 中,搭建 AI 图片生成助手的步骤主要分为以下几步:

    添加“文生图”组件(这一步有很多坑)。获取组件 API Key,通常需要去官网注册账号,申请 API Key。在 Dify 中创建“Agent”应用。添加提示词。添加“文生图”工具。编写提示词,生成图片。

接下来我们分别来看。

2.添加文生图组件

所谓“文生图”组件,指的是根据文字生成图片的组件(工具),Dify 中提供的和“图片”有关的插件如下:

这些组件大致可以这样分类:

    本地模型云端模型
      需要魔法不需要魔法

当然,其中本地模型因为部署麻烦,所以我们这里不会使用(但企业级应用为了考虑数据隐私性可能会用),需要魔法的云端模型我们也不会用,执行速度慢,并且对于小白用户不友好。所以最符合预期的模型为不需要魔法的云端大模型

不需要魔法的(好用一点的)云端大模型有以下这些:

2.1 避坑硅基流动(SiliconFlow)

有人这里会说生成图片为什么不选择硅基流动(SiliconFlow)啊?它支持 Flux 和 Stable Diffusion 都是图片生成届注明的大模型,如下图所示:

当然,我刚开始的时候也是这么想的,把 SiliconFlow 插件添加上,申请一个 API Key 可以选择调用多个大模型,看起来是很美好的时候。

但是当我尝试的时候,发现这两种图片生成的大模型压根就调用不了,起初我以为是配置权限或 API Key 填写的某个环节出现了问题,各种折腾,到最后发现效果还是一样的,完全不用了。

于是就 Google 了一把,发现了问题,原来是早些时候确实是能正常调用的,但是在今年 2 月份,硅基流动为了规范化运营,已经把很多大模型给下线了,其中也包括咱们要使用的 Flux 和 Stable Diffusion,这是不能调用的关键,但 Dify 中的插件并没有将这两个工具去掉,所以调用就会出现各种奇怪的报错信息,如下图所示:

2.2 推荐图片模型

不同的使用场景,推荐使用的图片模型是不同的,例如以下这些:

3.调用Doubao文生图工具

调用 Doubao 图片生成有几个坑,这个需要给大家详细说一下,不然很容易出错。

首先在插件市场,安装 Doubao 插件:

之后是去 Doubao 平台开通图片生成权限和添加生成 API Key,这两个步骤都很容易出错。

插件提供的访问地址不对,一定要去火山方舟平台,也就是这个地址:console.volcengine.com/ark/region:…

我们需要以下三步:

实名认证完成之后,一定是选择下面栏目并开通服务:

接下来是容易出错的地方,当你点击获取 API Key 有可能会到这个地址,但这个地址不对(是火山方舟不是火山引擎):

如果获取的是这个地方的 API Key 就会在生成调用的时候,提示 401 没有权限,正常的操作是点击上面的“方舟大模型专用 API Key”,进入到这个页面,点击创建 API Key 才行

4.Dify创建Agent编排任务

创建 Agent 应用:

什么是 Agent?

Agent 是一种模拟人类行为和能力的 AI 系统,它通过自然语言处理与环境交互,能够理解输入信息并生成相应的输出。Agent 还具有 "感知" 能力,可以处理和分析各种形式的数据。此外,Agent 能够调用和使用各种外部工具和 API 来完成任务,扩展其功能范围。这种设计使 Agent 能够更灵活地应对复杂情况,在一定程度上模拟人类的思考和行为模式。

因此,很多人都会将 Agent 称为“智能体”。

4.1 撰写提示词

提示词(Prompt)是 Agent 的灵魂,直接影响到输出的效果。通常来说越具体的提示词输出的效果越好,但是过冗长的提示词也会导致一些负面效果。

调整提示词的工程,我们称之为提示词工程(Prompt Engineering)

在本次实验中,你不必担心没有掌握提示词工程,我们会在后面循序渐进地学习它。

让我们从最简单的提示词开始:

根据用户的提示,使用工具绘画指定内容。

用户每次输入命令的时候,Agent 都会知晓这样的系统级的指令,从而了解要执行用户绘画的任务的时候需要调用一个叫 Doubao 的工具进行绘图。

4.2 添加绘图工具

4.3 测试图片生成

5.发布

点击右上角的发布按钮,发布后选择运行就可以获得一个在线运行的 Agent 的网页。

复制这个网页的 URL,可以分享给其他好友使用。

6.优化:指定图片风格

我们可以在用户输入的命令中加上画风的指令,例如:二次元风格,画一个女孩,手中拿着一本打开的书

但是如果我们希望风格默认都是二次元风格呢,那么我们加在系统提示词里就行了,因为我们之前了解到系统提示词是每次执行用户命令都会知晓的,优先级更高。

根据用户的提示,使用工具绘画指定内容,画面是二次元风格

7.优化:拒绝某些不当请求?

在许多业务场景中,我们需要避免输出一些不合理的内容,但是 LLM 很多时候比较 “傻”,用户下指令时会照做不误,即使输出的内容是错的,这种模型为了努力回答用户而编造虚假内容的现象称为模型幻觉(Hallucinations),那么我们需要让模型必要的时候拒绝用户的请求。

此外,用户也可能提一些和业务无关的内容,我们也需要让 Agent 这个时候拒绝请求。

我们可以使用 markdown 格式给不同的提示词进行划分,将上述教 Agent 拒绝不合理内容的提示词写到 “约束” 标题下。当然,这样的格式仅仅是为了规范化,你可以有自己的格式。

## 任务根据用户的提示,使用工具绘画指定内容,画面是二次元风格。## 约束如果用户在请求和绘画无关的内容,回复:“对不起,我不明白你在说什么”

例如,我们尝试提问:今晚吃什么

在一些更正式的业务场景中,我们可以调用敏感词库来拒绝用户的请求。

添加功能 - 内容审查中添加关键词 “晚饭”,当用户输入关键词时,则 Agent 应用输出 “对不起,我不明白你在说什么”。

小结

Dify 是一个入门简单,但用好比较难的技术,这点和 Java 有点像,但没关系,跟我一起,快速上手学习 AI 技术,避免踩坑。一起动手试起来吧~

本文已收录到我的技术小站 www.javacn.site,其中包含的内容有:Spring AI、LangChain4j、Dify、AI Agent、MCP、Function Call、RAG、向量数据库、Prompt、多模态、向量数据库、嵌入模型等内容。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Dify AI图片生成 Doubao Agent 提示词
相关文章
回顾我的 prompt 能力从小白到熟练的一些重要节点: 防杠叠甲: 1. 仅代表我自己的认知,没啥权威性。 2. 认为提示词那么简单至于搞那么复杂么的朋友,你对 3. ...
最新榨取的ChatGPT System Prompt。 通过越狱往往可以榨取到ChatGPT的系统指令Prompt,但是一有漏洞就会被官方给堵上了,越狱Trick就会失效。刚刚用一个失效的Tr...
✨ 人人都能用好AI,这款GPTs 助你定制高效工作流:Prompt for me 作为一个AI布道者,Hans 在即刻写下数百篇新产品介绍、模型研究和心得,却仍感受到不同领域和...
谷歌家的好东西,可以帮你学会如何写 AI 画图提示词。 除了教你技巧外还会有对应的练习,给你一张图片让你用学习的技巧写提示词复刻图片。 藏师傅第一等级全部 7...
使用 Dify、Meilisearch、零一万物模型实现最简单的 RAG 应用(三):AI 电影推荐
【结项02】AI时代个人生存摸鱼探索指南的大改版,这版从 dev 版本变成 beta 版本了! https://gamma.app/docs/AIGC-Dev-9y7n4vslcp2bol2 ------ 这版 beta 版指...
我要是开一个坑和你们一起打造自己的AI公司有没有兴趣?最近半年的时间我一直都在迭代这个体系。通过AI融入自己的工作流之后,确实能给自己节省非常多的时间。 ...
军装-工农红军
Stability AI: ↩️ Prompt: A cardboard box with the phrase “they say it's not good to think in here”, the cardboard box is large and sits on a theat...
Runway: ↩️ Prompt: An empty warehouse, zoom in into a wonderful jungle that emerges from the ground. (9/10)