火山方舟推出的大模型应用落地的领航员——PromptPilot。
PromptPilot具备3个玩法
- 需要让Agent随着用户数据自发改进,就像所有成功的搜索引擎和推荐引擎那样。 让Agent也找到自己的
scaling law
。视觉理解
能力。文本理解能力。医疗知识问答。产品亮点
Prompt调试 + 视觉理解
豆包新模型+PromptPilot
Doubao-Seed-1.6-thinking模型思考能力大幅强化, 对比Doubao-1.5-thinking-pro
,在Coding、Math、 逻辑推理等基础能力上进一步提升, 支持视觉理解。 支持 256k
上下文窗口,输出长度支持最大 16k tokens。
这份资料令人瞩目,它强烈预示着一款极具潜力的国产AI模型即将面世,这无疑为国内AI生态注入了新的活力与期待,在日常办公中去提升效率。它通过大量的测试数据,不断调整和优化提示词,让AI的回答质量越来越高。PromptPilot做的就是这件事。
提下产品不足点:
- 在视觉理解功能上,如果不通过图床url方式上传,采用本地上传图片时有时会失败。浏览器如果是火狐,在批量评测图片,上传excel数据后,多行数据会堆叠成一坨,浏览适配存在问题。批量评测、审查图片生成模型回答时响应较慢。上传图片时需要扫脸认证,也是有些抽风的操作。
产品小提升点
若把视觉理解能力加在生图功能上,扩大用户受众群体。我昨天让豆包生成一组雨天一辆未开车灯的汽车,试了几轮都开着车灯。
先用一个找不同的小游戏
,进行细节测评,PromptPilot 直观视觉审查
能力、细节敏锐度可平替Claude-4.0-Sonnet
的推理能力。
PromptPilot 视觉理解能力不平庸。
PromptPilot展现的这种能力,可以称之为视觉合规检测能力,是一种图片识别感知能力。
简单来说,就是让AI像一个经验丰富的安全检查员一样,不仅能看懂图片内容,还能根据既定的规则和标准,判断图片中的人物行为是否合规。然后根据豆包新模型的回答,我们可自定义一个评分标准,让大模型感知它的回答满意度,最终优化出一套非常清晰的提示词。
PromptPilot 视觉跑批流程(道路交通案例)
访问地址
:promptpilot.volcengine.com/
编写一个图片视觉理解
需求(我这里跑了下道路交通
的图片),生成一个清晰的Prompt。
例:为了交通规范化,你需要根据交通道路车辆的图片,判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。
优化后的Prompt。
你的任务是根据交通道路车辆的图片描述,判断道路车辆是否存在违规驾驶和未佩戴安全防护用具的情况。请仔细阅读以下图片描述:<交通道路车辆图片描述>{{image_url}}</交通道路车辆图片描述>在判断时,请考虑以下违规驾驶和未佩戴安全防护用具的标准:1. 违规驾驶:闯红灯、逆行、超速、压线行驶、违规变道、占用应急车道等。 ....
新建一个内容理解任务,点击加号,注意这里选择使用thinking
相关深度思考大模型。
单个case图片处理能力上传单张图片需要进行扫脸实名认证(有点抽风)。
生成模型回答,然后选择基于模型回答改下 ,回答存在3个标签思考
、判断
、违规类别
,其中思考过程可以要求简洁一点。
批量图片评测能力相比较单张图片,批量图片评测时模型回答响应速度会慢一些,及时性不高。
采用execel表格数据批量上传图片,存在以下列(image_url、理想回答),模型回答列是通过模型自动生成。
智能评分给大模型正向反馈,开启智能评分,填写评分标准(思考标签正确,判断标签正确,且违规类型和理想回答一致,得5分;否则得1分,尤其是违规类型和理想回答不一致的话,请直接给1分)
通过以上评测最终获得清晰的Prompt。
因为最终的分数符合我的预期,4分,换算到百分制,其实是80分,所以可以正常结束。 但是如果不满意,想继续优化,可以点如下按钮,继续优化下一轮
,通过更多的迭代轮数提高效果。
PromptPilot 将提示词优化作为产品亮点
提示词的确尤为重要,不能是一个模糊的问题,你的目标是什么,你的个人信息是什么,需制定怎么样的一个计划,你可以观察AI深度思考的方式,去改进、优化你的提示词
,最后沉淀下来,这才是一个学习AI、理解AI的过程,发挥AI正真的作用。
希望这篇文章能帮助大家意识到AI应用过程的一些细节,为工作赋能、提效,如果本文能给你提供启发和帮助,还请留下你的一健三连(点赞
、转发
、评论
),给我一些鼓励,谢谢。
一一 END 一一
(文: 500bai)