即刻圈子-产品经理的日常 8小时前
做带有ai的功能,起手式里必须有测评先行。 所谓测评,就是在定义ai的能力边界,包括定义数据集,定义预期效果,以及定义每次迭代的效果衡量方式。 1)能力边界 ...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

开发AI功能,尤其是基于大模型的应用,绝非简单套用提示词。关键在于“测评先行”,即在项目启动之初就明确AI的能力边界。这包括定义清晰的数据集,确保其与真实业务场景一致并动态调整;设定可量化的预期效果,区分技术指标(如准确率、召回率)和业务指标(如转人工率、重试率)。若能力边界未对齐,即使开发出功能,也可能因无法上线或用户体验不佳而失败。因此,严谨的测评是AI功能成功落地的基石,需要算法研发与业务目标紧密结合。

🎯 **定义能力边界是AI功能开发的首要步骤**,这涉及到明确AI擅长和不擅长解决的问题类型。对于不擅长处理的场景,应设计好用户反馈机制,例如智能客服超出知识库时转接人工,确保用户体验的顺畅。

📊 **数据集的构建与维护至关重要**,特别是对于大模型应用。理想的测试集应与真实业务数据分布保持一致,并随业务发展进行持续调整,以避免在测试环境中表现良好而在实际应用中效果不佳的情况发生。

📈 **设定清晰的预期效果是衡量AI功能成败的关键**。除了技术层面的准确率、召回率等指标,更应关注业务层面的指标,如智能客服的转人工率和识别任务的重试率,这些更能反映AI的实际应用价值和用户满意度。

🤝 **确保AI功能开发与算法研发的对齐**是成功上线的必要条件。如果算法团队与业务目标脱节,即使开发出大量功能,也可能因无法满足上线标准或用户需求而功亏一篑。因此,前期充分的沟通与规划必不可少。

做带有ai的功能,起手式里必须有测评先行。

所谓测评,就是在定义ai的能力边界,包括定义数据集,定义预期效果,以及定义每次迭代的效果衡量方式。

1)能力边界

其实就是定义擅长解决哪类问题,不擅长解决哪类问题,对于不擅长的,应该如何给用户反馈。

最典型的,就是智能客服系统里,超出知识库范围的就转人工。

2)数据集

上一代ai功能,还需要定义训练集、测试集、验证集,但现在做大模型套壳之后,保留最核心的测试集其实就好了。

但测试集的构建本身也是有说法的,理想的是要和真实业务的数据分布一致,并且要随着业务发展不断调整。不然很可能在自己的测试集上效果很好,但用户一上手感觉就很拉胯。

3)预期效果

一类是技术指标,比如准确率,召回率等等,这是最基础的,用于模型本身测评,任何算法工程师都有这意识。

另一类是反映业务的指标,用于实际效果监控。

对智能客服而言,就是转人工率,转人工意味着系统没有处理好用户疑问,理想情况是越低越好。

对一些识别类任务,就是用户的重试率,重试意味着识别得不好,有问题,也是越低越好。

上面这些东西,如果和算法研发没对齐,大家就是兴冲冲地开发了一堆功能,最后大概率都没法上线,或者收到一堆差评。

ai功能,不是写个提示词,套个大模型就完事了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI功能开发 测评先行 能力边界 数据集 预期效果
相关文章