Cnbeta 04月10日 15:10
OpenAI 宣布为行业创建定制 AI 基准的计划
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI推出了“先锋计划”,旨在改进人工智能模型的评估方式,并推动其在实际用例中的应用。该计划将与企业合作,开发更具实际意义的基准测试,以反映现实世界的挑战。OpenAI将为入选的公司提供研究团队的支持,重点关注行业特定评估和针对三大用例的微调模型。目标行业包括法律、金融、医疗保健等。此外,OpenAI还将帮助企业使用强化微调(RFT)训练定制模型,以实现生产规模的部署。该计划初期将选择少数初创公司,并根据其项目的实际影响进行评估,未来可能会扩展到更大的公司和更复杂的领域。

💡 OpenAI的“先锋计划”旨在改进人工智能模型的评估方式,以解决当前基准测试可能无法准确反映现实世界挑战的问题。

🏢 该计划将与企业合作,共同开发更具实际意义的基准测试,并针对法律、金融、医疗保健、保险和会计等行业制定特定领域的评估标准。

🛠️ OpenAI将为入选的公司提供研究团队的支持,并帮助其使用强化微调(RFT)训练定制版本的OpenAI模型,以创建在特定任务集上表现优异的“专家”模型。

🎯 参与的公司将专注于解决实际问题,OpenAI希望通过这种方式,使得更智能、更专注的人工智能能够带来显著的改变,并实现生产规模的部署。

OpenAI宣布了其先锋计划,称其为“一项旨在推动人工智能在实际用例中部署的计划”。先锋计划旨在改进评估人工智能模型的方式,因为开发人员和公司都越来越依赖基准来做出明智的决策,决定使用哪种人工智能模型以及如何在其应用程序中进行优化。

此前,Meta最近被指在 LMArena 基准测试中作弊,导致 Llama 4 的排名高于其他模型。先锋计划面向企业,这些企业将与 OpenAI 的研究人员携手合作,开发更有意义的基准测试,以反映现实世界的挑战,而不仅仅是排行榜上的得分。

OpenAI 表示,入选的公司将获得其研究团队的实际支持,重点关注两个关键成果:针对每个行业制定特定领域的评估,并构建旨在处理与该公司运营相关的三大用例的微调模型。

这些定制基准测试的目标行业是法律、金融、医疗保健、保险和会计等行业。OpenAI 指出,目前许多领域尚无统一的 AI 性能衡量标准,这使得公平评估模型或改进模型变得困难。OpenAI 希望通过与这些垂直领域的公司直接合作,定义特定领域中“良好”的标准,并发布这些评估结果供其他人参考。

该计划的另一部分是关于微调的。参与的公司将获得帮助,使用强化微调(RFT)训练定制版本的OpenAI模型。OpenAI使用这种方法来创建在特定任务集上表现优异的“专家”模型。据OpenAI称,这些模型可以投入生产规模部署。

首批入选的初创公司将由少数几家组成,每家公司的入选都基于其所构建项目的实际影响。OpenAI 表示,他们正在寻找能够解决实际问题的团队,在这些问题上,更智能、更专注的人工智能能够带来显著的改变。随着项目的发展,它可能会扩展到更大的公司和更复杂的领域。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI 先锋计划 人工智能 基准测试 微调模型
相关文章