IT之家 2024年10月12日
首个 AI Kaggle 特级大师诞生,OpenAI 的 o1-preview 夺 7 金封王
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI公司推出MLE-bench新基准,用于评估AI智能体开发机器学习解决方案的能力。该基准包含75个Kaggle竞赛,涵盖多领域,还涉及Kaggle的绩效层级。OpenAI在其上测试多个AI模型,o1-preview模型表现最佳,获7枚金牌,但该基准也有局限性。现已在GitHub发布,旨在推动AI发展。

🎯OpenAI推出MLE-bench新基准,包括75个Kaggle竞赛,涵盖自然语言处理、计算机视觉和信号处理等多个领域,旨在衡量自主AI系统在机器学习工程中的进展。

🌟Kaggle是受欢迎的平台,有不同绩效层级衡量数据科学家技能水平和成就,其比赛有多种类型且许多任务具现实应用,如预测疫苗降解等。

💪OpenAI在MLE-bench上测试多个AI模型和智能体框架,使用AIDE框架的o1-preview模型表现最佳,在16.9%的比赛中至少获一枚铜牌,获7枚金牌,超越Anthropic的Claude 3.5 Sonnet,但该基准有局限性,集中在特定任务上。

🌐MLE-bench基准现已在GitHub上发布,OpenAI希望借此推动AI在机器学习领域的进一步发展。

IT之家 10 月 12 日消息,科技媒体 The Decoder 昨日(10 月 11 日)发布博文,报道称 OpenAI 公司推出 MLE-bench 新基准,旨在评估 AI 智能体在开发机器学习解决方案方面的能力。

该基准包括 75 个 Kaggle 竞赛,旨在衡量自主 AI 系统在机器学习工程中的进展。这些竞赛涵盖了多个领域,包括自然语言处理、计算机视觉和信号处理等等。

IT之家注:Kaggle 是一个非常受欢迎的平台,专注于数据科学和机器学习的在线比赛。Kaggle 提供各种类型的比赛,包括数据预测、图像分类、自然语言处理等,适合不同技能水平的参与者。

在 Kaggle 的进阶系统中,“Novice”(新手)、“Contributor”(贡献者)、“Expert”(专家)、“Master”(大师)和 "Grandmaster"(特级大师)是不同的绩效层级,用于衡量和识别数据科学家在 Kaggle 平台上的技能水平和成就。

许多任务具有现实世界的应用,例如预测 COVID-19 mRNA 疫苗降解或解码古代卷轴等。

MLE-bench 专注于两个关键领域:

OpenAI 在 MLE-bench 上测试了多个 AI 模型和智能体框架,使用 AIDE 框架的 o1-preview 模型表现最佳,在 16.9% 的比赛中至少获得了一枚铜牌,该结果超越了 Anthropic 的 Claude 3.5 Sonnet。

获得 5 金即可评上 "Grandmaster" 特级大师,而 o1-preview 模型在 MLE-bench 测试中获得了 7 枚金牌。

OpenAI 承认 MLE-bench 也有局限性,并未涵盖 AI 研究与开发的所有方面,主要集中在具有明确问题和简单评估指标的任务上。

MLE-bench 基准现已在 GitHub 上发布,OpenAI 希望通过这一工具,推动 AI 在机器学习领域的进一步发展。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI MLE-bench Kaggle 机器学习
相关文章